[totti's blog] 命名是件麻煩的事: <03/28>這兩三個禮拜

實作了K-means、Sammon's、Fuzzy-C-means演算法，以及SVM未知詞合併的計畫。程式一個接一個寫的過程中，不知不覺熟悉的速度就會愈來愈快，也就愈來愈上手。在寫程式的過程中，因為會碰到問題，因此查API變成了例行公式，漸漸的，有些觀念也應用的比較熟練了，像是 garbage collection，以前總是覺得不需要，但是隨著程式所牽扯的資料量愈來愈大，做gc反而變成了很重要的一回事。
在SVM未知詞合併的計畫裡，目前是用training data訓練SVM，而在training data裡標示為要合併的未知詞組合，像是(婦、唱、夫、隨)這四個"詞"被判定為要合併，但不會將它加進原有辭典中，因為只是讓SVM學會，碰到這種例子的時候，SVM要判定為合併，目的是讓SVM學習；不過現在老師說要將testing data判定為要合併的未知詞組合，要把它加進舊有的辭典裡去。
我有一個疑問，是否要將training data判定要合併的這些未知詞組合也要加到辭典裡，還是只是為了讓SVM學習，不加進去，讓SVM以後再次遇到時，自行判斷合併與否。
這個疑問的兩種解答會造成辭典裡的index不同，畢竟婦唱夫隨這四個字是分開的時候，在辭典裡分屬四個不同的位置，所以餵給SVM的資料也要存四個不同的index；若是在training的過程中將這四個字合併並加入辭典，則這個新詞(四字合起來)只會有一個index，SVM對待它的方式也會大有不同(只會看成一個attribute)。

[totti's blog] 命名是件麻煩的事

2007年3月28日星期三

<03/28>這兩三個禮拜

沒有留言:

實驗室相關連結

網誌存檔

關於我自己