實作了K-means、Sammon's、Fuzzy-C-means演算法,以及SVM未知詞合併的計畫。程式一個接一個寫的過程中,不知不覺熟悉的速度就會愈來愈快,也就愈來愈上手。在寫程式的過程中,因為會碰到問題,因此查API變成了例行公式,漸漸的,有些觀念也應用的比較熟練了,像是 garbage collection,以前總是覺得不需要,但是隨著程式所牽扯的資料量愈來愈大,做gc反而變成了很重要的一回事。
在SVM未知詞合併的計畫裡,目前是用training data訓練SVM,而在training data裡標示為要合併的未知詞組合,像是(婦、唱、夫、隨)這四個"詞"被判定為要合併,但不會將它加進原有辭典中,因為只是讓SVM學會,碰到這種例子的時候,SVM要判定為合併,目的是讓SVM學習;不過現在老師說要將testing data判定為要合併的未知詞組合,要把它加進舊有的辭典裡去。
我有一個疑問,是否要將training data判定要合併的這些未知詞組合也要加到辭典裡,還是只是為了讓SVM學習,不加進去,讓SVM以後再次遇到時,自行判斷合併與否。
這個疑問的兩種解答會造成辭典裡的index不同,畢竟婦唱夫隨這四個字是分開的時候,在辭典裡分屬四個不同的位置,所以餵給SVM的資料也要存四個不同的index;若是在training的過程中將這四個字合併並加入辭典,則這個新詞(四字合起來)只會有一個index,SVM對待它的方式也會大有不同(只會看成一個attribute)。
沒有留言:
張貼留言