2007年2月12日 星期一

研究計畫(SVM using in Chinese Unknown Word)

之前學期尚未結束時,計畫停頓了一下子。並不是完全停頓,但是進度很慢。直到寒假開始,才又開始趕工。
因為training data太過龐大,因此我一直是以subset來做測試,測試辭典的index、屬性,測試Phase2_training的資料是否有正確處理到,包括計算其sliding window所組成的未知詞之frequency,以及該sliding window未知詞之prefix、suffix結合的機率,還有該sliding window的條件機率( P(1/2.3.4) or P(4/1.2.3) ,0是prefix,5是suffix。<=此例子是sliding window4)。
這幾天我開始用全部的Phase2_training data來跑,才發現了嚴重的問題。程式碼的效率不彰,使得整個程式的物件宣告不是太集中,一下子吃掉了太多記憶體;就是太分散,以致於不知道什麼已經宣告過了... 這是自己經驗的問題,看來我還有得學了。所以最近把程式碼不斷的修過,加上讓java擁有更多的memory來跑,跑出來應該不是什麼問題了。
在testing的部份,我用學長的程式將testing的數十個document組合成一起。結果當掉了...我再問問看學長好了。等到組合好,就可以拿去讓LIBSVM predict了。
而LIBSVM的使用,基本的train、predict功能都不是問題,重點是它有些參數可以調,讓precision可以更高一點,這些參數要怎麼設定現在還是不太確定。看過有人寫的tutorial,他說最好的方法就是 "try!!!"... 是啦,good answer~
另外就是論文的部份,因為實在是沒什麼經驗,所以我想應該要先把想要寫什麼,給弄清楚。之後還要多看看別人的paper,看看別人是如何表達意見的,格式、用字等等,才可以。