[totti's blog] 命名是件麻煩的事: 研究計畫(SVM using in Chinese Unknown Word)

之前學期尚未結束時，計畫停頓了一下子。並不是完全停頓，但是進度很慢。直到寒假開始，才又開始趕工。
因為training data太過龐大，因此我一直是以subset來做測試，測試辭典的index、屬性，測試Phase2_training的資料是否有正確處理到，包括計算其sliding window所組成的未知詞之frequency，以及該sliding window未知詞之prefix、suffix結合的機率，還有該sliding window的條件機率( P(1/2.3.4) or P(4/1.2.3) ，0是prefix，5是suffix。<=此例子是sliding window4)。
這幾天我開始用全部的Phase2_training data來跑，才發現了嚴重的問題。程式碼的效率不彰，使得整個程式的物件宣告不是太集中，一下子吃掉了太多記憶體；就是太分散，以致於不知道什麼已經宣告過了... 這是自己經驗的問題，看來我還有得學了。所以最近把程式碼不斷的修過，加上讓java擁有更多的memory來跑，跑出來應該不是什麼問題了。
在testing的部份，我用學長的程式將testing的數十個document組合成一起。結果當掉了...我再問問看學長好了。等到組合好，就可以拿去讓LIBSVM predict了。
而LIBSVM的使用，基本的train、predict功能都不是問題，重點是它有些參數可以調，讓precision可以更高一點，這些參數要怎麼設定現在還是不太確定。看過有人寫的tutorial，他說最好的方法就是 "try!!!"... 是啦，good answer~
另外就是論文的部份，因為實在是沒什麼經驗，所以我想應該要先把想要寫什麼，給弄清楚。之後還要多看看別人的paper，看看別人是如何表達意見的，格式、用字等等，才可以。

[totti's blog] 命名是件麻煩的事

2007年2月12日星期一

研究計畫(SVM using in Chinese Unknown Word)

沒有留言:

實驗室相關連結

網誌存檔

關於我自己