這篇取自於 CIKM'2006的論文,內容主要是講如何透過neighboring page的資訊將target page 做分類。
Web page classification有許多資訊可以加以應用,包括網頁的內容及鏈結資訊等,這一篇論文則著重在相鄰網頁可以提供的分類效果。作者將相鄰網頁分成Parent,Child,Sibling及Sprouse四種類別,同時依據相鄰網頁是否經過label與否給予權重,再依相鄰網頁與target Page是否係出同門(網站)給予不同權重,最後對所有的參數如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗。
結論與直觀想法差距不大:
1. 有label的網頁提供的分類效果總是比沒有label的網頁好(η Eta)。
2. 四種鄰近網頁中屬Sibling的效最佳(β Beta)。
3. 來自同一網站的相鄰網頁提供的資訊比其他網站的相鄰資訊有益於分類(θ Theta)。
4. 鄰近網頁與target page的權重比於0.2與0.8是效果最佳(α Alpha)。
對ODP(Open Directory Project)等品質高的網頁分類效果可達90%,但是對一般網頁效果則降至56%,顯示還有相當的改善空間。
2007年1月23日 星期二
2007年1月21日 星期日
seminar 1/23 summary
我這次報的paper是Knowing a Web Page by the Company It Keeps。
這篇paper是來自於 CIKM'2006。
內容主要是講如何透過neighboring page的資訊將target page 做分類。Web page classification有許多technique可以加以應用,包括link structure、neighboring page information等等,不過這一篇paper只著重在neighboring page information的幫忙下做網頁的分類。我認為作者對於neighboring page的分類很仔細,不僅根據link structure切割成四種集合,再將整個neighboring page分成是否經過labeling(是否分類成屬於某種category)兩種,並對所有的parameter如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗,從這方面真的可以看到作者用心之處。我看完這篇paper後,對於web page classification有了初步的了解,特別是neighboring page information的方面,對於影響分類的一些小因素得到了不少啟示。
這篇paper是來自於 CIKM'2006。
內容主要是講如何透過neighboring page的資訊將target page 做分類。Web page classification有許多technique可以加以應用,包括link structure、neighboring page information等等,不過這一篇paper只著重在neighboring page information的幫忙下做網頁的分類。我認為作者對於neighboring page的分類很仔細,不僅根據link structure切割成四種集合,再將整個neighboring page分成是否經過labeling(是否分類成屬於某種category)兩種,並對所有的parameter如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗,從這方面真的可以看到作者用心之處。我看完這篇paper後,對於web page classification有了初步的了解,特別是neighboring page information的方面,對於影響分類的一些小因素得到了不少啟示。
seminar 1/23 note 2
Experiment part
IO-bridge : consider only siblings of the target page within a human labeled dataset
bridge : if two or more pages have the same class, while not committing what that class would be, we call these documents bridges.
IO-bridge : a page B points to both document b1 and b2, and the way from b1 to b2 is to traverse the edge (B,b1) against its direction and then (B,b2). So B is IO-bridge for b1 and b2 because of the inlink to B (b1->B) and followed by an outlink (B->b2). http://delivery.acm.org/10.1145/280000/276332/p307-chakrabarti.pdf?key1=276332&key2=0117839611&coll=GUIDE&dl=GUIDE&CFID=9534706&CFTOKEN=44327035
IO-bridge : consider only siblings of the target page within a human labeled dataset
bridge : if two or more pages have the same class, while not committing what that class would be, we call these documents bridges.
IO-bridge : a page B points to both document b1 and b2, and the way from b1 to b2 is to traverse the edge (B,b1) against its direction and then (B,b2). So B is IO-bridge for b1 and b2 because of the inlink to B (b1->B) and followed by an outlink (B->b2). http://delivery.acm.org/10.1145/280000/276332/p307-chakrabarti.pdf?key1=276332&key2=0117839611&coll=GUIDE&dl=GUIDE&CFID=9534706&CFTOKEN=44327035
seminar 1/23 note 1
Experiment part
K+C from Calado : link-based and content-based combination for web document classification
kNN for content-based , co-citation for link-based.
co-citation : a Web page author will insert links to pages related to his own pages. Apply co-
citation to Web documents by treating links as citations.
http://delivery.acm.org/10.1145/960000/956938/p394-calado.pdf?key1=956938&key2=5009639611&coll=GUIDE&dl=GUIDE&CFID=11980192&CFTOKEN=64981017
K+C from Calado : link-based and content-based combination for web document classification
kNN for content-based , co-citation for link-based.
co-citation : a Web page author will insert links to pages related to his own pages. Apply co-
citation to Web documents by treating links as citations.
http://delivery.acm.org/10.1145/960000/956938/p394-calado.pdf?key1=956938&key2=5009639611&coll=GUIDE&dl=GUIDE&CFID=11980192&CFTOKEN=64981017
2007年1月20日 星期六
訂閱:
文章 (Atom)