2007年1月21日 星期日

seminar 1/23 summary

我這次報的paper是Knowing a Web Page by the Company It Keeps。
這篇paper是來自於 CIKM'2006。
內容主要是講如何透過neighboring page的資訊將target page 做分類。Web page classification有許多technique可以加以應用,包括link structure、neighboring page information等等,不過這一篇paper只著重在neighboring page information的幫忙下做網頁的分類。我認為作者對於neighboring page的分類很仔細,不僅根據link structure切割成四種集合,再將整個neighboring page分成是否經過labeling(是否分類成屬於某種category)兩種,並對所有的parameter如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗,從這方面真的可以看到作者用心之處。我看完這篇paper後,對於web page classification有了初步的了解,特別是neighboring page information的方面,對於影響分類的一些小因素得到了不少啟示。

1 則留言:

Jahui 提到...

英文裡有一句話"A man is judged by the company he keeps", 中文翻成近朱者赤近墨者黑, 這篇論文的標題Knowing a Web Page by the Company It Keeps與那句俚語有異曲同工之妙。