[totti's blog] 命名是件麻煩的事: Compare&Contrast: Using the Web to Discover Comparable Cases for News Stories

這篇來自於WWW 2007的paper，主要的目的是，為了提供使用者一個能做範例比較與比對的機會，user給定一個news article後，paper裡面所建構的系統會至web search engine去找尋相關的news stories，這也是paper標題選擇的原因。

這篇paper所提出的系統，名稱即為Compare&Contrast，它所做的事情是，給定一篇news article作為input後，一開始我們對這篇article建構一個story model: 對此document做sentence splitting與named entity recognition。paper做named entity tagging的原因是，它想要找出article內主要談論的named entity，可能是人名、地名、組織名等等，此main entity表示了該篇news article所談論的最主要的entity，像是一篇"某國家要求獨立"的此篇新聞中，這個"某國家"就代表了這篇新聞的main entity。除了萃取出main entity之外，我們還想要找出generic situation keyword，這些situation keyword敘述了這篇news article的事件描述以及事件發生的背景原因，因此我們需要擷取出situation keyword，所以paper另外做了non-named entity recognition。

有了main entity與generic situation keyword，我們可以建構一個query到web search engine來尋找相關的news stories，在此paper中，對"相關"的news stories的定義為，有出現類似的generic situation keyword，但是不包含main entity。因此我們會找出有相似事件背景的story，但不會找到與original story相同公司(人物、組織、國家..)的article。

經由上述main entity與generic situation keyword兩者combine起來的query，去web search engine搜尋後，我們會找到一些可能相關的文章。對這些文章，paper使用自己定義的score計算與更改過的TF-IDF算法，去找尋comparable entity，也就是代表這篇"可能相關"文章的main entity，這也是我們主要想找尋的output。

當我們找到這些可能相關的文章與文章的main entity(以系統層面看，即為comparable entity)後，我們做了兩項實驗:
1. 經由觀察，作者發現並不是所有的news article都適合於找尋comparable case，因為有些文章所談論的too general，或是too specific，都不利於找尋comparable case。然而，有些新聞文章，在敘述完新聞內容後，後半段會附上跟此篇新聞內容的類似案件，因此我們可以利用這些新聞文章當作test case，並以其中所附的類似案件當作answer key，以此來判斷我們所找的comparable case是否與這些answer key相符。
2. 除了把找出來的comparable case與answer key相比，作者還想要知道user對這些output的真正看法是什麼。因此paper random找出了6個test case，並邀請5個人來衡量，針對這6個test case，所找出來的comparable case是否為正確的"相關"新聞文章。
WWW 2007 Compare&Contrast:Using the Web to Discover Comparable Cases for News Stories.

[totti's blog] 命名是件麻煩的事

2007年7月4日星期三

Compare&Contrast: Using the Web to Discover Comparable Cases for News Stories

沒有留言:

實驗室相關連結

網誌存檔

關於我自己