2007年7月4日 星期三

Compare&Contrast: Using the Web to Discover Comparable Cases for News Stories

這篇來自於WWW 2007的paper,主要的目的是,為了提供使用者一個能做範例比較與比對的機會,user給定一個news article後,paper裡面所建構的系統會至web search engine去找尋相關的news stories,這也是paper標題選擇的原因。

這篇paper所提出的系統,名稱即為Compare&Contrast,它所做的事情是,給定一篇news article作為input後,一開始我們對這篇article建構一個story model: 對此document做sentence splitting與named entity recognition。paper做named entity tagging的原因是,它想要找出article內主要談論的named entity,可能是人名、地名、組織名等等,此main entity表示了該篇news article所談論的最主要的entity,像是一篇"某國家要求獨立"的此篇新聞中,這個"某國家"就代表了這篇新聞的main entity。除了萃取出main entity之外,我們還想要找出generic situation keyword,這些situation keyword敘述了這篇news article的事件描述以及事件發生的背景原因,因此我們需要擷取出situation keyword,所以paper另外做了non-named entity recognition。

有了main entity與generic situation keyword,我們可以建構一個query到web search engine來尋找相關的news stories,在此paper中,對"相關"的news stories的定義為,有出現類似的generic situation keyword,但是不包含main entity。因此我們會找出有相似事件背景的story,但不會找到與original story相同公司(人物、組織、國家..)的article。

經由上述main entity與generic situation keyword兩者combine起來的query,去web search engine搜尋後,我們會找到一些可能相關的文章。對這些文章,paper使用自己定義的score計算與更改過的TF-IDF算法,去找尋comparable entity,也就是代表這篇"可能相關"文章的main entity,這也是我們主要想找尋的output。

當我們找到這些可能相關的文章與文章的main entity(以系統層面看,即為comparable entity)後,我們做了兩項實驗:
1. 經由觀察,作者發現並不是所有的news article都適合於找尋comparable case,因為有些文章所談論的too general,或是too specific,都不利於找尋comparable case。然而,有些新聞文章,在敘述完新聞內容後,後半段會附上跟此篇新聞內容的類似案件,因此我們可以利用這些新聞文章當作test case,並以其中所附的類似案件當作answer key,以此來判斷我們所找的comparable case是否與這些answer key相符。
2. 除了把找出來的comparable case與answer key相比,作者還想要知道user對這些output的真正看法是什麼。因此paper random找出了6個test case,並邀請5個人來衡量,針對這6個test case,所找出來的comparable case是否為正確的"相關"新聞文章。
WWW 2007 Compare&Contrast:Using the Web to Discover Comparable Cases for News Stories.