2007年8月13日 星期一

Answering Relationship Queries on the Web

這篇paper來自於WWW 2007,作者為三位IBM T.J Research Center的成員。在這篇paper中,作者想要探討,對於不同的entity(人、事、物),如何透過網路搜尋引擎來找尋其中的關連性。現今的網路搜尋引擎對於keyword matching以及document ranking很擅長,但是如何去處理relationship queries,也就是找尋不同的keyword之間的關連性(ex:我們想要知道A與B兩人之間有無一些共同的特性),卻沒有一套辦法,因此作者提出了這個新的議題,主要內容如下。

這篇論文希望從兩個不同的entity之間,透過網路搜尋引擎,擷取出一些相關的特性。因此作者
1.對兩個entity當作keyword,分別去擷取出一些有關於該entity的網頁(得到兩個網頁的集合),
2.對兩個entity的網頁集合做前處理的動作。
3.從兩個entity所找出的兩個網頁集合中,各自取出一個網頁,做網頁比對(web page matching),以找出它們之間的相似度(關聯性),因此假如每個entity各擷取出五篇網頁的話,我們會有5*5=25個網頁比對的結果,網頁比對的目的,就在於希望從兩個網頁集合中,去找尋他們之間(A集合的網頁與B集合的網頁)是否有存在一些類似的關係(common term),作者以Okapi formula為基礎,加以修正去計算common term的權重(權重高的common term稱為connecting term,表示連結敘述了兩個entity之間的某特定關係)以及每個web page pair的相似度(分數),並且回傳前10高分(相似度)的web page pair,將connecting term與keyword做highlighting以方便使用者得知entities之間的關係描述。

實驗部份,作者展示了7個範例,分別來自於5種不同的scenario(人、地方、公司...之間),像是用兩個人名當作entities,去找尋他們之間有無共通的關係(一起在哪裡工作過、專業領域...)。另外還證明了方法中用到的parameters,對於結果不會有獨斷的影響;以及論文中所提出的幾個方法,對於實驗結果各自的影響力,做一個比較性的小實驗。

WWW 2007: Answering Relationship Queiries on the Web