[totti's blog] 命名是件麻煩的事: Answering Relationship Queries on the Web

這篇paper來自於WWW 2007，作者為三位IBM T.J Research Center的成員。在這篇paper中，作者想要探討，對於不同的entity(人、事、物)，如何透過網路搜尋引擎來找尋其中的關連性。現今的網路搜尋引擎對於keyword matching以及document ranking很擅長，但是如何去處理relationship queries，也就是找尋不同的keyword之間的關連性(ex:我們想要知道A與B兩人之間有無一些共同的特性)，卻沒有一套辦法，因此作者提出了這個新的議題，主要內容如下。

這篇論文希望從兩個不同的entity之間，透過網路搜尋引擎，擷取出一些相關的特性。因此作者
1.對兩個entity當作keyword，分別去擷取出一些有關於該entity的網頁(得到兩個網頁的集合)，
2.對兩個entity的網頁集合做前處理的動作。
3.從兩個entity所找出的兩個網頁集合中，各自取出一個網頁，做網頁比對(web page matching)，以找出它們之間的相似度(關聯性)，因此假如每個entity各擷取出五篇網頁的話，我們會有5*5=25個網頁比對的結果，網頁比對的目的，就在於希望從兩個網頁集合中，去找尋他們之間(A集合的網頁與B集合的網頁)是否有存在一些類似的關係(common term)，作者以Okapi formula為基礎，加以修正去計算common term的權重(權重高的common term稱為connecting term，表示連結敘述了兩個entity之間的某特定關係)以及每個web page pair的相似度(分數)，並且回傳前10高分(相似度)的web page pair，將connecting term與keyword做highlighting以方便使用者得知entities之間的關係描述。

實驗部份，作者展示了7個範例，分別來自於5種不同的scenario(人、地方、公司...之間)，像是用兩個人名當作entities，去找尋他們之間有無共通的關係(一起在哪裡工作過、專業領域...)。另外還證明了方法中用到的parameters，對於結果不會有獨斷的影響；以及論文中所提出的幾個方法，對於實驗結果各自的影響力，做一個比較性的小實驗。

WWW 2007: Answering Relationship Queiries on the Web

[totti's blog] 命名是件麻煩的事

2007年8月13日星期一

Answering Relationship Queries on the Web

沒有留言:

實驗室相關連結

網誌存檔

關於我自己