社會標注及其在信息檢索中的應用研究綜述

2010-07-18 03:11靳延安李瑞軒文坤梅辜希武盧正鼎段東圣

中文信息學報 2010年4期

靳延安,李瑞軒,文坤梅,辜希武,盧正鼎,段東圣

(1.華中科技大學計算機科學與技術學院,湖北武漢430074;2.湖北經濟學院信息管理學院,湖北武漢430205)

1 引言

標注(Annotation①according toWordNet,a)note,annotation,notation：a comment(usually added to a text);b)annotation,annotating-the act of adding notes.)是閱讀者對文檔內容的一種理解和概括,或者是對文檔內容發表的觀點、態度并提出建議的一種途徑。也有學者把標注理解為“做記號”,記號可以是與其所標示的內容完全獨立的符號系統,也可以是與所標示的內容存在直接關系的詞語,但至少可據此理解“標注”具有標示作用,可提高查找的便利性,具有一定的標引功能。

通常意義上的標注是個體行為。在Web 2.0中,網絡用戶自由選擇標簽(字詞或短語)來標注網絡資源的個體行為被Internet匯集在了一起,形成了社會標注(SocialAnnotation)。這個時候,社會標注可以看作是社會大眾對某個目標的理解、觀點或者看法,比如對網站的可用性和友好性的評論。社會標注的興起是以提供標注服務的網站(如Delicious①http：//Del.icio.us,Flick r②http：//www.flickr.comConnotea③http：//www.connotea.org、CiteULike④http：//www.citeulike.org、Digg⑤http：//www.diig.com)的流行為標志的,這些網站允許用戶選用簡短的字詞對自己喜愛和關注的網頁進行標注并保存在個人賬號中,極大地方便了用戶對個人網絡資源的管理和組織。

近年來在SIGIR、WWW 以及其他刊物和會議上有越來越多的研究工作開始關注社會標注。到目前為止的研究中,有從以下角度對社會標注進行研究：社會標注的理念和優缺點[1-2]、統計特性[3-4]、社會標注改善搜索性能[5-6]等進行了研究。文獻[1]詳細闡釋了社會標注的理念,認為社會標注是一種元數據,文獻[2]認為社會標注由三元組組成(如圖1)。Ciro Cattuto等抓取Delicious和BibSonomy兩個網站的大量數據集,分析了由三元組構成的超圖,發現超圖節點間連接非常緊密,相對路徑長度比較低。同時,基于社會標注共同出現的頻率,構造了社會標注有權超圖,研究了社會標注的統計特性和其網絡結構,認為標注的使用符合冪率分布[3-4]。包勝華等人則使用社會標注設計了相似排序算法SSR和靜態排序SPR算法來優化搜索的結果[5]。

本文將從社會標注的標注對象、標注方法、分類特性、社區發現等幾個方面綜述社會標注在信息檢索方面的應用研究。在文章的最后對目前存在的問題進行總結,并進一步討論社會標注將來的研究方向。

圖1 社會標注三元組

2 標注對象和標注方法

2.1 標注對象

社會標注作為一種新型網絡資源的管理和組織形式,在許多網絡應用中發揮著重要的作用,包括Web頁面、博客文章、圖像以及音視頻等在內的越來越多的網絡資源都得到了標注。隨著對各種資源標注的不斷增加,對社會標注的利用、描述、可視化、組織與檢索效率以及標注系統等方面的研究也日益激增,特別是對網頁資源的研究。

(1)網頁資源

在IE和FireFox瀏覽器中,用戶可以將喜歡的并且希望以后常來看的網頁收藏到所使用計算機中不同的收藏夾是標注最早的形式。因此,可以將收藏夾看作是用戶為了進行網頁標引與信息檢索的方便而建的索引。社會標注已經成為一種普遍的網絡服務,得到許多用戶的關注和歡迎,包括Delicious在內的許多支持社會標注的網站都提供了標注網頁資源的功能,以便用戶在線組織和檢索感興趣的網頁資源。

社會標注本身作為一種元數據,所含有的語義信息和標注之間隱含的鏈接關系可以為計算網頁的相關性的重要指標,從而為網頁資源的快速定位提供有力支持。另一方面,同一社會標注的使用規模也可以作為結果排序的重要依據。文獻[5,7]都在社會標注對搜索性能和質量的改善上做了大量研究。但是,這些研究大都是基于Delicious等網站為研究對象,而且這些網站數據經過規范化、去重以后,規模還非常小。

另外,社會標注的瀏覽和可視化也是非常值得研究的一個方面。在著名的Delicious網站上,已經有數千萬個社會標注。如果這些標注看作是一個社會標注空間的話,如何讓用戶在如此龐大的空間里輕松自如地瀏覽就成為一個必須解決的問題。目前,大多數網站廣泛采用標注云技術來實現流行標注的瀏覽,也有一些網站直接使用標注詞列表來顯示。通常,標注云是從整個標注空間中選擇的頻繁使用的標注,根據頻次的不同使用不同大小和顏色按照字母順序顯示在一個平面上。雖然用戶能夠從標注云中直接觀察到每個標注的熱門程度,但是它僅僅能夠顯示很小部分的標注空間。為了顯示整個標注空間,文獻[8]使用聚類方法將空間中所有的標注根據語義相近的程度自動進行聚類,這種聚類方便了用戶的瀏覽。而Donaldson等人則在GiveA L-ink.org系統中除了按照傳統的語義相似布局標注外,還使用二維的網絡圖來幫助用戶檢索相關標注[9],但是筆者認為這種方法在大規模下是否能用有待進一步研究。

(2)博客資源

博客是一種日志性質的網站,主要由按新舊順序排列的帶有日期的文章及對應的評論組成,不同的博客之間通過鏈接、評論和反向鏈接互相聯系,帶有明顯的社區特性。在博客中,對于社會標注的研究主要集中在社會標注對博客文章的分類作用、標注方法、標注可視化和主題相關性。文獻[10]從Technorati①http：//www.technorati.com,一個著名的博客搜索引擎。從2002年至今,Technorati的博客索引量已經達到1.33億篇。網站收集了使用率最高的350個標注進行分析,發現標注對博客文章進行粗略的分類很有幫助,但對于一篇具體的博客則不然。Gilad M ishne基于合作過濾的方法開發了A utoTag自動標注工具,用戶在標注博客時,該工具可以推薦更為合適的標注。在此基礎上,通過配合博客信息發布的相關控制機制,可以使得用戶的標注過程更加簡單,而且可以保證標注的質量[11]。但是,對于利用標注來組織博客資源的有效性,以及什么樣的功能適合使用社會標注(或者說博客的創作者和讀者從社會標注可以獲得什么好處)的研究很少看到有發表。

(3)圖像資源

隨著標注對象的進一步擴展,如何利用標注來提高檢索圖像資源的效率也成為國內外學者較為關注的問題。圖像作為最重要也是最常見的資源類型往往在數量和格式上以驚人的數量存在。與文本資源相比,圖像資源占用空間更大,能提取出來的特征維數更多。如何建立對高維的海量數據的最優索引從而提高數據檢索效率也越來越成為圖像分析和檢索領域的熱點。目前,圖像檢索技術主要有基于文本的檢索方法(TBIR：Text-based Im age Retrieval)[12]、基于圖像內容的檢索方法(CBIR：Contentbased Image Retrieval)[13]和基于語義的檢索方法(SBIR：Semantic-based Image Retrieval)[14]。

表1 圖象檢索技術比較

從表1可以看出,每種方法都有缺陷,但是如果能夠結合TBIR的人工標注和SBIR能夠解決“語義鴻溝”的優點,將會對圖像資源的檢索性能有更大的提高。文獻[15]認為社會化網絡文本就好像現實社會中某一特定群體的背景信息,使用個性化的社會化網絡文本對圖像進行標注能夠提高人們標注圖像的效率。

隨著Web2.0的發展,越來越多的用戶利用社會標注來組織和檢索的網頁、圖像、信息和博客資源。但是,對于多媒體資源的標注卻比較少見。目前,針對多媒體信息的檢索的主要技術是將多媒體資源與對應的文本空間進行映射,轉換成文本空間進行檢索。

筆者認為如果把社會標注的分類特性和語義特性用在多媒體檢索系統中,將會大大提高多媒體信息檢索的效率。

2.2 標注方法

根據Delicious報告,在整個網絡空間中被標注過的文檔僅僅占到相當小的一個比率,已經被標注過的網頁比率不足萬分之一,這樣就造成了社會標注的稀疏性問題。如何提高網頁、博客、圖像等資源的社會標注普及率,使社會標注更好地服務于信息資源的組織和檢索,從而成為了一個必須解決的問題。社會標注主要有兩種方法：一種是手工標注,廣泛應用于網頁、博客、圖像資源的標注;另外一種就是自動標注,適用于語義網中資源和資源關系的標注。

手工標注最早出現在博客服務中,用戶完成博客文章的撰寫時,往往被要求自由選擇一些簡短的詞對博客文章進行分類。目前流行的Delicious等提供社會標注服務的系統也都采用的是這種方法,允許用戶可以很容易地根據自己的喜好自由選取合適的關鍵詞對網絡資源進行標注、分類,不依賴于某個受控的詞匯表。顯然,由于不同用戶會選取不同的詞來進行標注,這樣會產生一義多詞[16]或者一詞多義[17]等問題,同時,標注可能呈現發散性而不利于信息的組織和檢索。為此,許多學者致力于幫助用戶推薦標注[18-20],以提供標注的準確性和收斂性。

目前,網絡資源增長迅速,加之語義Web呼之欲出,手工標注不可能滿足大規模標注網絡資源的需要。為了解決社會標注的稀疏性,就必須通過自動或者半自動的方法在系統后臺標注網絡資源,或者在前臺對用戶進行社會標注的推薦[10-11,19-22],從而提高標注普及率,解決數據的稀疏性。自動標注方法的一般思路是在整個網絡空間中尋找與當前文檔內容相關的文檔,從這些相關文檔中匯聚成當前文檔候選的社會標注;然后從這些候選的標注中按照某種標準篩選出最恰當的社會標注。文獻[22]分別使用非監督機器學習聚類、基于詞典的方法和基于計算相關性的實驗方法三種方法對政界文檔進行了自動標注,并對三種方法的應用及優缺點進行了對比。

但是有學者認為自動標注違背了Web2.0的開放精神[23],和提取關鍵字沒有區別。需要指出的是,絕大多數的社會標注直觀上可以看作是與文檔內容相關的關鍵詞;但是社會標注與傳統意義上的關鍵詞又是截然不同的。傳統的關鍵詞基本上是從文檔本身抽取出來的,本質上反映了文檔作者對該文檔的概括;而社會標注則是在網絡社會環境下產生的,是由使用者產生的,反映的是使用者對文檔的理解,社會標注可以不出現在文檔中,具有一定的社會屬性,比如傳播性。

筆者認為對網絡資源進行自動標注必須依賴于既有專家分類和已有的標注空間即大眾分類,以避免“冷啟動”[24]問題。社會標注自動標注的一般過程如圖2所示。當爬行器獲取到某個網絡資源時,首先判別是否和某個專家分類一致。如果一致,利用專家分類進行標注;如果不一致,則和大眾分類進行比較,如果一致則取大眾分類中的標簽進行標注。否則,對網絡資源進行標注學習(即利用提取關鍵字和信息抽取技術)獲得該資源的標簽。

圖2 社會標注自動標注過程

3 社會標注與分類

3.1 社會標注的分類特性

在Web 2.0中,每個用戶可根據自己的理解自由選擇一些詞來標注和組織網絡資源,或者參與對任一資源的推薦、評論。例如：截至2009年8月7日,豆瓣成員已經為電影《海角七號》創建了1 985個標注,使用次數最多的前八個標注為臺灣電影、《海角七號》、臺灣、愛情、范逸臣、2008、中孝介、電影[25]。如果采用傳統分類方法,電影《海角七號》可以分入電影或臺灣電影,而不可能分入“《海角七號》、范逸臣、中孝介”這樣的類目。但是在社會標注系統中,由于使用這些標注詞的用戶大量存在,因此可以通過大眾標注建立新的分類,這種分類就是大眾化分類。和傳統的資源描述方法相比,社會標注采用的是自然語言,即依據大眾口頭詞匯對資源予以標記,不需專用詞表,省去傳統文獻標引的查重、概念分析、查表選詞等工作過程,用戶標注時不受限制、自由發揮,可以從不同角度,以不同方式對同一對象發表自己的觀點和評價,使得被標注對象的每一個部分都可能被關注到[26]。例如：電影《海角七號》既有“臺灣電影”這樣的標注,也有“愛情”(描述內容)、“2008”(上映年度)這樣的標注。

綜上所述,可以看出社會標注能夠更全面、更徹底的揭示資源,形成的標注結果更符合大眾的需求。另一方面,當這些具有相同社會標注的資源匯集在一起形成一個標注空間時,可以視社會標注為這些資源的分類類目,具有分類特性。

目前,關于社會標注具有分類特性的研究有很多[10,27-28]。但是,對于社會標注分類特性的利用卻很少,大多集中在信息資源的組織方面[26-27]。筆者認為,除了社會標注的分類特性還可以滿足用戶搜索定位資源的需求。

3.2 社會標注的分類缺陷

隨著Internet的出現,海量的網絡資源使得利用受控語言進行分類和標注的可操作性變得越來越差。嚴格來講,社會標注和分類是兩個對立的概念,文獻[29-30]對兩者做了全面的比較。傳統的信息資源往往依賴于由專家預先定義良好的受控詞匯、分類表、詞典和本體庫,是自上而下的由少數資源控制者集中控制主導的分類。而社會標注是大眾自發的使用用戶自由選擇的詞對網絡信息進行標識和共享,是自下而上的由廣大用戶集體智慧和力量主導的分類。在整個社會標注空間中,所有社會標注都是共享的,空間中沒有明確的、系統的指導原則和范圍注釋說明。因此,不同的用戶以不同的方式在使用標注詞時,會產生固有的歧義。比如：Delicious中的標注“filtering”的有[1]：

?Last.FM-Your personal music network-Personalized on line radio station

? InfoWorld：Collaborative know ledge gardening

? Wired 12.10：The Long Tail

?Oh M y God It Burns!Practical Applications of the Philosopher's stone.For d runks.Brita filtermakes bad vodka into good vodka

?Introduction to Bayesian Filtering

盡管這些頁面都標注為“filtering”,但含義相差很大,比如用水凈化伏特加酒和貝葉斯統計分析是兩個完全不同的主題。再比如ANT(社會學中的Actor Netw ork Theory理論)和ANT(基于Java的build工具)。

另外,傳統的自頂向下的分類具有嚴格的層次性,分類中最基本的詞間都有關系,如有上位類、下位類。而社會標注的分類呈現出一種扁平的結構,標注之間是平等關系,標注詞的選擇不受任何限制,標注內容與標注對象之間的關系并不明顯。層次的缺乏將導致不能很好地定位某特定標注,也沒有辦法揭示標注之間復雜的關系,從而容易妨礙宏觀把握知識的體系結構,進而導致失去很多查找新資源的途徑。當然,目前流行的社會標注服務都提供了相關標注功能,從一定程度上緩解了標注平面性所帶來的缺陷,但沒有從根本上解決層次缺乏的問題。因此,有學者指出,可以利用標注隱含的概念為標注建立層次關系[27]。

由上面分析可知,由于社會標注在分類上的隨意性和缺乏層次性,造成社會標注在應用上存在不能快速精準定位資源的缺陷。對此,筆者認為可以考慮在用戶添加標注后,利用人工智能和本體(Ontology)的方法對該標注進行分析定位,并向用戶顯示其所處的樹狀,甚至網狀的知識體系結構,從而方便用戶從整體上認識該問題。

4 社會標注在信息檢索中的應用

社會標注具有以下4個特性：(1)標引特性：社會標注使用者(非創建者)為了方便日后對Web資源的查找進行的標引;(2)分類特性：當標注相同Web資源的社會標注匯集在一起時,無疑形成了對Web資源的大眾分類;(3)資源發現特性：當用戶瀏覽相關社會標注時,可能發現新的Web社區,這些社區聚合了具有相同主題的Web資源;(4)語義特性：社會標注是使用者對Web資源內容的一種理解、觀點和概括,因此帶有很強的語義。顯然,這4個特性都可以幫助用戶找到預期的信息,因此,社會標注對Web用戶和搜索引擎都有重要的意義,可以利用社會標注來進行信息檢索。一方面用戶可以得到更快更準確的搜索結果,另一方面在對Web上信息資源按照各種不同的類別存儲的前提下,搜索引擎自身能夠更有效率地進行檢索并返回結果。

4.1 社會標注與分類搜索

分類搜索是最早出現的一種網絡信息檢索方法,Yahoo!被認為是分類搜索的鼻祖。原理上,它與基于爬蟲的搜索完全不同,比如Google?；谂老x的搜索通過從互聯網上提取的各個網站的信息(以網頁文字為主)建立索引數據庫,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶。而分類搜索是基于人工標引的檢索方法。它以科學、實用的分類目錄為工具,以規范化的自然語言為類名,在對網絡信息歸納、概括的基礎上,以網站為單元,提供經過專家評價和人工整序的網絡信息。所有網站在分類體系中同聚異分,各有所屬,縱向成枝,橫向成網,只需按圖索驥,同一類屬或相關主題的信息即可循類以求。

用戶從不同的觀點對網頁進行標注,這些標注通常是對相關網頁的很好的總結。比如：Delicious中Amazon主頁的所有標注中位居前5的是shopping、am azon、books、music 和 store。這些標注準確的描述了頁面,并可以看作是計算相似性的新的元數據。因此,當大眾用戶的社會標注匯集在一起,就形成了對資源的分類?？梢岳蒙鐣俗⒌脑獢祿匦詠硭阉骱投ㄎ籛eb資源。文獻[31]介紹了如何通過將標注、分類和瀏覽加以集成,以便提高終端用戶進行聯合檢索的效率。文獻[32]從標準規范到具體應用,具體描述了社會標注理念在軟件組件搜索引擎中的應用情況,并指出社會標注理念可用于改進搜索質量。Hak Kim等人研究指出,通過形式化的概念分析,提出一種新方法用于在標注博客的標注中實現具有上下文關系的社會標注,并建立概念層次[27]。

筆者認為,在分類搜索中,社會標注可以用于信息資源的分類顯示、標注的分類顯示和搜索結果的分類顯示等方面,并將提高分類的能力。但是利用社會標注進行分類搜索需要注意：由于社會標注分類沒有統一的分類標準,相同標注或相似標注在不同的分類體系中的標注含義不盡相同,因此相同或相近的網頁可能分屬不同的標注層次?？梢岳脴俗㈦[含的概念為標注建立層次關系,有了標注的層次,就可以實現分類搜索在性能和質量上的大幅度提高。但同時存在由于標注“垃圾”所帶來的層次過多所造成的負擔。

4.2 社會標注與語義搜索

網絡搜索的實現技術有兩種：一種技術是前文所提到的分類搜索;另一種技術就是全文檢索。這兩種搜索技術有著本質區別。而語義搜索屬于全文檢索的一種,與之對應的是關鍵字檢索。目前流行的大部分搜索引擎如Google、百度都屬于關鍵字檢索。但是,由于關鍵字不能充分的表達語義信息,導致搜索結果無法保證語義的相關度,其效果遠不能使人滿意。

如何有效地填補”語義鴻溝”,實現語義搜索?語義搜索最早出現在上世紀80年代SIGIR會議論文中[33],但由于研究始終受制于語義信息處理發展水平的局限。隨著自然語言處理、人工智能的發展,尤其是語義網技術的興起與發展,語義搜索近來得以迅速發展。盡管到目前為止對語義檢索在概念上仍沒有統一的界定,但不同的研究卻有著共同之處,語義搜索就是基于對信息資源的語義處理來實現效率更高的檢索。語義信息的提取和處理可以是基于語義網方法與技術的,也可以是基于自然語言處理技術的。近兩年,從語義信息提取和處理角度進行研究實現語義搜索,從而提高語義級檢索效率和服務質量已經成為檢索領域的研究難點和最為關鍵的問題。

目前,國內外對此問題的研究具有代表性的有：基于潛在語義索引(Latent Sem antic Indexing)模型的方法[34]、基于詞典(Thesaurus)的方法[35-36]、基于本體和語義標注的方法[37-39]。筆者認為社會標注本身就攜帶有很強的語義信息,它與生俱來的低門檻、易使用等優點必將會成為填補“語義鴻溝”的最有發展潛力并且具有廣闊應用前景的新技術。

在某種程度上,可以用社會標注代替傳統的關鍵詞[5,7]或與關鍵詞一起[40]理解內容的語義并搜索語義相關的信息?；诖蟊娀诸惡蜕鐣Z義信息的語義搜索在國外才剛剛起步,在國內尚處于萌芽狀態,具有廣闊的發展空間。將社會標注與語義搜索結合進行研究是一種新的發展態勢。在國外,有少數學者圍繞社會標注和語義Web做了一些研究。文獻[27]研究了社會標注在語義Web中的應用,通過形式化的概念分析,構建了一種用于在標注博客的標注中實現具有上下文關系的社會標注新方法,并在標注中建立起概念層次。G ruber等人試圖綜合運用本體和社會標注的優勢,構建社會標注中各種標注詞的本體[41]。A l-Khalifa等人則提出在創建語義元數據的過程中開發社會標注的價值,指出通過分析社會標注中的各種標注,在虛擬社群中創建新的標注以及由機器抽取關鍵詞并確立關鍵詞之間的關系,可以進一步挖掘出社會標注的潛在價值[29]。

在國內,圍繞本體與社會標注的研究也開始出現。利用語義標注工具對現有的大量信息進行標注,將使得頁的內容成為機器可識別的數據,從而構成語義的基礎。但是,這些標注工具絕大部分只支持手工標注,少數支持半自動標注(需要用戶指導標注學習過程)。筆者認為,將社會標注與語義Web相結合,推出更為智能化、更為個性化、更易于操作以及更加有利于組織和利用信息的方法與技術,將是未來社會標注領域較為前沿的研究課題。

4.3 社會標注與搜索性能

在過去的十年中,關于提高搜索質量的研究有許多。這些研究大都集中在：1)根據查詢和文檔的相似性進行排序。目前,這種技術包括產生錨文本、抽取元數據、分析鏈接關系和挖掘用戶日志等。2)根據鏈接關系計算得出的文檔質量。

在提升互聯網搜索的用戶體驗上已經有很多前人的工作,其中大部分都專注于改進搜索結果的相關排序,已經提出了很多模型來估計查詢和文檔之間的相似度[42]。在現代搜索引擎的研究中又出現了很多利用元數據來增強相似度排序性能的模型,比如文檔標題[43]、錨文本[44]、以及用戶查詢日志[6]等,這些方法都或多或少地提升了互聯網搜索的性能。另外,網頁的靜態質量也可被用來改進搜索。Brin和Page提出了PageRank[45]利用鏈接結構從網頁創建者的角度去衡量網頁的質量。最近也有人開始利用獨立于網絡鏈接結構的頁面內容布局和用戶在頁面停留的時間來綜合衡量網頁的質量進行排序[46]。

具體來講,在提升網頁搜索效率上有兩方面的表現：社會標注是不同用戶對主題相關的網頁資源的一種具有語義的概要性描述,可以作為相似排序的依據;同一標簽的使用量可以看作是主題網頁的數量規模,這個數量規?？梢宰鳛樵u價網頁重要性的依據。文獻[47]對來自社會標注系統的各種數據進行開發與抽取,構建了可以提高檢索效率和改進檢索性能的概念模型,同時,首次將網站的點擊排名和社會標注對同一網站的標注強度結合在一起來改善搜索效果。文獻[48]指出,社會標注為信息過濾和信息檢索領域開創了新局面,可以被進一步應用到數字資源的相關度排序中。作者從定性的角度,構建了一個概念模型和一項評估機制,研究了標注系統Q tag的性能,并指出系統通過提供用戶標注來實現資源相關度排序并支持用戶使用更具有共享性的標注來表達自身的意見與觀點。

4.4 社會標注與資源發現

近幾年關于社會網絡的研究方興未艾,已經有一些研究工作[10,49]開始關注社會標注所具有的社區特性,但研究成果還不多。社區(Community)就是網絡中結點的集合,社區中的節點之間具有緊密的連接,而社區之間則為松散的連接[50-51]。因此,可以通過分析三元組將使用相同標注的用戶看作是一個用戶社區,也可以將具有相同標注的資源看作是一個主題社區,還可以將具有相近語義的社會標注看作是一個標注社區。文獻[10]抽取了使用率最高的350個標注進行分析,判斷同一標注所標注的所有博客網頁是否具有主題上的相關性。李昕[49]等人正是從社會標注形成的社區中試圖自動發現社會大眾共同的興趣。從更加深刻的角度來看,具有社會標注的Web資源共享是一種知識的發現與共享。只要這些Web資源被其他用戶用同一個社會標注標記過,用戶就可以通過標注發現自己以前并不知道的Web資源,而這些新發現的網頁對用戶來說往往更有價值?；谏鐣俗⒕哂械纳鐣院蜐撛诘恼Z義,構建特定領域的社會網絡,并在社會網絡中進行語義搜索將對搜索的查準率、召回率和排序產生深遠的影響。

目前,關于社區發現的策略和方法主要有兩類,一類是從社會網絡本身的結構出發,也就是利用圖形理論,通過一些算法來發現社區,這類算法偏向于封閉數據。比如利用圖分割問題(Graph Partitioning Problem)的譜分解(Spectral bisection)的方法[52-53]、Kernighan-Liu(KL)方法[54],凝聚的和分裂的層次聚類法[50,55],基于邊中介性的GN 算法[51,56]等等。另一類,從包含社會網絡的資源出發,利用共現性(Cooccurrence)構建社會網絡[57-58]。這一類普遍是計算兩個資源共同出現的頻率,當頻率高于某個閾值時,認為它們屬于同一社區。兩類方法中譜平分、KL方法、層次聚類法需要指定社區的規模大小和社區的數目?；谶呏薪樾缘腉N方法雖然不需要指定社區規模大小和數目,但是算法時間復雜度比較高O(m2n),并且該GN算法強迫任何一個節點必須屬于一個社區,而不考慮是否真正有意義。

以上方法有一個共同的缺陷就是都沒有考慮領域知識。共現性雖然表面上不存在以上問題,但是由于共現性存在數據規模的稀疏性問題,必須合理做平滑處理。

5 存在問題和未來研究方向

目前,雖然社會標注應用比較廣泛,但是由于難以對其語義進行管理和應用,社會標注的利用還遠遠不能讓人滿意。目前在社會標注研究領域依然存在如下問題和挑戰：

(1)社會標注缺乏統一規范

社會標注由用戶隨意標注,通常比較模糊且簡短不規范,盡管可以被用戶理解,但是從信息檢索的角度看還不能被充分利用。筆者認為應該從兩個層面規范社會標注：一是社會標注的使用。目前,社會標注只針對單個詞匯的,不允許標注中出現空格。因此,在標注時,要規范標注的單復數、連接符號、詞形、詞性等。二是標注的層次,適當增加等級類目,以提供快速精確定位信息資源。

(2)挖掘社會標注的語義

社會標注是由大眾產生,當這些標注匯集在一起時,由于缺乏規范和層次性,使得很難從大量的社會標注以及它們對應的網頁中建立起層次結構的語義關系。如果要形成社會標注的語義關系,就必須需要理解社會標注與專家分類體系之間到底有怎樣本質的聯系,必須消除社會標注的由于不規范所造成的各種缺陷：歧義缺陷(不同學科、不同專業、不同國家和地區、不同語境中對同一標注詞理解差異而形成的歧義,例如：農業領域中,如果都用“雞毛菜”作為標注,一種意思是上海地區人們稱小白菜為“雞毛菜”,而在植物學中,“雞毛菜”是一種亞熱帶行海藻,屬石花菜科);同義缺陷(同一概念所用標注詞不同而導致相關信息查全率的降低,例如：馬鈴薯、土豆、洋芋);同現缺陷(無法處理相關標注詞同現而帶來的復雜概念表達的欠缺,例如：紅的、圓的水果);語法缺陷(無法處理不同標注詞之間語法關系表達的損失,比如寫文章和寫的文章);權重缺陷(不同標注詞出現的先后順序表達的缺失)。目前,關于標注缺陷的研究集中在前面兩個,對于后面的缺陷鮮有研究。

(3)社會標注稀疏性問題的解決

許多研究都以Delicious為研究對象,僅有很少的一部分研究主題與Web信息檢索有關。文獻[5]和[47]提出了修改包括標注在內的搜索算法,然而這兩個研究都沒有論證Delicious是否能夠產生足夠數量、質量來支持他們的方法。對于諸如如何利用大眾分類和專家分類自動標注網絡資源,提高社會標注的普及率,進而來提高標注資源的搜索這一類面向社會標注的語義搜索應用,尚未引起業界廣泛的關注和研究。

(4)垃圾社會標注的處理

目前,在提供社會標注的系統中,存在大量惡意的、無用的垃圾社會標注,這些垃圾標注十分不利于對網絡資源的共享、檢索、定位。對于垃圾社會標注,BibSonomy主要依靠手工檢查和刪除[3],其他很多提供此服務的社會標注系統也是采用手工方式。因此,能夠自動檢測垃圾社會標注是當前社會標注利用必須解決的一個問題。

(5)標注粒度問題

如今,提供社會標注的系統可標注的對象局限于某個網頁或某篇文章。但有時對人們真正有用的信息只是其中的一部分,一個段落甚至一句話,因此,用戶在通過標簽找到該資源后,仍需要花一定的精力去尋找對自己有價值的那部分內容。這時,可以考慮讓用戶定位資源中的“相關內容區域”,例如,若干個段落、若干句子、圖或表等,使資源內的具體內容單元可以被區分和單獨標引。當然,也要避免標注粒度太小而帶來標注負擔的問題。

(6)信息檢索

社會標注在信息檢索中的應用研究還很少,僅有的成果集中在分類搜索和利用社會標注隱含鏈接來計算網絡資源相關性和結果排序方面。但是,關于社會標注在信息檢索的用戶界面表示、語義信息挖掘及可視化方面還鮮有研究。另外,將社會標注的資源發現能力應用在信息檢索中也是有待進一步研究的一個熱點。

6 結束語

隨著提供社會標注服務系統的急劇增加,對社會標注服務的應用研究越來越成為研究領域關注的問題,目前人們已經在這方面做了大量的工作,本文對最近幾年來國內外在該領域的主要成果進行了回顧與總結,綜述了社會標注的研究現狀,包括社會標注的標注對象、標注方法及其分類特性、在信息檢索中的應用等等,并在綜述的同時指出仍然存在的問題和將來進一步研究的方向?？偟膩碚f,對社會標注的研究仍然處于剛剛起步的階段,離商業應用還有很長的路要走,仍然有大量關鍵的問題還需要做深入細致的研究。

[1] M athes A.Fo lksonom ies-Cooperative Classification and Communication through Shared Metadata[OL].http：//www.adammathes.com/academic/computermediated-communication/folksonomies.htm l.

[2] Lambiotte R.and Ausloos M.Collaborative Tagging A s A Tripartite Network[C]//Proceedings of the International Conference on Computational Science.Sp ringer-Verlag,2006：1114-1117.

[3] Cattuto C.,Schm itz C.,Baldassarri A.,et al.Network Properties of Folksonom ies[J].AICommunications Journal,Special Issue on Network Analysis in Natural Sciences and Engineering,2007,20(4)：245-262.

[4] Cattuto C,Loreto V.,Pietronero L.Sem iotic Dynamics and Collaborative Tagging[J].Proceedings o f the National Academy of Sciences,2007,104：1461-1464.

[5] Shenghua B.,Xian W.Op timizing W eb Search Using Social Annotations[C]//Proceedings of Word Wide Word(WWW 2007).New York：ACM,2007：501-510.

[6] GuiRong X.,Huajun Z.,Zheng C.,Yong Y.,et al.Optimizing Web Search Using Web Click Through Data[C]//Proceedings o f ACM International Con ference on In formation and Know ledge M anagement(CIKM 2005).New York：ACM,2005：118-126.

[7] H otho A.,J schke R.,Schmitz C.,etal.In formation Retrieval in Fo lksonom ies：Search and Ranking[C]//Proceedings of the 3rd European Semantic Web Conference(ESWC2006).M ontenegro：Springer,2006：411-426.

[8] Begelman G.,Keller P.,Smadja F.Automated Tag Clustering Imp roved Search and Exp loration in the Tag Space[C]//W orkshop of Collaborative W eb Tagging atW orld W ide Web(WWW 2006).2006.

[9] Justin J.,M ichaelC.,Benjam in M.,Heather R.,et al.Visualizing Social Links in Exp loratory Search[C]//Proceedings of the 19th ACM Con ference on H ypertext and hypermedia.New York：ACM.2008：213-218.

[10] Brooks C.,Montanez N.Imp roved Annotation o f the Blogosphere via Autotagging and H ierarchical Clustering[C]// Proceedings of W orld Wide W ord(WWW2006).New York：ACM.2006：625-632.

[11] M ishne G.AutoTag：A Co llaborative App roach to Automated Tag Assignment for W eblog[C]//Proceedings of W orld W ide W ord(WWW 2006).New York：ACM,2006：953-954.

[12] Tamura H.,Yokoya N..Image Database System s：A Survey[J].Pattern Recognition,1984,17(1)：29-43.

[13] A rnold W.M.S.,MarcelW,Simone S.,et al.Content-Based Image Retrieval at the End o f the Early Years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12)：1349-1380.

[14] Ben B..Semantic Based Image Retrieval：A Probabilistic A pp roach[C]//Proceedings o f the 18th ACM International Con ference on M ultimedia.New York：ACM,2000：167-176.

[15] Shevade B.,Sundaram H.,Lexing X..Modeling Personal and Social Network Context for Event Annotation in Images[C]//Proceedings of the Con ference on Digital libraries.New York：ACM,2007：127-134.

[16] Ching-man A.Y.,Gibbins N.,Nigel S..Tag Meaning Disambiguation through Analysis of T ripartite Structure of Folksonom ies[C]//Proceedings of the 2007 IEEE/WIC/ACM International Con ferences on Web Intelligence and Intelligent Agent Techno logy w orkshop(W I-IATW 2007).Washington,DC,：IEEE Computer Society,2007：3-6.

[17] 金澎,吳云芳,俞士汶.詞義標注語料庫建設綜述[J].中文信息學報,2008,22(3)：16-23.

[18] Robert J.,Leandro M,Andreas H,et al.Tag Recommendations in Folksonomies[C]//Proceedings of the 11th European Conferenceon Princip les and Practice of Know ledge Discovery in Databases.Warsaw,Po land：Sp ringer-Verlag,2007：506-514.

[19] Sigurb B,Roelof V.Flickr Tag Recommendation Based on Collective Know ledge[C]//Proceedings of World Wide Web(WWW 2008).New York：ACM,2008：327-336.

[20] Jian W,Brian DD.Exp lorations in Tag Suggestion and Query Expansion[C]//Proceedings of the 2008 ACM w orkshop on Search in social media.New York：ACM,2008：43-50.

[21] Fuxman A.,Tsaparas P.,Achan K.et al.Using the Wisdom of the Crow ds for Keyword Generation[C]//Proceedings of World W ide W eb(WWW 2008).New York：ACM,2008：61-70.

[22] K lebanov B.B.,Daniel D.,Beigman E..Automatic Annotation of Semantic Fields for Political Science Research[J].Journal of In formation Technology&Po litics,2008,5(1)：95-120.

[23] Culotta A.,Bekkerman R.,M cCallum A..Extracting Social Netw orks and Contact In formation from Email and the Web[C]//CEAS-1,2004.

[24] Andrew I.Schein,A lexandrin Popescul,Ly le H.Ungar,David M.Pennock.Methods and Metrics for Co ld-Start Recommendations[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2002).New York City,New York：ACM：253-260.

[25] 豆瓣網關于電影《海角七號》的社會標注頁面[OL].h ttp：//www.douban.com/sub ject/3158990/?i=0.

[26] 張玫,張曉琳.Connotea中Social Tagging機制研究[J].現代圖書情報技術.2007(7)：1-4.

[27] Hak L.K.,Suk H.H.,Hong G.K..FCA-based App roach for M ining Contextualized Folksonomy[C]//Proceedings of the ACM Symposium on A pp lied Computing(SAC2007).New York：ACM,2007：1340-1345.

[28] A liakbary S,Khayyam ian M,Abo lhassani H.Using Social Annotations for Search Results Clustering[C]//Proceedings of the 13th International Computer Society of Iran Com puter Conference.Heidelberg,Berlin：Springer,2008：976-980.

[29] Al-Khalifa,Hugh C..Fo lksAnnotation：A Semantic M etadata Tool for Annotating Learning Resources U-sing Fo lksonom ies and Domain Ontologies[C]//Innovations in In formation Technology.Dubai：IEEE,2006：1-5.

[30] Ernst J..What A re the Differences between A Vocabulary,A Taxonomy,A Thesaurus,An Ontology,and A M eta-Model?[OL] ：http：//www.metamodel.com/article.php?story=20030115211223271;January 15,2003.

[31] Barrow s J.T..Features：Search Considered Integral[J].Queue,2006,4(4)：30-36.

[32] VanderleiA.,Durao A.,Martins A,et al.A Cooperative Classification Mechanism for Search and Retrieval Softw are Components[C]//Proceedings of the ACM Sym posium on A pp lied Com puting(SAC2007).Seoul：ACM,2007：866-871.

[33] K raw czak D.,Sm ith P.,Shute S..EP-X：A Demonstration of Semantica lly Based Search of Bibliographic Databases[C]//Proceedings of the 10th annua l international ACM SIGIR con ference on Research and development in information retrieval(SIGIR1987).New York：ACM ：263-271.

[34] Furnas G.W.,Deerw ester S..In formation Retrieval Using A Singular Value Decomposition Model of Latent Semantic Structure[C]//Proceedings of the11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIG 1988).New York：ACM,1988：465-480.

[35] Voorhees E.M.Using WordNet to Disambiguate Word Senses For Tex t Retrieval[C]//Proceedings o f the 16th Annual International ACM SIGIR Con ference on Research and Development in Information Retrieval(SIGIR1993).New York：Sp ringer,.1993：173-180.

[36] Voorhees E.M.Query Expansion Using Lexical Semantic Relations[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1994),New York：Sp ringer,1994,61-69.

[37] Guha R,M ccool R,M iller E..Semantic search.In：Proceedings of W orld W ide Web 2003(WWW 2003)[C]//New York：ACM,2003：700-709.

[38] Zhang L,Yu Y..An Enhanced Model for Searching in Semantic Portals[C]//Proceedings of World W ide Web 2005(WWW 2005).New York：ACM,2005：453-462.

[39] May field J,Finin T..Information Retrieval on the Semantic W eb：Integrating Inference and Retrieval[C]//Proceedings of SIGIRWorkshop on the Semantic Web(SIGIR2003).New York：ACM ：325-334.

[40] W u X.,Zhang L.,Yu Y..Exp loring Socia l Annotations for the Semantic Web[C]//Proceedings of World Wide Web(WWW 2006).New York：ACM,2006：417-426.

[41] G ruber T..Onto logy of Folksonomy：A Mash-up of Apples and O ranges[J].International Journal on Semantic Web and Information Systems 2007,3(1)：1-11.

[42] Salton G.,M cGillM.J..Introduction to M odern Information Retrieval[M].New York：M cG raw-H ill,1983.

[43] H u Y.,Xin G.,Song R.,et al..Title Extraction from Bodies of H tm l Documents and Its App lication to W eb Page Retrieval[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in In formation Retrieval(SIGIR2005).New York：ACM,2005：250-257.

[44] Westerveld T.,K raaijW.,H iemstra D..Retrieving Web Pages Using Content,Links,U rls and Anchors,Pages[C]//Proceedings o f TREC10.2001：663-672.

[45] Page L.,Brin S.,Motwani R,.The Pagerank Citation Ranking：Bringing O rder to the Web[R].Tech-nical report,Stanford Digital Library Technologies Project,1998.

[46] Richardson M.,Prakash A.,Bril E..Beyond Pagerank：Machine Learning For Static Ranking[C]//Proc.of W orld WideWeb(WWW 2006).New York：ACM,2006：707-715.

[47] Yanbe Y.,Jatow t A.,Nakamura S.,et al.Can Social Bookmarking Enhance Search in the Web?[C]//Proceedings o f the Con ference on Digital libraries(DL2007).New York：ACM,2007：107-116.

[48] Lee S.E.,Han S.S..Q tag：Introducing theQualitative Tagging System[C]//Proceedings of the 18th Conference on Hypertextand H yperdedia(HH 2007).New York：ACM,2007：35-36.

[49] Li Xin,Guo Lei,Y ihong,Eric Zhao.Tag-based Social Interest Discovery[C]//Proceedings of World W ide Web(WW 2008).New York：ACM,2008：675-684.

[50] Scott J.Social Netw ork Analysis：A H andbook.2nd edition[M].London：Sage Pub lications,2000.

[51] Girvan M.,Newman MEJ..Community Structure in Social and Biological Networks[J].Proceedings of the National A cademy of Sciences of the United States of America,2002,99(12)：7821-7826.

[52] Fiedler M.A lgebraic Connectivity of G raphs[J].Czechoslovak Mathematical Journal,23(2)：298-305.

[53] Pothen A.,Simon H.,Liou K..Partitioning Sparse Matrices with Eigenvectors of G raphs[J].SIAM Journalon Matrix Analysis and Application.1990,11(3)：430-452.

[54] Kernighan W.,Lin S..An Efficient Heuristic Procedure for Partitioning Graphs[J].Bell System Technica l Journal.1970(49)：291-307.

[55] Girvan M.,Newman M EJ..Finding and Evaluating Community Structure in Networks[J].Physical Review E 2004(69),arXiv：cond-mat0308217,2004.

[56] G leiser P.,Danon L..Community Structure in Jazz[DB].arXiv：cond-mat0307434,2003.

[57] Faloutsos C.,KSM,and A.Tomkins.Fast Discovery of Connection Subgraphs[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining(SIGKDD2004).New York：ACM ：118-127.