蘇 超,張宇翔
(中國民航大學 計算機科學與技術學院,天津 300300)
自動關鍵詞提取技術可以快速地抽取目標文檔的主題并給出文檔的核心主旨,其成果廣泛用于文檔檢索[1]、文本分類[2]、文本主題挖掘[3]等具體領域。如以Wang等提出的WordAttractionRank算法[4-6]為代表將詞圖邊的相關信息融合到PageRank框架[7]的轉移概率中;以Sterckx等提出的Single-TPR算法[8-10]為代表利用詞節點信息修改重啟概率;以Zhang等提出的MIKE方法[11]為代表同時將詞圖邊的信息和詞節點的信息融合到轉移概率和重啟概率中。
事實上,完成單詞的評分后,據此對多元候選關鍵詞組的評分同樣會影響最終的提取性能?,F有的多元詞組評分方法根據組成候選短語的單詞計算它的整體得分。Zhang等[12]提出在計算候選短語內含單詞之和的同時為多元詞組按其長度分配權重。這類評分算法的缺陷是對長度越長的詞組評分越高,對通常長度較短的關鍵詞組評分越低。為此,Florescu C等[13]對詞組分配詞組長度的倒數作為權重來彌補之前的缺陷,而且增加了詞組在文檔中的頻率以增強多元詞組的最終得分,但該方法對統計特征的使用單一。
本文在Florescu C等的基礎上,結合候選短語的統計特征,創新性地提出一種單文檔關鍵短語評分方法。該方法分為3步:①根據單詞在文檔中的相鄰關系選出指定長度的候選短語;②使用TD-IDF和4種隨機游走技術對文檔內的單詞評分;③利用候選短語的詞頻特征與位置特征計算候選短語的最終評分,選出排名靠前的k個候選短語作為文檔的關鍵短語。提出方法不僅消除了短語長度的影響,而且充分利用了候選短語在單文檔內的詞頻信息和位置信息,能夠幫助提升最后的提取性能。
為了識別多元短語的重要性,從數據集中統計多元短語的含詞分布情況,見表1。由表1可知,關鍵短語主要集中在一元、二元、三元上,3種數據集高達95%,幾乎概括了全部關鍵短語,因此生成候選關鍵短語時只抽取一至三元的短語。
表1 關鍵短語含詞分布概率/%
1.1.1 一元候選短語
對文檔數據進行詞性過濾和去無用詞,只留下形容詞和名詞作為一元候選關鍵詞集。
1.1.2 二元候選短語
定義d={w1,w2,…,wn},d是1.1.1節中的候選關鍵詞集合,wi是每個候選單詞。根據單詞在window=2的滑動窗口中的共現關系構建邊,如w1-w2,…,wn-1-wn。每一條邊代表一組二元候選短語,加入二元候選短語集合中。
1.1.3 三元候選短語
對二元候選短語中的詞組兩兩拼接,若第一個短語的最后一個詞和第二個詞組的第一個詞相同,則組成三元短語。如果三元短語在原文中出現,則加入到三元候選短語集合中。
傳統的短語評分方法有兩種:一種是對組成候選短語的單詞評分加和;另一種方法在評分加和的基礎上按短語長度分配權重,具體計算方式如下
s(p)=∑wj∈ps(wj)
(1)
s(p)=φ∑wj∈ps(wj)
(2)
前一種方法對于長度越大的短語得分越高,不利于提取重要的一元、二元、三元短語;后一種方法雖然提高了二元、三元短語的權重,但其中φ只是經驗值,在不同的數據集中,實驗結果最優的φ取值不同。
在完成單詞的評分和候選短語的生成后,首先通過組成候選短語的單詞評分得出候選短語的初級評分;再根據特征定義方法找出關鍵短語常有的特征,利用這些特征得到相應的特征權重并完成對候選短語的最終評分。
候選短語的初級評分方法計算如下
(3)
其中,s(p) 是詞組的評分;s(wj) 是單詞wj的評分;|p| 是詞組的長度。式(3)是當式(2)φ取1/|p| 的特殊情況。在傳統的詞組評分方式中,針對不同的數據集,實驗性能最優時φ的取值具有經驗性,且對于新的數據集沒有經驗可循。因此,在本文的方法中取φ=1/|p| 使之具有普適性。
特征定義是定義一些盡可能較好區分關鍵詞和非關鍵詞的特征?;谟斜O督關鍵詞提取方法的特點,本文對候選短語選取總結以下特征:
(1)頻率特征是候選短語在文檔中出現頻率相關的特征,常用的特征有詞頻tf,該特征指短語在給定文檔中出現的次數,通常認為詞頻越高,其在文檔中的重要程度越高,成為關鍵短語的可能性越大。
(2)位置特征則常用候選短語在目標文檔中出現位置的分布、跨度等指標來衡量。出現在文檔中特定位置的短語,如文檔的開頭、段落的開頭等,相對于出現在其它位置的短語,更有可能成為關鍵短語。位置特征具有高效性,被廣泛使用。
(3)長度特征指候選關鍵短語本身及其所在句子的長度。關鍵短語的長度通常小于等于3。
(4)候選關鍵短語的構成(如詞性等)和候選關鍵短語所在句子的句法需滿足特定的語言特征,如專有名詞或特殊格式等。
本文在數據預處理階段,根據語言特征和長度特征,已完成對數據的詞性過濾,且在生成候選短語時抽取了一至三元的短語。因此,完成單詞評分后,針對候選短語的詞頻特征和位置特征選取一些常用度量指標可以增加候選短語成為關鍵短語的可能性。由于本文的設計場景是單文本關鍵詞提取,盡量不依賴于其它文本數據,所以本文只取詞在單文本中出現的頻率
Wtf(p)=tf(p)
(4)
其中,Wtf(p) 指詞組p的詞頻權重;tf(p) 是詞組p在文檔中出現的次數。
位置特征有多個衡量指標,本文嘗試選取候選短語出現位置的分布指標,有以下考量:數據是由標題和摘要整合在一起,位置特征不具備是否出現在段落開頭、是否出現在標題中等條件,故用候選短語每次出現的位置作為權重,計算方法如下
(5)
其中,Wpos(p)指詞組p的位置權重;posi(p)是詞組第i次出現的位置,即詞組p前面的單詞個數;|d| 是文本長度。
最后,整合詞組p的內含單詞的評分、詞頻權重、位置權重計算詞組p最終得分,方法如下
sfinal(p)=s(p)*Wtf(p)*Wpos(p)
(6)
傳統的詞組評分方式對單詞的評分具有很強的依賴性,不同的單詞評分方法最終得出的關鍵短語有差異。文中用關鍵短語在有監督方法中常有的特征,對候選短語進行權重計算,能減少候選短語對于單詞評分結果的依賴,同時區分關鍵短語和非關鍵短語。
實驗中使用3個科學出版物數據集KDD、WWW、SIGIR 全面評估本文的模型。KDD和WWW由(Gollapalli and Caragea 2014)提供,分別包含832、1347篇文章;SIGIR 由ACM信息檢索研究與發展會議的866篇文章組成。每篇文章包括題目,摘要和作者手工標注的關鍵詞,見表2。
表2 實驗中使用的數據集
由表2可知,3個數據集有以下特征:①每篇論文平均有4個關鍵詞;②所有論文中二元關鍵短語占多數,三元和三元以上的關鍵短語較少。
單詞的評分是計算多元詞組評分的前提。為了說明模型的有效性,本文選取了5種著名的無監督單詞評分方法,具體介紹如下:
TF-IDF:最樸素的無監督方法,盡管方法簡單,但提取效果好,是直接根據候選關鍵詞的TF-IDF值對其進行打分排序。
TextRank:該方法首先用PageRank算法對詞圖中的候選關鍵詞進行打分,其中邊權重是共現次數,重啟概率設為1,即r(w)=1。
SingleTPR:該方法在PageRank算法的基礎上,首次使用LDA模型計算文檔的主題分布并將候選關鍵詞的主題信息融合到PageRank框架的重啟概率中。
WordAttractionRank:首次引入詞向量來增強單詞之間的語義關聯,與TextRank相比,同樣修改的是PageRank框架的轉移概率。
PositionRank:將候選單詞在文檔中每次出現的位置加入至PageRank模型中,對重啟概率進行了修改。
在關鍵詞提取的性能評估指標中,廣泛采取以下4種指標:準確率P、召回率R、F值、MRR對提取結果進行測評,其定義如下
(7)
其中,C代表正確提取出關鍵詞的數目,E代表提取出的關鍵詞的數目,S是作者標注的關鍵詞的個數。
MRR衡量每個文檔第一個被準確提取的關鍵詞的排名情況,具體計算如下
(8)
|D|是目標文檔集合,rd為文檔d第一個正確提取結果的排序。
為了驗證文本方法的合理性,取傳統的詞組評分方式和Florescu C等的方法作為對比實驗,以便下文敘述。傳統詞組評分方式命為sum(式(1)),mean(式(2)),Florescu C等的方法命名為mean*tf,本文方法命名為mean*tf*pos。在mean方法中,為了使方法具有對比性,取φ為1/|p|,實驗結果見表3。
因文中所使用的3個數據集里每篇文章的平均關鍵詞個數為4(KDD的是4.08,WWW的是4.88,SIGIR的是3.81,見表2),故實驗中取topk=4評估實驗性能。
由表3可知,本文提出的mean*tf*pos方法明顯優于其它3種詞組評分方式。例如,KDD數據集中,TF-IDF的mean*tf*pos方法的F值達到了0.173,mean方法的F值只有0.115;WWW數據集中,TextRank的mean*tf*pos 方法的F值相對于mean方法提升了5%;此外5種單詞評分方法的mean*tf*pos方法的F值在SIGIR數據集中相比較mean方法都大幅度提高,TextRank甚至高出了10個百分點。
表3 5種單詞評分方法提取關鍵短語方法對比/%(top k=4)
(1)實驗中的評估標準較嚴格,提取出的關鍵詞與標注中給出的關鍵詞完全匹配才算一個正例,而非取詞干后匹配即可,故提升難度較大。
(2)后兩種短語評分方式因短語詞頻因素的加入顯著提升了實驗效果,可知利用詞頻有利于準確提取關鍵短語;
(3)進一步分析,當數據較少,短語詞頻可能相同的情況時需要探討位置因素的作用。
統計3個數據集可知,短語詞頻集中于1次(54%)、2次(26%)、3次(15%),故后續實驗選取上述3種頻率以便分析這種情況。短語對比方法用mean*tf和mean*tf*pos。為方便比較,實驗中取F值評估實驗性能,結果見表4。
表4 不同頻次下短語位置的影響(F值/%)
觀察表4可知,在頻次為2時,5種單詞評分方法在加入位置因素后提取效果顯著提升;在頻次為1和3時,位置因素的作用有利有弊。如KDD數據集中,SingleTPR和WAR在頻次為1的時候加入位置因素后效果沒有單詞頻顯著;SIGIR數據集中,WAR和PositionRank在頻次為3的時候因位置因素的加入提升了提取結果。結合表3可知,本文的方法適用于候選短語頻次不同的情況。
(4)分析單詞評分的提取結果對抽取候選短語的影響?;谏鲜鰪亩陶Z統計層次著手進行的研究,現從單詞的評分結果入手,認為對比短語的sum方法可以間接地評判單詞評分的影響。sum方式是直接將短語包含單詞的評分相加,不同的單詞評分方式得到的單詞評分截然有異。比較5種單詞評分方法提取候選短語結果的F值,得圖1。
圖1 5種單詞評分方法提取結果對比
觀察圖1可知,在3類數據集中,TF-IDF和PositionRank在sum方法及其它3種短語評分方法中F值均最高;在KDD和SIGIR數據集中,當SingleTPR和WAR在sum方法上的F值高于TextRank時,其在mean*tf,mean*tf*pos方法中F值略低于TextRank,但總體趨勢不變。
關鍵短語作為科技文獻的主題,相對于關鍵詞更能體現作者的主體思想。本文針對傳統關鍵短語提取方法受短語長度影響的缺點,提出了一種基于圖的關鍵短語評分方法,雖然增加了提取文本關鍵詞的復雜度,但獲得了較高的準確率,有一定的應用價值。
本文方法在數據預處理階段將標題和摘要整合在一起并且嘗試在位置特征中選取候選短語每次出現的位置,但度量位置特征的指標非常廣泛,未來可進一步選用其它指標檢驗所提出算法的有效性。