?

基于主題模型的短文本關鍵詞抽取及擴展

2019-05-31 01:12曾曦陽紅常明芳馮驍騁趙妍妍秦兵
關鍵詞:特征詞類別短文

曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵

(中國電子科技集團公司第三十研究所,四川 成都 610000)

0 引言

關鍵詞抽取一直以來都是信息抽取領域內一個重要的研究方向,如同摘要在長文本中所起的重要作用一樣,關鍵詞能準確地反映出短文本所要表達的內容,是人們快速了解文檔內容、把握主題的重要方式。并且關鍵詞對自然語言處理領域的文本分類和文本聚類任務有積極作用;同樣關鍵詞在信息檢索領域也有重要的應用價值。然而在海量的互聯網文檔中又僅有少部分帶有關鍵詞標注,如何給短文本打上一個表意準確的關鍵詞標簽成為信息抽取領域的重要問題。

本文提出一種基于文檔主題特征的關鍵詞抽取及關鍵詞擴展方法,系統框架如圖1所示。首先對短文本進行分詞及詞性標注等預處理,然后采用TF-IDF算法計算出詞的初始權重,并且訓練短文本的主題模型,得到短文本的分類信息和類別特征詞,再采用單語詞對齊技術抽取出短文本中的詞搭配,之后根據上述信息對關鍵詞權重進行調整,通過閾值篩選出關鍵詞,最后構建詞的表示向量,通過計算詞與短文本之間的相似度找到與內容信息最貼合的類別特征詞作為擴展關鍵詞,建立短文本的關鍵詞集合。

Fig.1 Architecture of the system圖1 系統框架圖

1 相關研究概述

在關鍵詞抽取研究初期,最常用的方法是通過詞的出現頻次來獲得關鍵詞,然而這種方法所取得的效果并不理想。之后人們采用有監督的機器學習方法來抽取關鍵詞,1999年Turney將關鍵詞抽取問題看成是一個分類問題[1],通過關鍵詞的出現位置和長度等特征來訓練學習,所抽取到的結果要明顯優于統計方法得到的結果。Frank等人將樸素貝葉斯的方法應用在關鍵詞抽取任務中[2],使得結果有了進一步提升。Hulth加入了更多的語言學知識[3-4],如句法特征,在實驗結果上獲得了一定的成功;但是隨著網絡數據規模的增加,人工標注數據的工作量變得異常巨大,目前人們主要采用基于圖的方法來抽取關鍵詞。2004年Mihalcea和Tarau將PageRank算法思想帶入到了關鍵詞抽取領域[5],提出了一種基于圖的排序算法TextRank。Litvak和Last將同樣用于網頁排序的HITS算法用于候選關鍵詞排序[6],在F值上取得了一定的提升。Wan等人通過聚類的方法將相似文檔中的知識應用在圖模型中[7-8]。Liu提出基于文檔內部信息構建主題的關鍵詞方法[11],通過計算語義相似度來對候選詞進行聚類,再通過聚類中心詞找到合適的關鍵詞,之后Grineva將多主題文檔的方法應用在構建語義圖模型上[9]。Elbeltagy和Rafea創建的KP-Miner系統在關鍵詞抽取結果上有著不錯的效果[10]。該系統對關鍵詞詞頻和反文檔頻率統計提出了更高的要求,并對關鍵詞出現在文章中的位置與其重要性關系進行了分析。2013年You對現有關鍵詞抽取系統進行了總結[12],并針對前人缺點進行了改進,對候選詞的預處理提出了更高的要求。對于圖模型的方法而言,訓練時間相對較長,無法在短時間內構建索引滿足用戶需求。

關鍵詞擴展任務可以借鑒查詢擴展任務,查詢擴展主要為了改善資訊檢索召回率,將原來查詢語句增加新的關鍵字來提高查全率和查準率。查詢擴展任務分為全局分析[13-14]、局部分析[15-19]、基于用戶查詢日志[20]和語義相似度計算[21]等幾個方面;關鍵詞擴展并不是針對單一的查詢語句,而是對大量文本補充關鍵詞,豐富其含義,在構建索引的時候就擴展了數據的內容,而不是在檢索的時候擴展查詢語句的含義。關鍵詞擴展的方法類似于查詢擴展中的全局方法,并采用局部分析中的一些優化策略,使用全部文檔蘊涵的相關信息擴展關鍵詞[22-25];2009年Wang將關鍵詞抽取和擴展應用在聚類任務中[26],實驗結果有一定提升。2014年Abilhoa[27]提出一種推文集合的關鍵字提取方法,它將文本表示為圖并應用中心度量來查找相關頂點作為關鍵詞。2017年Zhao[28]將神經網絡的詞向量特征應用于短文本關鍵詞抽取系統,在Textrank的基礎上其實驗結果獲得一定的提高。與長文本相比短文本的統計特性相對較弱,在抽取關鍵詞任務中所遇到的困難更多。本文所提出的基于主題模型的關鍵詞抽取及擴展方法上與前人有著本質的不同,考慮到了主題分類信息和詞搭配信息,關鍵詞抽取效果也更加精確。 并且通過構建詞的表示向量來計算詞和文本的相似度,從而擴展出關鍵詞,豐富短文本含義。

2 關鍵詞抽取

2.1 概述

本文所采用的基于主題模型的關鍵詞抽取方法主要分為5個步驟:(1)預處理,獲取初步的候選關鍵詞;(2)關鍵詞賦權,基于改進的TF-IDF方法給關鍵詞一個初始權重;(3)LDA主題模型,根據類別特征詞對關鍵詞權重進行調整;(4)詞搭配抽取,根據詞搭配信息對權重進行調整;(5)根據閾值抽取關鍵詞。圖2為關鍵詞抽取的一個實例圖。

Fig.2 Process of the proposed keyword extraction圖2 關鍵詞的抽取過程

2.2 關鍵詞初始權重賦值

本文首先通過文本分詞,詞性標注和停用詞等方法獲得候選關鍵詞,如圖2中步驟1,去掉“一直”“屬于”等詞。

2.2.1 基于TF-IDF的關鍵詞賦權

TF-IDF是一種統計方法,用以評估字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。本文基于漢語中詞語長度與詞語重要程度存在一定關系,對原有TF-IDF算法做出了改進,通過公式(1)對候選關鍵詞打分,獲得候選關鍵詞的基本權重值。

Scoreti=tfi,j×idfi×len(ti)

(1)

上式中Scoreti為ti的最終權重值,tfi,j表示詞頻,指的是某一個給定的詞語在該文件中出現的頻率。idfi表示逆向文檔頻率,表示是一個詞語普遍重要性的度量,len(ti)為詞語ti的字節長度。ni,j是詞ti在文件dj中出現的次數,而分母則是文件dj中出現所有字詞的出現次數之和;|D|是語料庫中文件總和,|{j:ti∈dj}|表示包含詞語ti的文件總數,計算結果如圖2中步驟2所示。

2.2.2 基于規則的關鍵詞賦權

通過觀察數據發現,在每一條短文本中有一些特殊的字詞可以直接作為關鍵詞,這些字詞往往可以直接表達該文本的某些特定信息,因此本文在TF-IDF的基礎上采用下列規則抽取一些字詞作為候選關鍵詞,并直接打上一定分數,用以表達這類關鍵詞的特殊性,規則如下:

(1)根據書名號或括號抽取書名、歌曲名等作為候選關鍵詞,如“趙薇主演過《還珠格格》《情深深雨蒙蒙》”,其中“還珠格格”“情深深雨蒙蒙”的權重值如公式(2)所示:

Scoreti=2.0 .

(2)

(2)根據此類文本的特殊性,抽取一些短標題直接作為候選關鍵詞,如圖2中的“楊坤”,其權重值如公式(3)所示:

Scoreti=2.0 .

(3)

(3)根據共現信息將一些詞合并成常見短語,常見短語就是人們在日常生活中經常能夠看到或者使用到的短語,如圖2中的“內地歌手”,其權值如公式(4)所示:

Scoreti=1.0 .

(4)

2.3 基于LDA主題模型的關鍵詞賦權

LDA(Latent Dirichlet Allocation,隱含狄利克雷分配[29])主題模型是近年來在中文信息處理領域發展起來的一種生成主題概率模型,它基于一定的常識性假設:文檔集中所有文檔均按照一定比例共享隱含主題集合,而隱含主題集則是由一系列相關特征詞組成。LDA模型定義每篇文檔均為隱含主題集的隨機混合,從而可以將整個文檔集特征化成隱含主題的集合。

本文將大規模短文本用LDA主題模型進行聚類,通過類別信息來進行關鍵詞表示,為關鍵詞擴展中的相似度計算提供數據;并通過主題模型得到每個類別下的主題特征詞,將這些特征詞作為關鍵詞抽取中的一個權重打分標準,其具體公式如下:

Score1ti=2τ1(ti)×Scoreti

S= ,

(5)

其中Score1ti為詞語ti當前權重,Scoret為上一節中給詞語ti所賦的權重,S為類別特征詞集合。如果候選關鍵詞ti是類別特征詞,則權重加倍。權重修改結果如圖2中步驟3所示。因為“音樂”和“歌手”都出現在特征詞列表中,所以其權重加倍。

2.4 基于詞搭配的關鍵詞賦權

搭配(Collocation)一般被定義為詞和詞在一起的概率要遠大于一般隨機出現的概率,在漢語中常用的搭配“影視明星”“室內裝修”等等。本文認為搭配對中的兩個詞往往具有一定的語義聯系,例如“影視”和“明星”間是存在一定的潛在聯系,這些詞可以互相表達、相互支持,希望通過這些搭配來形成一種新的關鍵詞抽取方法。

本文采用的搭配抽取模型為單語詞對齊模型(MWA,monolingual word alignment),單語詞對齊是仿照雙語詞對齊的一類計算任務,通過統計計算出同一語言中關系相近的不同搭配。Liu[30]分別修改了IBM model 1,model 2以及model 3,使得相同的詞之間不能互譯,最終抽取出的搭配,來自于三種翻譯模型詞互譯結果的融合。

本文將通過詞搭配對關鍵詞權重再次進行調整,因為詞搭配中蘊含著一定的語義關系,若一條文本中如果兩個候選關鍵詞構成詞搭配關系,并且該詞搭配的頻次超過一定閾值,則認為該詞搭配中的候選關鍵詞相比于其他詞語更加重要,因為詞搭配中的詞是存在先后關系的。當一條文本中出現兩個候選關鍵詞組成詞搭配時,則只對第二個候選關鍵詞的權重進行加倍,通過找到文本中的不同詞搭配,使得部分候選關鍵詞權重發生變化,經過再次排序可以將排名靠前的候選關鍵詞作為關鍵詞輸出。其權重變化如公式6所示。

Score2tj=2η×Score1tj

T=tj?T,

(6)

其中ti和tj是文本中的候選詞,τ1(ti,tj)為一個二值函數,如果ti和tj構成以tj為第二個詞的詞搭配,則tj的權重就增加一倍,如果不構成詞搭配,則權重無變化。T為與tj構成搭配對關系的候選關鍵詞集合。

權重修改結果如圖2中步驟4所示,文本中“歌手”和“音樂”組成詞搭配,因為詞搭配具有先后關系,本文只對詞搭配中的第二個關鍵詞進行權重調整,所以“音樂”的權重加倍一次,并且“楊坤”和“音樂”也組成了詞搭配關系,所以“音樂”的權重再次翻倍,通過不斷疊加,“音樂”的權重變為最初的8倍。

最后重新排序,根據閾值將排序結果靠前的詞作為關鍵詞輸出。

3 關鍵詞擴展

3.1 詞向量表示

詞向量表示一直是機器學習問題在自然語言處理領域中的一個重要研究方向,最常用的詞表示方法是Bag-Of-Words,該方法把詞表示成一維向量。這個向量的維度是詞表大小,其中絕大多數元素為 0,只有一個維度的值為 1,這個維度就代表了當前的詞,該表示方法相對簡單,但是該方法存在著兩個主要問題,一是所需存儲的向量維度相對較大;二是存在很嚴重的數據稀疏問題。使用該方法計算相似度時還需要統計共現信息,較為煩瑣。本文給出一種不同于上述方法的詞向量表示機制,并且包含一定的語義信息。

本文所提出的詞向量表示方法主要是根據文本類別信息得到的,對文本使用2.3節的LDA主題模型進行分類,之后將每個Topic下的類別特征詞用一維特征向量進行表示,該一維向量的維度即文本的分類個數,其元素的含義表示該詞是否為該文本類別下的特征詞,對于賦值而言,若該類別不含該特征詞,則向量中的該元素為0,若類別特征詞中含有該詞,則對應的向量維度為該類別下的特征詞的概率,基于上述表示機制可以得到所有特征詞的向量表示:

(7)

其中i是指LDA模型的類別體系,w為主題分類下每個類別中的特征詞,pi(w)表示詞w出現在LDA模型類別i中的概率。

如果只對類別特征詞進行詞向量表示,所能夠被表示的詞數量太少,因此本文提出一種詞向量傳遞機制,通過詞搭配將類別特征詞的向量傳遞到候選關鍵詞上,使更多的詞可以被表示,即

l(w,v)=<(w,v0),(w,v1),…,(w,vn)> ,

(8)

3.2 關鍵詞擴展

通過2.3節訓練的LDA模型,可以知道每一條文本所屬的具體類別,并且每一個類別含有一些特征詞。本文所提出的關鍵詞擴展策略是計算文本關鍵詞與類別特征詞之間的相似度,再根據排序結果和一些統計規律將相似度排名靠前的類別特征詞作為該文本的擴展關鍵詞輸出,具體方法如下:

wi∈Ti,Ti=,wj∈Cj,Cj= ,

(9)

4 實驗

本文使用100萬微信公用賬號簡介作為短文本數據,該數據包含微信公用賬號名稱及相關簡介。

4.1 關鍵詞抽取實驗

對于從內容中抽取關鍵詞的實驗結果,本文采用人工構建測試集方法進行評價,依然按照準確率、召回率和F值進行評測。這里將傳統的TF-IDF算法作為Baseline,將實驗結果與Wang[26]和TextRank[5]進行對比,隨機抽取500條短文本作為測試數據,并人工標注了4 135個關鍵詞作為關鍵詞抽取的測試集,其實驗結果如表1所示。

表1 關鍵詞抽取對比實驗

通過上表可以看到,在準確率、召回率和F值三個測試指標中,本文方法均取得了最優的實驗效果,其中Average是指一條短文本平均能抽取幾個關鍵詞;從表1可以看到,本文方法所取得準確率和F值基本上都比第二名高出10%左右,并且召回率也有小幅提高;從上述實驗結果可以看出,本文所提出的基于詞搭配信息的關鍵詞抽取方法是真實有效的,在運用統計知識的基礎上考慮到了具有語義聯系的詞搭配信息,因此取得了相對好的實驗結果。最終在1 009 713條實驗數據中,共對978 716條文本抽取到關鍵詞,對于沒有獲得關鍵詞的文本主要是因為其描述采用英文或者繁體字。

4.2 關鍵詞擴展實驗

本文方法KEK(KEYWORD-EXPEND-KEYWORD)擴展出來的關鍵詞,依然采用準確率、召回率和F值進行評測,但是有所不同的是并不構建測試集,因為一篇文本人們通過想象擴展出來的關鍵詞會存在很大的差異性,所以采用人工的方法來看文本擴展出的關鍵詞是否正確;由于不存在測試集,在召回率上則更加偏重對擴展能力的評價,在召回率上隨機抽取一定量的文本數據,通過統計這些短文本中有多少擴展出新的關鍵詞來計算召回率,公式如下:

(10)

expend(id)為擴展出關鍵詞的短文本數量,all(id)為參與實驗的短文本數量,Recall(id)本節召回率計算結果。在本文實驗中將all(id)設為500。針對不同規模的短文本進行對比實驗,實驗結果如表2所示。

通過表2可以看到,在隨機抽取的500篇文檔中給275篇短文擴展出了關鍵詞,并且共擴展出795個關鍵詞,正確的652個,通過人工測評的方法計算了準確率??梢钥闯?準確率曲線和召回率曲線均呈上升趨勢,因為訓練數據越多,主題模型訓練的越充分,分類更加準確,所以關鍵詞擴展的效果越好。

本文還與Wang的方法進行了對比,他的方法主要是文本中找到同義詞進行替換,在英文領域采用的是Word-Net上的同義詞替換資源,將同樣的方法移植到中文上,由于Word-Net上沒有中文資源,這里采用哈爾濱工業大學構建的《同義詞詞林》進行替換;為了說明關鍵詞抽取的重要性,將本文的關鍵詞擴展策略進行修改,提出了一種基于全文本的關鍵詞擴展方法AWEK(ALL-WORD-EXPEND-KEYWORD),該方法與前述的擴展方法略有不同,不再只與文本中的關鍵詞計算相似度,而是將所有候選詞作為擴展依據計算相似度,將本文方法與上述兩種方法相對比,將100萬條短文本作為訓練語料進行對比實驗,實驗結果如表3所示。

表3 關鍵詞擴展對比實驗

上表可以看出,在三組實驗中,本文方法取得了最優的準確率,并且F值也要高出其他方法5個百分點,通過該實驗說明短文本中如果只采用簡單的同義詞來擴展關鍵詞,雖然會對很多短文本都打上擴展標簽,但是由于同義詞擴展出的關鍵詞并一定能具有文本所要表達的含義,所以準確率并不高;而第二種基于全文本的相似度計算擴展方法,由于文本存在著大量噪聲詞,這些詞在做關鍵詞擴展任務中具有很強的干擾作用,使得擴展結果與原文語義發生很大偏差,所以所取得擴展結果也并不理想;而本文方法之所以取得了相對較好的結果,是因為只基于文本關鍵詞計算相似度,文本中的關鍵詞基本上都與文本語義保持一致,所以擴展出來的關鍵詞不會有太大偏差,效果相對理想。表4給出了本文方法的相關實例。

表4 關鍵詞抽取與擴展實例

5 結論

本文介紹了短文本關鍵詞抽取和擴展的具體方法。在關鍵詞抽取任務中,采用主題分類和詞搭配信息抽取關鍵詞,取得了較好的實驗結果;在關鍵詞擴展任務中,定義了一種基于LDA主題分類結果的詞向量表示機制,這種表示機制具有一定的語義信息,并且更加節約空間開銷,最終的關鍵詞擴展結果也非常理想;而且本文對搜索引擎系統提出了一條新的改善思路,不同于傳統的查詢擴展工作,不再只對文本內容構建索引,而是通過關鍵詞標簽對其內容進行語義上的豐富,擴大索引集合,以提升搜索引擎系統的查全率和查準率。

猜你喜歡
特征詞類別短文
基于類信息的TF-IDF權重分析與改進①
KEYS
基于改進TFIDF算法的郵件分類技術
Keys
壯字喃字同形字的三種類別及簡要分析
產品評論文本中特征詞提取及其關聯模型構建與應用
西夏刻本中小裝飾的類別及流變
面向文本分類的特征詞選取方法研究與改進
多類別復合資源的空間匹配
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合