?

結合領域知識的影視文本關鍵詞提取算法研究

2022-10-31 13:26劉嘉恩
北京石油化工學院學報 2022年3期
關鍵詞:詞表分詞網頁

王 芳,劉嘉恩,李 晶

(北京石油化工學院信息工程學院,北京 102617)

關鍵詞是由單個詞或詞組構成的一個具有重要意義的詞語表達[1],反應文檔的主題思想和主要內容。除學術論文包含關鍵詞外,網絡中的海量文檔并沒有關鍵詞。提取關鍵詞能幫助讀者快速地掌握一篇文本的主題;高效、準確、快速地提取關鍵詞,有助于滿足人們對信息質量的核心要求;要進行海量文檔的信息檢索,首先需要解決的就是文檔關鍵字的自動提取。因此,關鍵詞提取是文本挖掘領域一個重要分支,廣泛應用于文檔索引、摘要生成、文本分類和信息檢索等領域。

關鍵詞提取技術的研究起步較早,至今已經歷50多年的發展歷程,國內外學者已經進行了很多頗有價值和成效的研究[2-3]。根據是否需要有標注的訓練數據,將已有方法分為有監督和無監督2類:有監督的關鍵詞提取技術需要有標注數據,將關鍵詞提取轉化為是否為關鍵詞的分類問題,采用機器學習的方法構建分類模型,包括基于統計機器學習和基于深度學習的方法[4-6];無監督的關鍵詞提取方法無需標注數據,基于圖和話題等技術對候選詞進行排序[7-9],提取排序靠前的詞作為關鍵詞。

已有研究大多關注于關鍵詞特征及提取模型設計,針對特定領域的關鍵詞提取研究較少。諸多領域內的文本數據通常都呈現出詞語專業性強、缺乏文本標注(無監督)的特點,導致這些領域內的關鍵詞提取較為困難。韋婷婷等[6]針對中文專利關鍵詞,設計了一種融合長短期記憶(LSTM)神經網絡和邏輯回歸模型的關鍵詞抽取方法,解決了傳統方法難以發現低頻、長尾關鍵詞的問題;毛立琦等[10]針對風險領域文本,提出基于領域自適應的領域文本關鍵詞提取模型。相關研究忽略了領域知識對關鍵詞提取的作用。

因此,筆者基于圖的無監督關鍵詞提取技術,以影視領域文本(如影訊、影評等)為例,研究如何結合領域知識輔助關鍵詞提取。針對其詞匯領域性強、影視名稱較長等特點,構建影視領域詞表用作分詞詞表,避免分詞錯誤造成的關鍵詞誤判;利用影視知識庫中影視名、演員、導演等豐富的語義知識,結合候選詞共現信息構建候選詞關系圖;基于影視知識庫計算候選詞語義相似性,與經典的圖排序算法PageRank[11]、TextRank[12]和PositionRank[13]相結合,優化候選詞排序,從而更有效地實現無監督影視領域文本關鍵詞的自動提取任務。

1 影視領域知識挖掘

研究領域知識對關鍵詞提取的作用,首先需要構建領域知識。采用知識圖譜的方法構建影視領域知識圖譜MKG=(V,E)[14],其中V是影視知識圖譜的節點集合,由影視名稱、角色、導演、演員等影視領域實體構成;E={(vi,rk,vj)│vi,vj∈V,rk∈R}為影視實體關系集合,每一個實體關系是一個三元組(vi,rk,vj)表示vi和vj之間存在關系rk,其中R為實體關系類型集合,如演員“吳京”和“長津湖”電影存在主演關系,形式化地表示為三元組(“吳京”,主演,“長津湖”)。影視領域知識圖譜MKG的構建主要包括3部分:影視領域關系類型定義、影視領域實體抽取和影視領域關系抽取。

以豆瓣影視網站為數據源,首先定義實體關系類型為R={“影視劇”,“明星”,“角色”,“導演”,“編劇”,“主演”,“類型”,“別名”,“飾演”};其次采用結構化信息抽取的方式提取影視領域實體和實體關系,如圖1所示。

圖1 影視領域知識抽取網頁信息示意圖Fig.1 Web page information extraction for domain knowledge of film and television

基于Python語言利用Scrapy網絡爬蟲框架提取豆瓣影視網站的結構化網頁信息,所有提取的三元組構成關系集合,所有三元組中的實體構成實體集合,所構建影視領域知識圖譜示意圖如圖2所示。

圖2 影視領域知識圖譜MKG中的實體-關系示意圖Fig.2 Samples of entity-relationships in MKG

2 影視文本關鍵詞提取模型

針對影視文本設計關鍵詞提取的模型框架如圖3所示。模型主要包含候選詞生成、詞網絡構建和關鍵詞排序3個模塊。

圖3 結合領域知識的影視文本關鍵詞提取模型框架Fig.3 The framework of the keyword extraction model based on domain knowledge

2.1 候選詞生成

對于給定影視文本,生成候選關鍵詞通常是關鍵詞提取的第1步。由于中文字與字之間沒有明細的分割標志,詞長也各有不同,對中文文本進行有效分詞是生成候選詞的關鍵。影視領域文本包含大量影視領域專業詞匯,如影視名、影視角色、演員及導演等名稱詞匯,特別是影視名稱長短不一,現有分詞器往往會對影視名稱錯誤分詞,間接造成候選關鍵詞生成錯誤。如電影名稱“肖申克的救贖”會被分成三個詞“肖申克”、“的”、“救贖”。

針對這一問題,提取影視領域知識圖譜MKG中的實體集作為影視領域專業詞表,用作分詞器的用戶詞典導入分詞器,可很大程度上避免上述錯誤分詞。選用張華平博士的ICTCLAS中分詞系統來對影視文本進行分詞處理,分詞后的詞匯首先經過詞性過濾,去掉詞性標注中不含“n”和“v”的詞,如“d”代詞,隨后再經過停用詞過濾,生成候選詞集。

2.2 詞網絡構建

為了將基于圖的排序算法應用于自然語言文本,需要構建表示文本的圖。當前主流的文本圖構建方法以詞為網絡節點[12-13],利用詞共現(word co-occurance)構建圖上節點的連接邊。對于給定文本d構建圖G=(V,E),其中V是文本d經分詞處理后的候選詞集,每一個候選詞是圖上的1個節點;圖上2個節點vi和vj由邊(vi,vj)∈E連接。節點vi和vj存在1條邊,當且僅當2個節點在d中指定的詞共現窗口W中同時出現。邊(vi,vj)∈E的權重為節點vi和vj的共現次數。文本詞網絡圖G可以是有向圖也可以是無向圖,Mihalcea等[12]的實驗表明,用來表示文本的圖類型對關鍵詞提取結果沒有顯著影響。

上述方法在正規長文本的關鍵詞提取中取得了不錯的效果,但僅通過詞共現建立圖上節點的連接,忽略了詞匯之間的語義關聯。如在文本“以易烊千璽扮演的伍萬里這個孩子的視角,重新觀察戰爭,進入戰爭,學習戰爭。他在戰爭中成長起來的故事線,就是拎起《長津湖》整篇故事的主線?!敝?,演員“易烊千璽”和電影“長津湖”存在語義關系,但在文本中相隔較遠,TextRank算法的詞共現窗口N最大取值為10,無法為詞“易烊千璽”和“長津湖”建立連接邊。

基于上述思考,提出結合影視知識庫改進詞網絡構建,在構建連接邊時遵循如下2條規則:

(1)候選詞vi和vj在影視文本d中指定的詞共現窗口W中同時出現;

(2)候選詞vi和vj在影視領域知識圖譜MKG中存在語義關系,即存在三元組(vi,rk,vj)∈Emk。

具體實現中,首先基于詞共現關系建立候選詞圖Gco,利用關聯矩陣Mco=(Mcoi,j)|V|×|V|表示Gco,其中|V|表示文本d中的候選詞個數,w(vi,vj)為2個節點在文本d中的共現次數:

(1)

(2)

(3)

2.3 關鍵詞排序

圖模型可以有效表示各節點間的關系和結構信息,在計算節點權重的過程中可以結合圖的全局做出判斷而不是依賴某幾個特定節點的信息。以TextRank[12]和Positionrank[13]2種經典的基于圖的關鍵詞提取方法為例,介紹如何結合領域知識輔助關鍵詞提取。

TextRank基本思想來源于谷歌的網頁排序算法PageRank[11]。PageRank通過網頁鏈接關系構建圖模型,排序核心思想為:如果1個網頁被很多其他網頁鏈接到,說明這個網頁很重要,其PageRank值也會相應較高;如果1個PageRank值很高的網頁鏈接到另外某個網頁,那么那個網頁的PageRank值也會相應地提高?;谏鲜鏊枷?,設計了如下PageRank值計算公式:

(4)

式中:S(vi)表示網頁vi的PageRank值,vi∈V={v1,v2,…,vn},網頁之間存在鏈接關系;d為跳轉因子(通常設置為0.85);In(vi)為鏈向vi的網頁個數,即有向圖中節點的入度;Out(vj)為節點vj鏈向網頁的個數,即有向圖中節點的出度。

在關鍵詞提取算法中,網頁被換成了關鍵詞。TextRank把文本分割成若干組成單元(詞語)并建立圖模型,在PageRank基礎上考慮邊的權重,利用投票機制對文本中的重要成分進行排序,具體方法為:

S(vi)=(1-d)+

(5)

TextRank利用詞共現信息計算邊的權重,Adj(vi)表示節點vi的鄰接節點集合,TextRank實驗表明在關鍵詞提取任務中圖中的邊是否有向對提取結果沒有顯著影響,wj,i表示vi和vj的詞共現次數,即式(1)中的w(vi,vj)。

PositionRank在上述2種排序方法基礎上,進一步考慮了詞在文檔中出現的位置和出現次數,認為在文檔中出現位置靠前、出現頻次較多的詞更為重要?;谶@一思想,優化排序公式如下:

(6)

(7)

上述方法僅基于單篇文檔的詞共現信息和詞位置信息進行排序,忽略了詞匯之間存在的語義關系。利用影視領域知識圖譜MKG中的語義關系,進一步優化圖排序方法,在式(3)圖節點相似度wi,j基礎上,引入語義相似度smi,j,計算式如下:

smi,j=Jaccard(Adj(vi),Adj(vj))=

(8)

語義相似度計算方法可以根據實際應用調整。選取計算簡單、實際應用效果較好的Jaccard相似度計算方法,根據2個節點的共同鄰居度量節點相似度,共同鄰居越多,節點越相似。將smi,j引入TextRank和PositionRank算法中,分別得到式(9)和式(10),用以計算結合語義相似度的關鍵詞排序。

S(vi)=(1-d)+

(9)

(10)

3 實驗與分析

3.1 實驗數據

為驗證所提方法的有效性,基于影視領域知識圖譜MKG,設計爬蟲爬取豆瓣影視近2萬篇影視文檔,提取影視領域實體近1.7萬,提取實體關系近3百萬。為對所提方法進行有效評價,采用人工標注的方法構建實驗數據集。利用八爪魚、beautifulSoup等工具包在豆瓣影視討論社區爬取影視評論,經過簡單清洗格式后將原網頁的各標簽信息存儲為JSON文件。選取200篇影視評論進行人工標注,為每篇文檔標注5個關鍵詞,標注好的關鍵詞以“tag”為鍵添加到原有JSON文件以供后續處理,如圖4所示。

圖4 影視評論關鍵詞標注數據截圖Fig.4 Data screenshot of keywords annotation for film and television commentary

3.2 評價標準

采用準確率(Precision)、召回率(Recall)和F1值(F-Measure)衡量各算法的關鍵詞提取效果。在關鍵詞提取任務中,準確率即提取結果與答案的匹配度;召回率表示提取結果對于正確答案的覆蓋程度;F1值則是考慮前兩者的綜合指標。3種評價標準的定義如下:

(11)

其中:S為算法提取的關鍵詞集合;K為人工標注的關鍵詞集合。

對于每一篇標注的影視文本,分別計算P、R和F1,最后分別加和求平均得到整體的準確率、召回率和F1值。

3.3 實驗結果

將所選方法應用于影視文本關鍵詞提取任務,與原始的TextRank和PositionRank方法進行對比,結合影視領域知識圖譜MKG改進后的算法分別標記為TextRank+MKG和PositionRank+MKG。針對每一篇影視文本,經分詞及與處理后,基于式(1)構建傳統的候選詞圖,基于式(3)構建MKG改進后的候選詞圖;基于式(9)和式(10)計算改進后的候選詞排序;基于式(5)和式(6)計算傳統的詞排序;最后取排序靠前的K個關鍵詞作為關鍵詞提取結果。實驗數據中每篇文本有5個關鍵詞,為此K分別取值1、2、3、4、5。實驗結果如圖5所示。

從圖5中可以看出,將MKG引入圖排序TextRank和PositionRank算法中,在準確率、召回率和F1各項評價指標中都有明顯提升作用,說明領域知識對于關鍵詞提取任務具有積極輔助作用。具體來看,TextRank方法在影視文本中效果明顯優于PositionRank。分析原因,PositionRank是針對正規的學術論文設計的關鍵詞提取方法,論述語句描述和位置信息作用明顯。但影視評論文本較多為發表感想、看法類文字,不符合標準的論文寫作順序和結構,導致位置偏好在影視評論關鍵詞排序中不起作用甚至可能造成干擾。

3.4 實驗分析

為進一步分析MKG在引入詞表、構建詞圖和詞排序方面的細分作用,基于TextRank進行實驗分析,設置對比實驗:

(1)TextRank:不引入詞表、基于式(1)構建傳統的候選詞圖、基于式(5)進行關鍵詞排序;

(2)TextRank+W:引入詞表、基于式(1)構建傳統的候選詞圖、基于式(5)進行關鍵詞排序;

(3)TextRank+W+G:引入詞表、基于式(3)構建傳統的候選詞圖、基于式(5)進行關鍵詞排序;

(4)TextRank+W+G+R:引入詞表、基于式(3)構建傳統的候選詞圖、基于式(9)進行關鍵詞排序。

影視領域知識MKG在關鍵詞提取中的作用分析結果如圖6所示。從圖6中可以看出,2~4三個階段引入MKG相關知識均對關鍵詞提取任務有積極作用;其次,領域詞表的作用最為明顯,引入影視領域詞表的TextRank+W顯著優于TextRank,準確率提升近10%;最后,在召回率指標中,TextRank+W+G提升效果明顯,說明通過MKG引入影視語義關系,為詞圖節點增加語義邊,有助于提升關鍵詞提取召回率。

圖5 影視文本關鍵詞提取效果對比Fig.5 Keyword extraction effect comparison for film and television text

圖6 影視領域知識MKG在關鍵詞提取中的作用分析Fig.6 Analysis of the role of MKG in keyword extraction

4 結論

圍繞影視領域文本展開結合領域知識的關鍵詞提取算法研究。構建影視領域知識庫,基于圖排序算法,從改進分詞、完善詞圖構建、優化詞排序三方面提升影視文本關鍵詞提取效果,實驗結果表明所提方面有效。當前僅基于影視詞匯在知識圖譜中的共近鄰關系計算語義相似度,沒有考慮知識庫全局網絡結構信息,也沒有區分不同關系類型,未來在語義相似度計算方面可做進一步優化研究。

猜你喜歡
詞表分詞網頁
分詞在英語教學中的妙用
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
基于CSS的網頁導航欄的設計
基于HTML5靜態網頁設計
基于URL和網頁類型的網頁信息采集研究
敘詞表與其他詞表的互操作標準
網頁制作在英語教學中的應用
國外敘詞表的應用與發展趨勢探討*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合