?

基于句子聚類的中文文本自動摘要算法的研究

2017-08-30 10:17楊毅
微型電腦應用 2017年8期
關鍵詞:分詞語義聚類

楊毅

(西安職業技術學院, 西安 710077)

基于句子聚類的中文文本自動摘要算法的研究

楊毅

(西安職業技術學院, 西安 710077)

文本自動摘要在搜索引擎和新聞內容推薦等多個領域都有著非常廣闊的應用。經典的文本摘要算法是提取文本中關鍵詞進行重組,這種方式忽略了文本中句子之間的關聯性,而且提取出的關鍵詞通常缺乏語義和語法上關聯性。提出了將文本以句子進行劃分,針對句子進行聚類,將文本劃分為一定數量語義相對固定的單元,對每個語義單元進行核心詞發現,最后組合各個語義句子的核心詞構建文本摘要,試驗結果表明,改進的文本自動摘要算法能夠更有效地召回文本主題。

句子聚類; 主題詞提??; 詞向量; 文本自動摘要

0 引言

搜索引擎中需要將網頁的內容以摘要的形式展示給搜索用戶,新聞內容推薦中也需要將推薦的內容以簡短摘要的形式展示給用戶[1-2],用戶在使用搜索引擎和推薦系統時通常只會注重提供的文本摘要是否符合要求,因此文本摘要的質量直接關系搜索或者推薦的準確率和用戶召回率。

目前文本摘要大多采用文本向量空間模型[3],即對文本進行分詞處理然后提取分詞后的關鍵詞進行重新組合,這種方式通常難以把握文章的主題思想大多是關鍵詞的簡單堆砌,在語法和語義上存在較大缺陷。另外關鍵詞的堆砌也容易造成文本主題的缺失,在文章的主題上較難以控制,易造成文章主題偏移[4]。

本文提出首先對文章進行句子劃分,對劃分之后的句子進行聚類,將文章聚合為有相對固定的語義單元,然后對各個語義單元進行關鍵詞提取,提取的規則按照TextRank算法進行,同時關鍵詞提取時保留其臨近N個關鍵詞構成一個完整的句子單元,拼接各個句子單元則聚合最終的文本摘要。

1 句子聚類

對于中文文本而言,詞與詞之間沒有明顯的分割符號,語義的表達也較為抽象[5-6],一般而言,中文以句子為單位構成一個相對完整的語義單元,中文對于一個完整的語義表達通常以句號為結束。對中文文本,以句號為單位進行語義劃分,對文本T,假設以句號進行切分可劃分為T=(S1,S2,…,Sn),切分時不考慮文本的段落關系,假設完整的句子已經能夠代表語義[7],并且比采用段落劃分時更有緊湊性。

句子聚類首先需要定義句子相似度,句子相似度采用經典的余弦相似度[8],如式(1)。

(1)

句子的組成單位是單詞,因此需要對句子進行分詞處理,分詞的原則是保證語義的合理性,經過分詞之后,句子Si可表示為Si=(wi1,wi2,…,win),wit(1≤t≤n)表示經過分詞之后的第t個關鍵詞,計算句子之間相似度需要依賴分詞后的關鍵詞,相似度計算的依據是關鍵詞的權重,本文采用經典的tf-idf算法計算關鍵詞權重,即關鍵詞的詞頻與句子頻率的比值,如式(2)。

(2)

詞頻(term frequency,TF)表示關鍵詞在該句子中出現的頻率[9]。這個數字是對詞數(term count)的歸一化,以防止它偏向長的句子。(同一個關鍵詞在長句子里可能會比短句子有更高的詞數,而不管該詞語重要與否。)對于在某一特定句子里的詞語來說,它的重要性則表示為tf。

公示2中ni,j是該詞在文件中的出現次數,而分母則是在文件中所有字詞的出現次數之和。逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一關鍵詞的IDF,可以由總句子數目除以包含該關鍵詞之句子的數目,再將得到的商取對數得到[10]。則最終關鍵詞的權重由公示2的兩部分組成,即式(3)。

(3)

表1 句子聚類算法

2 文本主題提取

句子經過聚類后,每個聚類簇都有相對固定的含義,文本主題提取的原則是從聚類簇中提取具有表征意義的關鍵詞進行文本重組[11]。

句子經過聚類后,每個聚類簇中句子的數量并沒有減少,因此需要提取關鍵詞進行文本表征。提取的原則為關鍵詞間投票。在中文中一般語義相近的關鍵詞會放在一塊使用,比如“青春年少”,“青春”和“年少”兩個詞同時出現說明這兩個的相關性很高,同里,可利用關鍵詞之間的共現關系構建投票矩陣,投票矩陣反映了關鍵詞的重要性。

互聯網的經典鏈接分析中,采用網頁之間的相互投票關系構建投票矩陣,網頁獲得鏈接網頁越多,鏈接網頁的質量越高,則該網頁最終的重要性也會越高。在文本分析中同樣可以使用這一原則。對于聚類后某個句子簇St(1≤t≤m),重新定義句子簇內部的結構,對于關鍵詞片段“K1_K2_K3”,定義關鍵詞K1會對關鍵詞K2產生投票,K2會對關鍵詞K3產生投票,定義關鍵詞的前后位置關系為投票關系,假設“K1_K2”結構的出現次數為N,則在句子簇St(1≤t≤m)中,K1對K2的投票值為N,將基于句子簇的關鍵詞投票關系表示,如圖1所示。

圖1 基于句子簇的關鍵詞投票圖

在圖1中,關鍵詞K1對K2的投票值為N,表示構成“K1_K2”結構的數目。同理,需要統計聚類后所有句子簇中出現“K1_K2”結構的數量,將加和之后的數目賦值給邊權值。如式(4)。

(4)

在公示4中,wij表示關鍵詞Ki對關鍵詞Kj的投票,N表示關鍵詞總數,假設關鍵詞Kj有s個關鍵詞會對該關鍵詞進行投票,則需要對每條鏈向該關鍵詞的邊權值進行歸一化,如式(5)。

(5)

對于關鍵詞片段“K1_K2_K3”,定義K1對K2的鏈向關系構成關鍵詞K2的入度,K2對K3的鏈向關系構成K3的入度,同時也是K2的出度。根據關鍵詞間的投票關系可構成關鍵詞的重要性表征,如式(6)。

(6)

在公示6中,ρ表示概率,v0表示賦予的初始值,|vk|表示關鍵詞節點vk的出度。依據此公示可以得到句子簇中重要關鍵詞,根據關鍵詞的權重取Top-K個關鍵詞,然后擴展該Top-K個關鍵詞的前后N個關鍵詞構成文本摘要。文本摘要算法,如表2所示。

表2 文本摘要算法

3 試驗與分析

由于目前沒有統一的中文文本摘要語料,國內也沒有專門的評價指標來衡量文本摘要的優劣,因此本文的驗證采用人工驗證的方式進行。

人工從今日頭條社會、科技、國際、健康、教育、旅游、歷史、美文、數碼和美食共10個領域中篩選100篇文章,篩選時盡量選取主題鮮明的文章,對選取的1 000篇文章進行數據預處理,包括句子切分,句子簇聚類和關鍵詞提取等,選取Top-K個關鍵詞的K值為15,前后擴展關鍵詞N設置為5,如表3所示。

表3 今日頭條分領域文章分析表

分別采用本文算法,基于關鍵詞提取算法和文獻1算法分別進行文本摘要提取,并從本校選取10名學生對3種提取的文本摘要進行人工判定,判定的依據設定為主題的提取完整性和文本摘要的語義連貫性兩個方面進行對比,如圖2所示。

圖2 本文算法、關鍵詞提取算法和文獻1算法文本摘要 主題完整性對比圖

從圖2中可以看出,社會、科技、國際和健康4個領域的主題完整性都較高,3種算法都呈現較好的表現,說明3種算法都對文本描述較為豐富的內容提取能力較強,社會、科技、國際和健康4個領域的句子簇和句子關鍵詞數都較多,因此在文本的主題表現上更為明顯,這對于提取文本的主題是比較有幫助的,如圖3所示。

圖3 本文算法、關鍵詞提取算法和文獻1算法文本摘要 語義連貫性對比圖

在圖3中可以看出,3種算法在文本摘要語義表達上存在一樣的表現,即對于長文本的語義表征能力較強,一般而言,關鍵詞越豐富越能夠提取符合語義要求的摘要,并且關鍵詞的前后擴展時也較為容易。不過整體而言,3種算法的語義表征能力都較為薄弱,這其實與中文的復雜性有一定的關系,并沒有融入復雜的自然語言處理技術。

4 總結

本文針對當前文本摘要主要采用關鍵詞聚合的方式進行研究,提出以句號作為分割單位首先對文本進行句子劃分,并針對劃分的句子單元進行句子聚類。句子簇可認為是具有相對固定語義的句子簇,提取句子簇中關鍵詞以關鍵詞投票模型進行關鍵詞重要性判斷,提取Top的關鍵詞并進行前后關鍵詞擴展,人工試驗評判的結果也表明本文的文本摘要算法在語義抽取連貫性和主題完整性上表現較好。

[1] 余珊珊,蘇錦鈿,李鵬飛. 基于改進的TextRank的自動摘要提取方法[J]. 計算機科學,2016,(06):240-247.

[2] 王瑋,歐陽純萍,陽小華,羅凌云,劉志明. 融合句子情感和主題相似性的中文新聞文本情感摘要[J]. 計算機應用研究,2017,(12):1-6.

[3] Inouye D, Kalita J K. Comparing twitter summarization algorithms for multiple post summaries[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 298-306.

[4] 劉星含,霍華. 基于互信息的文本自動摘要[J]. 合肥工業大學學報(自然科學版),2014,(10):1198-1203.

[5] Yousefi-Azar M, Hamey L. Text summarization using unsupervised deep learning[J]. Expert Systems with Applications, 2017, 68: 93-105.

[6] 劉靜,肖璐. 基于依存句法分析的多主題文本摘要研究[J]. 情報雜志,2014,(06):167-171.

[7] 林莉媛,王中卿,李壽山,周國棟. 基于PageRank的中文多文檔文本情感摘要[J]. 中文信息學報,2014,(02):85-90.

[8] Tayal M A, Raghuwanshi M M, Malik L G. ATSSC: Development of an approach based on soft computing for text summarization[J]. Computer Speech & Language, 2017, 41: 214-235.

[9] 劉德喜,萬常選. 社會化短文本自動摘要研究綜述[J]. 小型微型計算機系統,2013,(12):2764-2771.

[10] Yang S, Lu W, Yang D, et al. KeyphraseDS: Automatic generation of survey by exploiting keyphrase information[J]. Neurocomputing, 2017, 224: 58-70.

[11] 張龍凱,王厚峰. 文本摘要問題中的句子抽取方法研究[J]. 中文信息學報,2012,(02):97-101.

Research on automatic Chinese text summarization based on sentence clustering

Yang Yi

(Xi’an Vocational and Technical College, Xi’an 710077, China)

Automatic text summarization has a wide application in many fields, such as search engine and news content recommendation. The classic text summarization algorithm is to extract the keywords in the text, which ignores the relevance between the sentences in the text, and the extracted keywords are usually lack of semantic and grammatical relevance. The text is divided by sentences, sentences for clustering, divides the text into a number of relatively fixed semantic units, each unit of semantic core words, finally the core word combination of each sentence semantic construction of text summarization, test results show that the improved automatic text summarization algorithm can more effectively recall the theme of the text.

sentenceclustering; topic wordextraction; word vector; text auto summarization

楊毅(1981-),男,陜西西安人,碩士,講師,研究方向:計算機軟件開發。

1007-757X(2017)08-0054-03

TP393

A

2017.03.28)

猜你喜歡
分詞語義聚類
分詞在英語教學中的妙用
語言與語義
基于K-means聚類的車-地無線通信場強研究
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
基于高斯混合聚類的陣列干涉SAR三維成像
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
基于Spark平臺的K-means聚類算法改進及并行化實現
“吃+NP”的語義生成機制研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合