?

融入領域短語知識的專利主題提取

2021-03-30 05:48劉碩馬建紅
河北工業大學學報 2021年1期
關鍵詞:語義短語專利

劉碩 馬建紅

摘要 在對專利文本進行提取主題時,存在大量語義豐富的短語被拆分的問題,導致生成的主題難以理解。已有的將相似性約束的短語融入主題模型中的方法,沒有考慮不同領域間短語的區別。因此,根據專利文本的特點,提出了一種融入領域短語知識的主題模型,通過序列化標注的方式抽取專業術語,句法分析的方法抽取功能短語,構建領域短語表。用語義相似度計算的方法對領域短語表進行擴展,將其作為先驗知識融入到主題模型中,使用GPU模型(Generalized Pólya urn)強化領域短語,同時緩解領域短語帶來的稀疏性,提高主題質量。在中文專利文本上的實驗結果表明,融入領域短語知識的主題模型有效地解決了領域短語被拆分和主題可解釋性差的問題。

關 鍵 詞 專利文本;專業術語;功能短語;主題模型;Generalized Pólya urn模型

中圖分類號 TP391.1? ? ?文獻標志碼 A

Abstract In the process of topic extraction of patent texts, a large number of semantically rich phrases are segmented, which makes the generated topic difficult to understand. The method of incorporating similarity-constrained phrases into the topic model ignores the differences in phrases in different fields. To solve the problem, according to the characteristics of patent texts, a topic model of fusion domain phrase knowledge is proposed. Technical terms are extracted by serialization annotation model, functional phrases are extracted by parsing method, and domain phrase table is constructed. The domain phrase table is extended by using the method of semantic similarity calculation. The Generalized Pólya urn model is used to enhance the domain-related phrase, alleviate the sparsity brought by the phrase, and improve the quality of the topic. The experimental results on Chinese Patent Texts show that the model effectively solves the problem of domain phrase segmentation and poor interpretability of topics.

Key words patent texts; technical terms; functional phrases; topic model; Generalized Pólya urn model

0 引言

隨著時代的快速發展和科學技術的不斷革新,專利的數量迅速上升,對專利文本進行分析變得越來越重要。對大規模的專利文本進行分析研究,歸納出專利語料庫中所蘊含的語義信息,有助于專利分析人員在海量專利中快速了解某領域的概況。研究者們將LDA(Latent Dirichlet Distribution)主題模型應用在專利文本的研究中。

傳統的主題模型是基于“詞語袋”的模型,沒有考慮單詞的順序,但是在文本挖掘任務中,語序和短語往往是分析文章的關鍵,短語相比于單個的詞更容易讓人們理解。最早的基于短語的主題模型是Wallach等[1]提出的BTM模型,它將雙語模型和基于主題的方法相結合。Wang等[2]提出的n-grams主題模型擴展了BTM模型,但該方法復雜性過高。El-Kishky[3]和張琴等[4]通過挖掘頻繁短語,將同一短語下的單詞設定為同一主題,抽取主題短語。孫銳等[5]在二元主題模型的基礎上引入了三元組事件作為主題表示的基本單元。主題模型在對文本進行分析時產生的主題不易被程序解釋,研究者們將先驗知識融入到主題模型中[6-7]。SRC-LDA模型[8]根據語義相似性構建了must-link和connot-link的語義關系圖,利用語義關系圖對題-詞的分配進行約束。AMC算法[9]和LTM算法[10]與人類的終身學習算法相似,從過去的學習中挖掘可靠的先驗知識,幫助未來的學習。在此基礎上,Xu等[11]提出了潛在嵌入結構的終身學習模型,利用潛在的詞嵌入挖掘單詞相關知識輔助主題建模。Xu等[12]提出的KTP模型,將短語知識和短語相關知識結合用于短語建模和主題建模。雖然構建基于短語和更高階語義單元的主題模型在一定程度上提高了主題的可解釋性,但是容易造成稀疏性。Fei等[13]將Generalized Pólya urn模型引入到主題模型中,通過Generalized Pólya urn模型將短語和組成短語的內容自然地連接起來,在主題推理過程中提高短語的概率。彭敏等[14]提出了具有文檔-主題和詞匯-詞匯雙GPU語義強化的DGPU-LDA模型,利用GPU模型來強化詞匯的主題分配采樣過程。

專利文本中隱藏著技術信息,包含大量領域短語,它們是專利文本中的關鍵組成部分,描述了該領域中最重要的知識。將主題模型應用在專利文本中,領域短語往往被拆分,在對文本建模時產生的主題不易于被理解。將相似性約束的短語融入到主題模型中的方法,忽略了不同領域間短語的區別。因此,本文對專利文本進行分析,針對專利文本所屬的領域構建領域短語表,避免領域短語被拆分,然后通過語義相似度計算擴展領域短語表,將其作為先驗知識融入到主題模型中,并使用Generalized Pólya urn模型強化領域短語在專利文本中的作用,緩解領域短語帶來的稀疏性,最后結合LDA模型提取專利主題。

1.4 模型構建過程

將領域短語知識融入到主題模型中,結合GPU模型可以提高領域短語的概率,還能提高相關短語的概率,有利于解決領域短語在專利文本中的稀疏性問題。模型圖如圖5所示。

融入領域短語知識的主題模型中符號含義如表1所示。

融入領域短語知識的主題模型生成過程如下:

1)根據[θd~Dirα]生成第[d]篇文本的主題分布[θd];

2)根據[φk~Dirβ]生成主題-詞分布[φk];

3)對于第[d]篇文本中的第[i]個短語[Cd,i],當[n=1]時,短語[Cd,i]等同于[wd,i,1]表示為單個的詞,在領域短語知識[P]的作用下,增強詞或短語的概率。經過詞向量訓練后,短語向量表示為組成短語的所有詞的詞向量的累加,如下所示:

在GPU模型作用下用如下兩種形式來增強短語的概率:

1)相關短語。一個詞被分配給某個主題時,在領域短語知識里查看該詞對應有哪些短語,當對這個詞進行統計計數時,小比例的增加該單詞對應的相關短語的計數。

2)相關的詞。當一個短語被分配給某個主題時,在領域短語知識里查看該短語對應的有哪些詞和短語,當對這個短語進行統計計數時,小比例的增加該短語對應的詞和短語計數。

2 實驗

2.1 實驗設計

本文研究的對象是中文專利文本,目前沒有公開標準的專利文本語料庫,所以將專利檢索網上下載的新能源汽車領域專利文本2 143篇作為實驗數據。為了驗證本文提出的方法是有效的,本文將3種主題模型進行比較,第1是在詞的基礎上構建模型,稱為LDA(word)。第2是將整個短語作為單獨術語考慮,稱為LDA(phrase)。第3是將同義詞林作為外部知識,構建知識詞庫后建模,稱為LDA(knowledge)。本文提出的方法稱為LDA(domain-phrase)。在所有的實驗中,將狄利克雷超參數設置為:[α=50/K],[β=0.1]。

2.2 構建領域短語表的準確性

專利文本的專業術語分布在整篇文章中,所以提取專業術語時分析整篇專利。實驗標注了新能源汽車領域專利文本1 500篇,643篇作為測試集,結果共獲得專業術語18 348個,把它作為jieba分詞時自定義詞典。對于功能短語的抽取,對2 184篇專利的摘要進行分析,人工標注出含有線索詞的單句5 541句,含有功能詞對4 028個。

構建的領域短語表的準確性用抽取的領域短語的準確率來表示,準確率[Pw]公式為

[Pw=自動抽取和人工分析相符的短語數量自動抽取的短語數量×100%] 。 (8)

表2是專業術語和功能短語抽取的驗結果,表明短語表能夠覆蓋大部分的領域短語。

2.3 領域短語知識構建結果

根據得到的領域根據得到的領域短語表,使用python的gensim工具包進行詞向量訓練,選擇skip-gram模型,進行詞向量訓練時主要涉及參數為詞向量維度和滑動窗口值。對比不同參數取值對結果產生的影響,結果如圖6所示。

2.4 主題提取結果及分析

困惑度是評價主題模型常用的評價標準之一,對于文章[d],提出的模型對[d]屬于哪個topic的不確定程度即為困惑度,困惑度越低表示模型越好。計算公式為式中:[Dv]表示包含詞項[v]的文檔頻率;[Dv,v′]表示詞項[v]和[v′]同時存在的文檔頻率;[Vt=vt1,???,vtM]表示主題[t]下的概率最大的[M]個詞項。[TCt;Vt]的計算結果為負值,取值范圍為[-∞,0],所以越接近0效果越好,即[Dvtm,vtl]和[Dvtl]越接近。

困惑度隨主題數[K]的變化曲線如圖7所示。由圖7可以看出,當K = 20時,該模型的困惑度趨向平穩,表明當K = 20時模型最好。

各個模型的主題一致性對比實驗如圖8所示。在圖中可以看出LDA(word)模型的主題一致性最差。對比LDA(word)模型和LDA(phrase)模型的主題一致性結果,LDA(phrase)模型在一定程度上優LDA(word)模型有所提高,因為LDA(word)模型沒有考慮詞與詞之間的順序和上下文語義間的關系,導致專利文本中短語被拆分,從而影響了主題的可解釋性。對比LDA(knowledge)和LDA(word)模型可以發現,LDA(knowledge)模型的主題一致性高于LDA(word)模型,表明融入外部知識在一定程度上提高了主題的可解釋性??傮w來看,本文提出的模型LDA(domain-phrase)的主題一致性最高,因為模型考慮了領域短語被拆分的問題,并通過GPU模型解決了短語帶來的稀疏性,所以主題一致性明顯高于其他模型。

為了更直觀地表現本文提出的方法提高了主題的可解釋性,對新能源汽車領域的專利文本提取的主題詞或短語進行了對比。部分主題下的top10主題詞或短語的結果如表4所示。

根據表4看出, LDA(word)模型中,類似于“系統”“裝置”“連接”等詞語是與主題無關的詞,但是由于在文中出現的頻率較高,出現在結果中,但實際意義不大。像LDA(knowledge)模型中的 “包”“汽車”“電壓”這類詞范圍太廣,在不同的領域會有不同的含義,出現在結果中不易于理解。在LDA(phrase)模型中,雖然提取出來了一些短語,相比于LDA(word)模型更易于人們理解,但由于短語的稀疏性,造成類似于“所述”“連接”等詞語概率較大,導致具有主題意義的“充電裝置”“動力系統”等短語的作用不明顯。本文提出的模型,能夠較好的解決這兩個問題,比如在主題1的結果中,能夠提取出 “動力電池”“電池系統”“驅動電機”等短語,并且這些短語都是新能源汽車領域中的短語,能夠較好的突出專利主題。

3 結語

本文考慮到專利中領域短語對專利主題的影響,通過構建領域相關短語表,對傳統主題模型進行改進,提出了融入領域短語知識的主題模型,對專利文本進行主題提取。實驗結果表明,該模型避免了領域短語被拆分,并且提高了領域短語在文本主題中的作用,提取的專利主題有較好的可解釋性。在整個實驗過程中,涉及較多的人工標注與分析的過程,下一步將盡量減少人工工作量。并且不同領域專利間的差異還需要進一步探究。

參考文獻:

[1]? ? WALLACH,HANNA M. Topic modeling:beyond bag-of-words[J]. Nips Workshop on Bayesian Methods for Natural Language Processing,2006:977-984.

[2]? ? WANG X R,MCCALLUM A,WEI X. Topical N-grams:phrase and topic discovery,with an application to information retrieval[C]//Seventh IEEE International Conference on Data Mining (ICDM 2007). Omaha,NE,USA:IEEE,2007:697-702.

[3]? ? EL-KISHKY A,SONG Y L,WANG C,et al. Scalable topical phrase mining from text corpora[J]. Proceedings of the VLDB Endowment,2014,8(3):305-316.

[4]? ? 張琴,張智雄. 基于PhraseLDA模型的主題短語挖掘方法研究[J]. 圖書情報工作,2017,61(8):120-125.

[5]? ? 孫銳,郭晟,姬東鴻. 融入事件知識的主題表示方法[J]. 計算機學報,2017,40(4):791-804.

[6]? ? CHEN Z,MUKHERJEE A,LIU B,et al. Discovering coherent topics using general knowledge[C]// CIKM '13:Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. 2013:209-218.

[7]? ? 馬柏樟,顏志軍. 基于潛在狄利特雷分布模型的網絡評論產品特征抽取方法[J]. 計算機集成制造系統,2014,20(1):96-103.

[8]? ? 彭云,萬常選,江騰蛟,等. 基于語義約束LDA的商品特征和情感詞提取[J]. 軟件學報,2017,28(3):676-693.

[9]? ? CHEN Z Y,LIU B. Mining topics in documents:standing on the shoulders of big data[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining-KDD '14. New York,USA:ACM Press,2014:1116-1125.

[10]? CHEN Z Y,LIU B. Topic modeling using topics from many domains,lifelong learning and big data[C]//ICML'14:Proceedings of the 31st International Conference on International Conference on Machine Learning. 2014,32:II-703-II-711.

[11]? XU M Y,YANG R X,HARENBERG S,et al. A lifelong learning topic model structured using latent embeddings[C]//2017 IEEE 11th International Conference on Semantic Computing (ICSC). San Diego,CA,USA:IEEE,2017:260-261.

[12]? XU M Y,YANG R X,RANSHOUS S,et al. Leveraging external knowledge for phrase-based topic modeling[C]//2017 Conference on Technologies and Applications of Artificial Intelligence(TAAI). Taipei,Taiwan,China:IEEE,2017:29-32.

[13]? Fei G,Chen Z,Liu B. Review topic discovery with phrases using the Pólya Urn model[C]//COLING. 2014.

[14]? 彭敏,楊紹雄,朱佳暉. 基于雙向LSTM語義強化的主題建模[J]. 中文信息學報,2018,32(4):40-49.

[15]? 王密平. 漢語專利術語抽取及應用研究[D]. 南京:南京大學,2017.

[16]? 費晨杰,劉柏嵩. 基于LDA擴展主題詞庫的主題爬蟲研究[J]. 計算機應用與軟件,2018,35(4):49-54.

猜你喜歡
語義短語專利
韓國語“容入-離析”關系表達及認知語義解釋
初中英語詞組高頻考點聚焦
動詞與動詞短語(二)
攻擊和防御
2007年上半年專利授權狀況統計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合