?

基于句法與語義特征分析的朋友關系挖掘

2019-09-04 06:21王娜娜張順香
關鍵詞:謂詞句法語句

王娜娜,張順香

(安徽理工大學 計算機科學與工程學院,安徽 淮南 231001)

目前,越來越多的網民選擇通過注冊微博與他人進行互動,使得微博文本中存在大量人物間的社會關系,而挖掘朋友關系能夠更好地加快社會網絡的發展。從海量微博文本中挖掘朋友關系,可以為廣大用戶提供社區服務,幫助用戶構建和擴展“朋友圈”,以及為商家建立信息推薦系統實現盈利模式或者擴展潛在客戶等。

然而,如何從海量微博文本中挖掘朋友間存在的社會關系成為目前亟需解決的問題。一個有效挖掘微博朋友關系的方法需要考慮:如何獲得更為全面的朋友關系特征描述詞;由于人物關系類型繁多,如何提高抽取準確率;當微博語句中實體對超過一對時,如何確定人物實體對等問題。

針對上述問題,本文提出一種基于句法與語義特征分析的朋友關系挖掘方法。其主要目的是提高微博中朋友關系挖掘的準確性和高效性。流程圖主要分為2部分,具體挖掘流程如圖1。

(?。┯行U展朋友關系描述詞庫。首先,針對朋友關系得到其關系描述詞之一。然后,綜合《知網》和《同義詞詞林》的相似度計算結果,得到較為準確的朋友關系描述詞庫。

(ⅱ)面向文本數據實現朋友關系挖掘。在步驟(?。┑幕A上,對篩選后的微博文本運用核心謂詞、依存句法以及語義分析等特征進行處理,從微博文本中挖掘出朋友關系。

圖1 人物朋友關系挖掘過程

1 相關工作

人物關系抽取屬于實體關系抽取的一部分,實體關系抽取的主要目的是通過相關技術挖掘出現在同一文本中的兩實體間存在的語義關系。即實體關系抽取方法可用于人物關系抽取方法中。近年來,在解決實體關系抽取過程中,國內外常采用的方法主要分為三類。

(?。┗谀J狡ヅ涞娜宋镪P系抽取方法是構造若干基于詞語、詞性或語義的模式集合并存儲起來,將預處理文本與模式集合中的模式進行匹配。潘云等人引入標簽傳播算法實現未標記人名對的關系匹配,提出一種利用中文在線資源構建中文人物關系抽取系統的方法[1]??妆热送ㄟ^提取特定關系實體上下文信息及句子的結構特征對特定關系單獨訓練分類模型的人物關系抽取方法[2]。Choi等人提出一種基于依賴核的支持向量機(support vector machines,SVMs)的社會關系提取系統[3]。Vo等人提出一種基于子句的文本文檔中的信息提取框架[4]。

(ⅱ)基于自動訓練的人物關系抽取方法是通過特定的機器學習算法,在標注的語料上建造分類模型,再將其應用到未標注的語料中。黃衛春等人通過計算初始關系元組的關系描述詞的信息增益值來確定元組上下文位置以及創建合適的關系抽取模板,利用模板實現Web人物關系的自動提取[5]。Agerri等人開發了 NERC(named entity recognition)系統,能有效使用各種類型的簡單詞表示其特征[6]。王宏斌等人通過自動調整訓練集中實例樣本的權重和計算輔助訓練樣本的遷移能力來提高訓練語料質量,間接提高命名實體識別的準確率[7]。郭劍毅等人通過枚舉的方式尋求最優的復合核函數參數,并結合多核融合方法和SVM方法對實體關系進行抽取[8]。

(ⅲ)基于知識庫的人物關系抽取方法是一種將眾多不同領域的知識結合起來進行人物關系的抽取。Zhou等人通過構造豐富的語義關系樹,并提出一個對上下文敏感的卷積樹核,達到關系抽取的目的[9]。Li等人將詞語位置的信息增益與基于HowNet的語義計算相結合[10]。郭喜躍等人在傳統方法基礎上融入了依存句法關系、核心謂詞、語義分析等特征[11]。珠杰等人借助具有豐富人物關系語料的互動百科,提出堆疊降噪自動編碼器(stacked denoising autoencoders,SDAs)的人物關系抽取方法[12]。Tao等人提出一種新的基于判別局域對齊(discriminative locality alignment,DLA)子空間學習算法。同時,引入了類似手寫漢字識別技術(similar handwritten Chinese character recognition,SHCCR)[13]。

通過對上述各種關系抽取方法的對比分析,本文將實體關系抽取中采用的多種技術有選擇性的運用到微博朋友關系挖掘中,提出一種基于句法與語義特征分析的朋友關系挖掘方法。該方法綜合運用核心謂詞、依存句法以及語義分析等特征進行挖掘,實驗結果證明朋友關系抽取的準確率明顯提高。

2 構建朋友關系描述詞庫

本章提出構建朋友關系描述詞庫的方法,進而達到擴充朋友關系描述詞集合的目的。

2.1 微博文本數據預處理

本文在進行朋友關系挖掘前,首先對微博文本數據進行預處理。主要包括刪除微博文本中“@”符號、刪除符號“#”及符號中的內容、將微博文本中的繁體字轉換為簡體字、過濾表情符號等。

2.2 構建朋友關系描述詞庫

為了提高朋友關系挖掘準確率,本文提出綜合知網和同義詞詞林的詞語相似度計算方法[14],其中,相似度取值為0~1。對于任意詞語T1和T2,依據其在知網和同義詞詞林中的分布情況,計算出其相似度分別為S1和S2;同時,為S1和S2分別賦予權值 λ1和 λ2,且滿足 λ1和 λ2,根據式(1)計算出綜合知網和同義詞詞林的詞語語義相似度。

通過采用上述方法進行試驗,本文將S=0.7設置為閾值,對朋友關系描述詞擴充前后進行了比較。

根據上述的討論,可以設計算法1來幫助分析本文如何對朋友關系詞庫進行擴充。

images/BZ_61_278_1051_1187_2055.png

3 朋友關系識別

本章提出朋友關系識別的方法,主要采用哈工大語言技術平臺(language technology platform,LTP)對微博文本數據進行朋友關系識別。

3.1 判定核心謂詞

大量實驗數據表明語句中實體與核心謂詞的距離與其他謂詞距離存在顯著差異,即間接反映出實體間存在一種關系特征。圖2所示,例如語句“張勇和李俊成為密友,他們相處的很和睦且經常一起打球”。在圖2中,ROOT表示根節點即核心謂詞“成為”,謂詞還包括“相處”、“打球”,通過公式(2)計算得出,各實體和核心謂詞間平均距離為3,與其他謂詞間平均距離為5。

其中,M表示微博語句實體的個數,A表示語句中謂詞個數,N表示執行的總次數,Ei表示實體在句中的位置,Pj表示句子中某一謂詞的位置。

3.2 依存句法分析

依存句法分析是用來確定句子的句法結構或句中詞匯間的依存關系[15],主要通過分析詞語之間的搭配關系,進而獲得各成分之間存在的聯系。本文將核心謂詞與依存句法關系作為朋友關系抽取時的一種句法特征,通過核心謂詞判定人物實體對。圖3所示,例如語句“馬云在以色列演講時表示現在與比爾·蓋茨成為非常親密的好朋友?!逼渲?,“馬云”和“比爾·蓋茨”表示人物實體,且“以色列”表示地名實體,并與“在”形成介賓關系,核心謂詞為“成為”,進而得出實體關系對為(馬云,比爾·蓋茨)。

圖2 核心謂詞實例

圖3 依存句法分析實例

3.3 語義分析

語義分析是指根據語句的句法結構以及句中各實詞的詞義,預測出能夠表達語句意思的某種形式化表示[16]。其主要表現為“謂語—角色”的結構形式。圖4所示,例如“張強經常和王娟在微博互動,他們通過互粉成為好友?!痹摼渲兄^詞是“互動”,動作的施事者(A0)為“張強”,動作的影響者(A1)為“好友”,該句話表明動作實施者帶來的影響是成為“好友”。

3.4 綜合句法與語義特征

本文在傳統人物關系抽取基礎上采用哈工大語言處理技術進行改進,進而得到獲取更多含有句法、語義特征的語句,具體做法如下。

(?。┱Z句結構。選擇語句中包含人物關系對的微博文本。

(ⅱ)核心謂詞。本文根據實體和核心謂詞在語句中位置,計算出各實體與核心謂詞、其他謂詞的距離,并將實體和核心謂詞的距離作為關系抽取的特征。當語句中實體對超過一對時,選擇與核心謂詞距離最近的兩個不同實體位置作為本次研究對象。

(ⅲ)依存句法分析。獲取語料庫中每對實體對之間存在的依存句法關系。

(ⅳ)語義分析。在進行上述操作后,選擇哈工大語言處理技術對語句進行語義分析[17],并將分析結果作為朋友關系抽取特征。

圖5,例如“王總和張總變成彼此最好的朋友,并且經常合作?!辈捎脗鹘y方法在分詞、詞性、上下文語境方面,根據特征詞“合作”,推斷出“王總”、“張總”屬于合作關系;本文在傳統人物抽取關系的基礎上增加了核心謂詞、依存句法、語義分析等提取特征,推斷出該句核心謂詞ROOT為“變成”,兩人物實體分別為“王總”、“張總”,通過分析得到表示該句實體對關系為朋友關系。

本章先對微博文本數據進行預處理,接著依次判定核心謂詞、依存句法分析、語義分析[18]等操作,綜合使用這些方法對微博語句進行分析,顯著提高朋友關系抽取的準確率。

圖4 語義分析實例

圖5 基于句法、語義特征的人物關系實例

4 實驗結果

4.1 實驗評價指標

本次實驗目的是針對微博中朋友關系進行數據抽取。實驗評價指標主要包括三方面[19],即準確率P、召回率R以及F1指數。

其中,C是正確挖掘的實例個數;T是挖掘出的所有實例個數;S是實驗數據集中所有實例個數。

4.2 實驗分析

從微博上爬取關于話題“朋友”的微博[20],隨機抽取該微博話題下的2 000條微博評論進行朋友關系挖掘,并計算出人物關系對中屬于朋友關系的準確率P、召回率R和F1值。實驗分為A、B、C、D四組,分別對應核心謂詞和依存句法組、語義分析和依存句法組、核心謂詞和語義分析組以及語義分析、依存句法和核心謂詞組,具體實驗結果如圖6。

圖6 朋友關系挖掘實驗結果對比圖

由圖6可以得到基于微博的朋友關系實驗評價結果,A組、B組、C組以及D組實驗結果準確率P分別為 68.36%、68.75%、67.97%、69.05%,其中,A組、B組和C組差別不明顯,D組實驗在綜合A組、B組、C組實驗特征后,準確率P明顯高于A組、B組、C組,朋友關系的挖掘效果更加顯著。說明本文提出的方法在挖掘基于微博的朋友關系方面能提供有效的幫助。

實驗結果表明,在微博中挖掘朋友關系時,僅僅考慮部分特征不能夠提高實驗結果的正確率,即需要對語句進行綜合考慮,本文將核心謂詞、句法依存和語義分析等特征聯系起來,通過上述的實驗,證明了該方法的有效性。

5 小結

針對如何提高微博中朋友關系挖掘的準確率,本文提出一種基于句法與語義特征分析的朋友關系挖掘方法。實驗結果證明,該方法能有效提高挖掘效率和準確性。在未來,朋友關系識別方法可以結合深度學習應用于多種領域,如實體關系挖掘、情感分析、用戶推薦等方面。

猜你喜歡
謂詞句法語句
述謂結構與英語句法配置
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
重點:語句銜接
黨項語謂詞前綴的分裂式
句法二題
詩詞聯句句法梳理
也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
如何搞定語句銜接題
信息結構與句法異位
作文語句實錄
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合