?

面向動畫自動生成的中文短信關系抽?、?/h1>
2018-04-20 01:16李笑妃
計算機系統應用 2018年3期
關鍵詞:短信語義實體

李笑妃

(北京工業大學 信息學部,北京 100124)

1 引言

在審視了手機短信和3G通信技術的發展現狀后,中科院張松懋研究員于2008年提出將3D動畫自動生成技術應用在手機短信上的想法,即將發送的中文短信經系統處理分析后生成的3D動畫發送給接收方,命名為全過程計算機輔助手機3D動畫自動生成系統[1](簡稱為手機3D動畫自動生成系統). 處理過程大致分為四個階段,短信信息抽取,情節定性規劃,場景定量規劃,網絡渲染. 手機3D動畫自動生成技術將動畫自動生成技術應用于中文手機短信領域,不僅立足于一個嶄新的應用角度,并嘗試研究和解決過程中出現的問題,這在人工智能領域具有一定的研究意義和價值.

信息抽取處于手機3D動畫自動生成系統首要和關鍵的位置,而實體關系抽取作為信息抽取領域的重要研究課題[2],其主要目的是抽取句子中已標記實體對之間的語義關系,即在實體識別的基礎上確定無結構文本中實體對之間的關系類別,并形成結構化的數據便于存儲和取用,例如,輸入一個帶有標記實體的句子“< e1 > 曹德旺< /e2 > 任< e2 > 福耀玻璃集團< /e2 > 董事長,是一名優秀的中國民營企業家. ”,實體關系抽取系統能自動識別實體“曹德旺”和“福耀玻璃集團”的關系是雇傭關系.

關系抽取技術對自然語言處理的許多應用如本體構建、自動文摘、自動問答、知識庫構建等具有重要的意義. 傳統的關系抽取依賴于定義好的關系類型體系,如定義的雇傭關系、整體部分關系、位置關系等.目前的一系列研究也主要是圍繞內容自動抽取會議(ACE)所設計的任務展開,所抽取的關系類型一般也同ACE定義的一致.

1998 年,美國國防高級研究計劃委員會(Defense Advanced Research Project Agency,DARPA) 資助的最后一屆消息理解會議(Message Understanding Conference,MUC) 首次引入了實體關系抽取任務.1999 年,美國國家標準技術研究院(National Institute of Standards and Technology,NIST) 組織了自動內容抽取(Automatic Content Extraction,ACE)評測,其中的一項重要評測任務就是實體關系識別[3]. 與MUC相比,ACE的實體關系語料的語種數量和數據規模都有了大幅度的增加. ACE 2008 的關系抽取任務共定義了Agent-Artifact、General-Affiliation、Metonymy、Organization-Affiliation、Part-Whole、Person-Social、Physical 7 個大類的實體關系,細分為User-Owner-Inventor-Manufacturer、Citizen-Resident-Religion-Ethnicity、Organization-Location等18 個子類的實體關系[4]. SemEval (Semantic Evaluation) 是繼MUC、ACE后信息抽取領域又一重要評測會議,該會議吸引了大量的院校和研究機構參與測評. SemEval-2007 的評測任務4 定義了7 種普通名詞或名詞短語之間的實體關系,但其提供的英文語料庫規模較小. 隨后,SemEval-2010 的評測任務8 對其進行了豐富和完善,將實體關系類型擴充到9 種,分別是: Component-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和 Entity-Origin. 考慮到句子實例中實體對的先后順序問題,引入“Other”類對不屬于前述關系類型的實例進行描述,共生成19種實體關系. SemEval-2010 評測引發了普通名詞或名詞短語間實體關系抽取研究的新高潮[5].

本文在句法語義分析的基礎上對中文短信文本進行關系抽取,針對于手機3D動畫系統對動畫的表現情況將關系分為4種,包括: 顏色關系、形態關系、描述關系、位置關系,如短信“我想吃紅蘋果”,經過本文處理得到“蘋果”和“紅”屬于顏色關系; 短信“雨下的真大啊”經處理后得到“雨”和“大”屬于形態關系,形態關系即表示物體的大小、長短等的描述; 短信“我的心情很好; ”經本文處理得到“心情”和“好”這樣的描述關系. 由于前三種關系可以同屬于描述類型,所以前三種關系用同一語料庫進行訓練,得到同一規則集,只是在用規則集進行關系抽取的過程中細分為了三種關系. 短信“我書包在床上”,經本文處理后得到“書包”和“床上”屬于位置關系. 位置關系單獨標注,單獨訓練.

2 相關研究

2.1 實體關系抽取技術

在傳統的語義關系抽取中,實體與實體之間的關系是預先定義好的. 在關系抽取中先后出現了基于規則的方法,其中有基于ontology實現信息抽取中的關系抽取[6],取得比較不錯的效果. 隨著機器學習的發展,人們將關系抽取看成一個分類問題,首先標出句子中的實體,然后通過一個分類器判斷實體對之間的關系.目前,有監督學習方法是最基本的實體關系抽取方法,其主要思想是在已標注的訓練數據的基礎上訓練模型,然后對測試數據的關系類型進行識別. 有監督學習方法包括基于特征的方法、基于核函數的方法[7]和基于規則的方法.

基于特征向量的方法是一種簡單、有效的實體關系抽取方法,其主要思想是從關系句子實例的上下文中提取有用信息(包括詞法信息、語法信息)作為特征,構造特征向量,通過計算特征向量的相似度來訓練實體關系抽取模型. 該方法的關鍵在于尋找類間有區分度的特征,形成多維加權特征向量,然后采用合適的分類器進行分類. 文獻[8]在詞法特征、實體原始特征的基礎上,融入依存句法關系、核心謂詞、語義角色標注等特征,實驗結果表明該方法能有效提高實體關系抽取的性能.

基于核函數的實體關系抽取方法不需要構造特征向量,而是把結構樹作為處理對象,通過計算它們之間的相似度來進行實體關系抽取. 在基于核函數的中文實體關系抽取研究方面,劉克彬[9]利用卷積核函數中的字符串序列核進行實體關系抽取,并借用《知網》中的詞匯語義相似度計算方法計算中文特征詞串的相似度,實驗結果表明其F值達到了84%,這也說明語義信息能提高中文語義關系抽取系統的性能.

基于規則的方法需要對待處理語料通過人工或機器學習的方法總結歸納出相應的規則或模板[10],然后采用規則或模板匹配的方法進行實體關系抽取. 近年來,實體關系抽取研究者構建了多個基于規則的實體關系抽取系統[11,12].

機器學習中規則歸納即“規則學習”是從訓練數據中學習出一組能用于對未見實例進行判別的規則. 與神經網絡、支持向量機這樣的“黑箱模型”相比,規則學習具有更好的可解釋性,能使用戶更直觀地對判別過程有所了解. 另外,數理邏輯具有極強的表達能力,絕大多數人類知識都能通過數理邏輯進行簡潔的刻畫和表達. 如: “爸爸的爸爸是爺爺”這樣的知識不易用函數式描述,而用一階邏輯可以方便的寫成“爺爺(X,Y)← 爸爸 (X,Z)∧爸爸 (Z,Y)”. FOIL (First-Order Inductive Learner)[12]是著名的規則學習算法,首次由Quinlan在1993年提出,該算法分為正例和負例提取規則,FOIL算法采用信息增益來提取最好的一個屬性值生成規則,而且一次只生成一條規則,再生成規則之后,將被規則覆蓋的訓練集刪除,繼續從剩余的訓練集中尋找最好的屬性值. 因為它是把命題規則學習過程通過變量替換等操作直接轉化為一階規則學習的,因此比一般的歸納邏輯程序設計技術更高效. 文獻[13]結合了Apriori算法和FOIL算法實現文本分類,準確率達到了99%.

2.2 句法、語義分析

句法分析[14]將句子由一個線性序列轉化為一棵結構化的依存分析樹,通過依存弧上的關系標記反映句子中詞匯之間的句法關系. 與短語結構相比,句法結構具有形式簡潔、易于標注、便于應用等優點,逐漸受到學術界和工業界的重視. 語義分析默認要建立在句法分析的基礎上,中文的句法是從西方引進來的,而中文嚴重缺乏形態的變化,詞類與句法成分沒有嚴格的對應關系,導致中文句法分析的精度始終上不去. 目前LTP-Cloud已經聯合北京城市學院標注了1萬句中文語義依存分析樹[15],且已經有初步的實驗結果. 如句子“男孩跑步,女孩跳舞”得到的句法分析與語義分析分別如圖1和圖2所示,所以為了提高關系抽取的準確率,本文采用句法分析與語義分析相結合的方式進行訓練與測試.

圖1 句法分析示例

圖2 語義分析示例

2.3 同義詞詞林

《同義詞詞林》是一部漢語分類詞典,其中每一條詞語都用一個編碼來表示其語義類別. 本文所用的《同義詞詞林》為《同義詞詞林(擴展版)》,是哈爾濱工業大學信息檢索研究室在《同義詞詞林》的基礎上研制的. 最終的詞表包含77 429條詞語,其中一詞多義的詞語為8860個,共分為12個大類,94個中類,1428個小類,小類下再以同義原則劃分詞群,最細的級別為原子詞群,這樣詞典中的詞語之間就體現了良好的層次關系. 不同級別的分類結果可以為自然語言處理提供不同顆粒度的語義類別信息,《同義詞詞林》語義信息能顯著提高中文關系抽取的性能,文獻[16]就是根據《同義詞詞林》完成了實體關系抽取,最高F值達到81.8%.

3 本文的方法

3.1 基本流程

LTP-Cloud是由哈爾濱工業大學社會計算與信息檢索研究中心研發的云端自然語言處理服務平臺. 后端依托于歷時10年形成的語言技術平臺,語言云為用戶提供了包括分詞、詞性標注、依存句法分析、命名實體識別、語義角色標注、語義依存分析在內的豐富高效的自然語言處理服務[17]. 本文在哈爾濱工業大學LTP-Cloud平臺的基礎上,對語料進行初步處理,獲取含有句法語義分析的XML文檔,對XML文檔進行特征路徑的提取,然后經過一階歸納學習器進行訓練,得到匹配規則. 最后通過規則進行預測,得到關系抽取結果,并對實驗結果評估. 具體過程如圖3所示. 下面章節將對主要過程進行詳細介紹.

圖3 基于句法語義分析的關系抽取過程

3.2 路徑特征形式化表示

短信中的實體本身以及實體之間有多方面的屬性,每一個屬性刻畫的信息可以將關系組合的具體化,所以關系抽取問題可以轉化成路徑特征組合問題,從短信文本中抽取出關于實體的路徑特征,然后使用一階歸納學習器的思想來組合這些路徑特征.

比如短信“黃色的蘋果”,經過LTP-Cloud處理后得到如圖4所示結果.

圖4 LTP-Cloud處理結果示意

帶標記的路徑提取結果為:

Path1-Path3表示短信各個分詞實體之間的關系以及實體本身的性質,path1 表示“黃色”詞性是“n”,“蘋果”詞性是“n”; “黃色”與“蘋果”之間的句法關系是“ATT”,語義關系是“Feat”; “id1”和“id2”分別表示實體在XML結果中的位置,是一種唯一性標識. 如果把實體“黃色”、“蘋果”等變量替換成對應的詞性,則得到帶標記的路徑path1-path3泛化后的結果F1-F3即為路徑特征.

同樣對于短信“我看見有紅色的蘋果”得到帶標記的路徑為:

泛化后的路徑特征為:

可以看到第一條短信的F1與第二條短信的F4是一樣的,并且F1與F4所對應的帶標記的路徑path1與path4就是表示顏色關系的實體對的組合. 所以(n,n,n,n,ATT,Feat) 可以作為一條匹配規則.

3.3 規則獲取

3.3.1 規則學習算法

類似于一階歸納學習器FOIL,使用從一般到特殊的策略來組合路徑特征,與FOIL不同的是,在學習規則的時候,不以單個實體作為規則中的基本單位,而是以路徑特征為基本單位. 規則獲取算法流程如下.

算法. 規則獲取(Acquire Rules)

Input: Training Set D=P∪N,P: positive dataset,N: negative dataset

Output: Mapping rules set R for D

1. Rule R←Φ

2. While |P|>min_message do

3. Selected path feature set Sf←Φ

4. P′←P N′←N

7. for message a∈P′ do

5. while |N′|>0 and r.length<Maxrule.length do

6. Candidate path feature Sp←Φ SN←Φ

8. and fato Sp

9. end for

10. for message b∈N′ do

11. and fbto Sp

14. Computer FoilGain of f

12. end for

13. for path feature f∈Spdo

15. end for

16. find feature foptfrom Spwith maximum FoilGain

17. add foptto Sf

19. end while

18. remove from P′、N′ all example not satisfied fopt

20. get rule r from Sfand add r to R

21. remove all the message that satisfied r from P

22. end while

其中第3-20行描述了如何通過組合路徑特征來學習匹配規則. 首先目標特征路徑集合Sf初始化為空集,正負訓練數據集P和N分別初始化為P′和N′; 再通過最大信息增益值獲取當前最優路徑特征,并把選擇的特征fopt添加到特征集合Sf中,循環該過程直到N′為空,即選擇的路徑特征組合沒有匹配到N′中的短信; 在內層循環中第5-19行,當N′為空時結束,得到一條規則,然后刪除所有的P′中的匹配短信,當N′不為空時加特征進行路徑特征組合,直到N′為空為止.

FoilGain即為信息增益,可以度量當前路徑特征集合Sf添加路徑特征后所增加的信息量. 假設Sf是當前選擇的路徑特征集合,|P|和|N|分別表示數據集中滿足Sf的正例與反例的個數,如果添加一個新的路徑特征f,路徑特征集合變成Sf′,使得Sf′的正例個數和反例個數變成|P′|和|N′|則添加路徑特征f后獲得的信息增益是:

信息增益值最大的被選擇加入到路徑特征集合Sf中,路徑特征組成的集合則構成了一條關系抽取規則.

4 實驗結果與分析

4.1 實驗結果評價指標

根據手機3D動畫自動生成系統的表現能力將關系抽取分為顏色關系、位置關系、形態關系和描述關系四種,由于本文將關系抽取過程看作是分類的過程,所以這里的評價方式也采用常規的準確率P、召回率R和F值. 準確率使針對預測結果而言的,它表示的是預測為正的樣本中有多少是真正的正樣本. 公式表達如下:

召回率是針對原來的樣本而言的,它表示的是樣本中的正例有多少被預測正確. 公式表達如下:

由于R和P指標有時候會出現矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F值,通過計算F值來評價結果,常見的F計算方法如下:

4.2 實驗設計

本文用同樣的設計方案對有無借助語義分析結果兩種情況做對比實驗,如下文所示.

4.2.1 訓練實驗設計

本文的關系抽取包括顏色關系、形態關系、描述關系、位置關系四部分,考慮到符合前三者關系的短信中路徑特征相同,所以將顏色關系、形態關系和描述關系結合在一起進行規則學習,而位置關系則單獨處理.

使用Java語言實現了本文中的規則獲取算法考,慮到手機3D動畫自動生成系統處理的文本短小精悍,包羅萬象,所以語料庫主要來自三個方面:

(1) 手機3D動畫自動生成系統歷來的測試短信,經處理去重隨機抽取1000條文本.

(2) 北京郵電大學處理后的10萬條短信中提取8000條.

(3) 1998年1月份《人民日報》隨機提取4000條句子.

其中表示顏色關系、位置關系和描述關系的短文本有8546條,表示位置關系的短文本有1697條. 使用LTP-Cloud對短文本進行預處理,從中提取出路徑特征,用規則學習算法進行學習. 考慮到算法復雜度以及文本的特點,需要對路徑特征組合的最大長度做出限制,多次試驗最終把最大長度設置為8,即規則包含的路徑特征個數最大為8.

4.2.2 測試實驗設計

同樣使用Java語言設計實現測試系統,該測試系統即為關系抽取系統,該系統通過匹配規則集可以抽出短信中包含的關系以及關系組合. 系統主要分兩個部分,第一部分是顏色關系、形態關系、描述關系的抽取,本文把這三種關系統稱為描述型關系,第二部分是位置關系的抽取. 測試預料主要來自兩方面,一方面是手機3D動畫自動生成系統中除去訓練集的部分短信300條,另一方面是北京郵電大學10萬條短信中抽取的550條,總共850條短文本.

描述型關系抽取過程如圖5所示,在顏色關系與形態關系的抽取過程中,需結合《同義詞詞林(擴展版)》獲取表示顏色和形態的類別,同時得到該類別下的所有詞群. 如果帶標記的路徑中所包含的實體能夠在詞群中找到所對應的原子,則表示短信中含有顏色關系或者位置關系,然后結合帶標記的路徑推導出相應的關系組合; 否則可判定為描述關系,同樣結合帶標記的路徑抽取出描述關系的組合. 與描述型關系抽取過程類似,位置關系的抽取首先是進行規則匹配,得到帶標記的路徑,然后再根據帶標記的路徑分析結果,找到關系組合.

圖5 描述性關系抽取過程

4.3 實驗結果

本文根據不同的路徑特征進行對比實驗,分析借助語義分析后的關系抽取效果. 通過訓練實驗得到借助語義分析的描述型關系的規則集條數為126條,未借助語義分析的規則集條數為103條,位置關系的規則學習也得到兩個數據24條與32條,表1為得到的描述型關系與位置關系規則集示例.

表1 規則集示例

短信“看見桌子上有紅色蘋果和大西瓜,心情好呀”,通過帶語義分析的規則匹配,得到如圖6所示的IE輸出結果結果. 其中的Relation標簽下的文本是本文關系抽取結果的結構化表示形式. 短信包含有四種關系,其中顏色關系有兩個組合一個是“蘋果“與”紅”,表示形態關系的標簽為Form,關系組合為“西瓜”與“大”; “心情”與“好”構成描述關系的組合; 最后一條Location表示的是位置關系,即“蘋果; 西瓜”與“桌子上”構成位置關系組合,表示前者的位置是“桌子上”.通過這些關系輸出可以為手機3D動畫系統提供可供動畫表現的信息,比如可以刻畫水果的顏色與大小,還能對物體出現在動畫中的位置做出規劃. 圖7(a)與圖7(b)即為手機3D動畫自動生成系統生成在關系處理前和處理后的動畫截圖,由圖7(b)可以看出蘋果是紅色的,并且在桌子; 西瓜也在桌子上. 表現了位置關系和顏色關系,更能表現短信所要表達的內容. 并對預測結果進行評估得到表2的評估結果. 另外,文獻[18]所提出的中文實體關系抽取方法是中文實體關系抽取領域較為經典的方法之一,本文將關系分成兩類描述性關系與位置關系,同時變成了二分類問題. 將本文的基于語義分析的實驗結果與文獻[18]的研究結果進行了比較得到圖8所示對比圖.

表2 實驗評估結果(單位: %)

圖6 短信關系抽取結果示例

圖7 手機3D動畫生成系統最終動畫截圖

4.4 結果分析

分析上述結果可以看出,本文所述方法在借助語義分析情況下顏色關系和形態關系抽取方面準確率比較高,原因是在關系抽取過程中結合了《同義詞詞林(擴展板)》,從而囊括了顏色與形態的幾乎所有情況,并且表示顏色和形態的實體詞詞性也比較單一,主要是名詞或者形容詞,所以準確率比較高. 而位置關系抽取效果相對較差,召回率低,只有65%,造成這種情況的原因一方面是位置關系訓練語料庫規模比較小; 另一方面是表示短文本的路徑特征的選取以及路徑特征間的順序不太合適; 再一方面就是在對語料庫的結果標注存在很大的人為因素. 考慮到目前手機3D動畫自動生成系統的表現能力,關系抽取主要要求準確率高.在使用經典關系抽取算法得到的結果中,可以看出在手機3D動畫自動生成系統中,本文的方法取得了比較不錯的結果,可以應用到目前的手機3D動畫系統中.

圖8 實驗結果對比圖

5 總結

本文研究的主要內容是首次在手機3D動畫信息抽取系統中添加關系抽取. 提出了一種基于規則學習的短文本關系抽取方法. 首先結合手機3D動畫自動生成系統,定義了顏色關系、形態關系、描述關系和位置關系四種類型,然后在句法、語義分析的基礎上,通過一階規則學習算法獲取關系抽取的規則集,測試集通過匹配規則集得到關系類型并抽取出對應的關系組合,最后以結構化的形式將關系輸出到信息抽取結果中,為手機3D動畫系統提供更多可供動畫表現的信息.

本文的研究是在句法分析、語義分析的基礎上進行的,研究對象是中文的短文本,而目前中文的語義分析效果還不是很理想,這就降低了關系抽取的準確率.另外,人為標注語料庫存在很大的局限性和主觀性,限制了語料庫的規模,質量也不高,進而影響規則的學習.針對以上不足,在后續關系抽取的研究過程中,需要充分利用自然語言處理的最新研究成果,實現自動化或半自動化標注語料庫,提高關系抽取的準確率.

1吳中彪. 全過程計算機輔助手機3D動畫自動生成系統的設計與實現[碩士學位論文]. 北京: 北京工業大學,2011.11-38.

2陳宇,鄭德權,趙鐵軍. 基于Deep Belief Nets的中文名實體關系抽取. 軟件學報,2012,23(10): 2572-2585.

3http://www.ldc.Upupenn.edu/Projects/ACE/.

4Chan YS,Roth D. Exploiting background knowledge for relation extraction. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing,China.2010. 152-160.

5Hendrickx I,Kim SN,Kozareva Z,et al. SemEval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals. Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions.Boulder,CO,USA. 2009. 94-99.

6Chen GC,Zhao JY,Cohen T,et al. Using ontology fingerprints to disambiguate gene name entities in the biomedical literature. Database,2015,(2015): bav034.

7王敏. 基于多代理策略的中文實體關系抽取[碩士學位論文]. 大連: 大連理工大學,2011. 1-55.

8郭喜躍,何婷婷,胡小華,等. 基于句法語義特征的中文實體關系抽取. 中文信息學報,2014,28(6): 183-189.

9劉克彬,李芳,劉磊,等. 基于核函數中文關系自動抽取系統的實現. 計算機研究與發展,2007,44(8): 1406-1411.

10Du XZ,Doermann D,Abd-Almageed W. Signature matching using supervised topic models. Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm,Sweden. 2014. 327-332.

11McDonald DM,Chen H,Su H,et al. Extracting gene pathway relations using a hybrid grammar: The Arizona relation parser. Bioinformatics,2004,20(18): 3370-3378.[doi: 10.1093/bioinformatics/bth409]

12Quinlan JR,Cameron-Jones RM. FOIL: A midterm report.European Conference on Machine Learning: ECML-93.Vienna,Austria. 1993. 1-20.

13汪雪君. 基于規則的分類方法研究[碩士學位論文]. 漳州:閩南師范大學,2013: 1-47.

14劉挺,車萬翔,李正華. 語言技術平臺. 中文信息學報,2011,25(6): 53-62.

15邵艷秋,邱立坤,梁春霞,等. 中文語義依存關系資源建設及分析技術研究. 第十一屆全國計算語言學學術會議. 洛陽,中國. 2011.

16劉丹丹,彭成,錢龍華,等. 《同義詞詞林》在中文實體關系抽取中的作用. 中文信息學報,2014,28(2): 91-99.

17http://www.ltpc loud.com/intro/.

18徐芬,王挺,陳火旺. 基于SVM方法的中文實體關系抽取.第九屆全國計算語言學學術會議論文集. 大連,中國.2007. 497-502.

猜你喜歡
短信語義實體
真實場景水下語義分割方法及數據集
前海自貿區:金融服務實體
道歉短信
實體書店步入復興期?
代發短信
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
“吃+NP”的語義生成機制研究
情感形容詞‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的語義分析
漢語依憑介詞的語義范疇

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合