?

語義分析若干前沿問題

2020-06-04 09:55姬東鴻
長江學術 2020年2期
關鍵詞:語義短語實體

姬東鴻

(武漢大學 國家網絡安全學院,湖北 武漢430072)

一、詞匯融合

(一)概念

例1:27 日上午8 時40 分,【上訪】教師【聚集】滯留在六安市政府南大門,且圍觀人員越聚越多。市委、市政府相關負責同志趕到現場接訪,勸導上訪教師不要堵門堵路,選出代表到市信訪局依法理性表達訴求,但沒有起到作用。在現場,民警多次進行法律宣講和勸導,告知其行為已違反《中華人民共和國治安管理處罰法》、《中華人民共和國集會游行示威法》、國務院《信訪條例》有關規定,應立即停止【集訪】。(六安市人民政府網)

例2:央行宣布自2015 年3 月1 日起【下調】金融機構一年期貸款基準【利率】,金融機構一年期貸款基準利率下調0.25 個百分點至5.35%,一年期存款基準利率下調0.25 個百分點至2.5%。此番調整是自去年11 月以來,4 個月時間內央行進行的第二次【降息】調整。(新浪財經)

例1 中融合式“集訪”的兩個語素都來自分離式,而例2 中融合式“降息”的兩個語素都未見于分離式。對于雙音節融合式來說,按照語素是否來自分離式,它們可分為四種類型:AA 型、BB 型、AB型和BA 型。AA 型融合式的兩個語素分別來自兩個分離式,BB 型融合式的兩個語素都不來自分離詞,而AB 型和BA 型融合式只有一個語素來自分離詞。但是無論融合式的兩個語素是否來自分離式,它們在語義上都分別指向兩個分離式,如“集訪”的“集”指向“聚集”,“訪”指向“上訪”;而“降息”中的“降”指向“下調”,“息”指向“利率”。

另一個特征是兩個分離式間可能存在句法關系,如例2 中的“下調”和“利息”間存在動賓關系,例3 中的“飛機”和“墜毀”間存在主謂關系,例4 中的“電影”和“明星”間存在定中關系。分離式間也可能不存在顯式的句法關系,如例1 中的“聚集”和“上訪”間不存在顯式的句法關系,例5 中的“泄露”和“機密”間也不存在顯式的句法關系。但是“上訪”的形式主語與“聚集”間存在主謂關系,“泄露”與“機密”修飾的中心詞“信息”間存在動賓關系,在此意義上兩個分離式間也存在廣義的句法關系。

例3:據外媒報道,近日,美國佛州一對父子乘坐的小型【飛機】因引擎故障【墜毀】。美國國家運輸安全委員會將調查這起【墜機】事故。(中國新聞網)

例4:這22 位【影星】,代表了當時新中國影壇的老、中、青演員,都是當年轟動一時、在民間引起空前反響的佼佼者,觀眾俗稱為“22大【電影】【明星】”。(新浪網)

例5:法院記錄顯示,彼得雷烏斯曾向調查人員撒謊,否認自己向布羅德韋爾【泄露】過【機密】信息。但實際上,他所提供的8 本工作記錄上記載了駐阿美軍戰略計劃、情報信息、外交談判內容以及白宮國家安全委員會會議紀要等機密信息。雖然他的初衷是為自己的傳記提供資料,但此舉仍被認定為重大【泄密】行為。(中國新聞網)

(二)任務和資源

詞匯融合的識別包含兩個步驟:一是識別出語篇中可能存在詞匯融合關系的融合式和分離式,二是判別它們是否存在詞匯融合關系,即判斷融合式的語素和分離式間的語義指向關系。前者是一個詞語識別任務,后者則是一個語義關系的判斷任務。

針對雙音詞的詞匯融合現象,我們標注了2000條數據,每條數據包含融合式、分離式及兩個分離式間的句法關系。我們用XML 格式標注這些樣例,如下給出針對例5 的標注信息。

更復雜的一種情況如例6 所示。合成式和分離式都是實體信息的短語,合成式與分離式的關系不是簡單的語義指向,而是一種語義概括,即合成式整體上是若干分離式的一種概括。如例6 中的“四巨頭”概括“IBM”“Google”“微軟”和“亞馬遜”4 個公司,而“16 主要機構”除四巨頭外,還包括“麻省理工學院”和“橡樹嶺國家實驗室”等學術或研究單位。

例6:云計算【四巨頭】集結“超強算力”加速病毒研究?!綢BM】與美國能源部、科技政策辦公室合作成立的運算聯盟,計劃攜手【Google】、【微軟】、【亞馬遜】等云計算巨頭,以及【麻省理工學院】、【橡樹嶺國家實驗室】等頂尖學術或研究單位,一共【16 主要機構】一齊貢獻運算力尋找疫情解決方案。(十輪網)

(三)意義和挑戰

詞匯融合的識別對語言信息處理的很多任務具有重要意義。比如在一般的語言理解任務中,可將語篇中的融合式描述與其分離式描述關聯起來;在語義檢索中,輸入查詢詞“集訪”,可查詢到僅包含分離式“聚集”和“訪問”的文檔;在自動問答系統中,針對詢問“參與病毒研究的主要機構”,基于這個融合式與其分離式間的關系,可順利確定參與研究的主要機構。

詞匯融合作為漢語中一種常見的共指現象,其研究尚處于起步階段,目前在資源建設、識別模型和應用任務方面存在一些挑戰。

資源建設方面,現代語言信息處理模型需要大規模的監督語料進行訓練,而監督語料的標注則需要大量的人力成本。如何利用基于規則和遠程監督的方法構建大規模標注預料并盡可能減少噪音數據,是詞匯融合識別研究的一大挑戰。

圖1 詞匯鏈示例(騰訊網)

圖2 實體鏈示例(騰訊網)

識別模型方面,詞匯融合現象層出不窮,在大規模標注語料的基礎上,如何利用計算技術對詞匯融合識別建模,提升詞匯融合模型的泛化性使其能自動識別新出現的詞匯融合現象是另一個挑戰。

應用任務方面,如何將訓練好的詞匯融合識別模型,低成本地應用到其他語言信息處理任務包括語義檢索、自動文檔等系統中,是詞匯融合識別應用方面面臨的挑戰。

二、實體鏈

(一)概念

表1 實體鏈標注語料統計結果

(二)任務和資源

實體鏈的識別包括兩個步驟,第一,識別描述實體的最長名詞短語,第二,判斷這些短語間是否存在共指或部分-整體等語義關系。實現過程可采用串行策略,即先識別最長名詞短語,然后判斷它們間的語義關系;也可以采用并行策略,即實體識別和關系判別并行進行。

我們選取了中文新聞語料進行標注,最終形成的標注資源如表1 所示。其中標注文檔數是2496,包含的最長名詞短語26760個,實體鏈個數是5096,短語平均長度是5.92 個字。

(三)意義和挑戰

實體鏈的分析無疑有助于篇章理解,具體來說,第一,對于句子結構來說,最長名詞短語識別有助于提高句子分析的性能;第二,對于篇章結構來說,最長名詞短語將篇章結構分析的粒度從句子層面細化到短語層面;第三,對于篇章內容分析來說,實體鏈的識別也有助于篇章話題及其演化分析,有望在自動文摘、標題生成等任務中發揮作用。

圖3 語義角色標注分析示例

實體鏈的識別也存在一些挑戰。其中一個問題是最長名詞短語的范圍和類型,與漢語詞性問題有關,需要進一步細化名詞短語的邊界和類型。第二個問題是實體鏈中語義關系的范圍和界定,名詞短語間的關系包含很多類型,需要確定可操作性的判定原則。

三、語義角色標注

(一)概念

圖4 語義角色標注結構示例

語義角色標注結構與成分樹結構有一定的關聯與區別。如圖3 所示,首先,語義角色結構的基本元素在成分樹中有對應的短語詞性標簽,比如,短語“小明”的語義角色為Agent,同時在成分樹中承擔了NP 的角色。語義角色結構偏向于刻畫元素之間的語義關系,但成分樹結構更加關注句子的成分層級結構,以及短語成分的語法角色。

另外,語義角色結構與依存樹結構在句法層面有更為緊密的聯系,例如,短語“遇到”在依存樹中為核心詞,直接連接著根節點(Root),同時與其他的各個成分相連接,并與該短語在語義角色結構中的謂詞角色(Predicate)相互照應。因此,語義角色標注任務與依存樹解析任務具有較強的互補作用。然而,相比語義角色結構,依存樹結構更加關注句子中各個元素的語法依賴關系。

(二)任務和資源

論元識別:針對目標謂詞,檢測出該謂詞的附屬論元。如圖4,對于謂詞“參觀”,需要檢測出對應的三個論元:“很多游客”“迪士尼樂園”“以便……人物形象”。

論元分類:針對所確定的論元,預測其對應的語義類別。比如針對謂詞“參觀”,需要確定“很多游客”的類別為施事,“迪士尼樂園”類別為受事,“以便……人物形象”類別為目標。

圖5 語義角色標注的兩種形式

(三)意義和挑戰

圖6 文本中的事件

四、事件分析

(一)概念

事件作為一種重要的知識與信息表現形式,近年來在語言學和自然語言處理領域受到越來越多的關注。事件一般被定義為特定的人、物在特定時間和特定地點相互作用的客觀事實,由觸發詞及其要素共同組成。其中觸發詞以動詞、動名詞居多,但也有名詞、形容詞等。事件要素包括參與者、時間、地點等。圖6 給出兩個事件描述的實例,其中的觸發詞分別是“相撞”和“處理”。

表2 事件分析結果

(二)任務和資源

事件分析主要包括事件觸發詞識別和事件要素抽取兩個子任務。觸發詞識別需要判斷觸發詞的邊界,有些觸發詞是短語,甚至是模板;事件元素識別包括事件參與者及時間和地點等。

例7:在【伊拉克】,當【一個美國坦克】對著【酒店】〖開火〗時一個【攝影師】〖死去〗了。(新浪網)

例7 包含“死去”和“開火”兩個觸發詞,事件分析的任務包括識別這兩個觸發詞,給出其事件類型即:“攻擊”和“死亡”,并分析出“伊拉克”是兩個事件的發生地,“攝影師”是“死亡”事件的參與者,“酒店”與“美國坦克”是“攻擊”事件的參與者,分析結果如表2 所示。

圖7 ACE 標注結構

圖8 事件要素類型

目前事件標注的主要資源是ACE 2005,這是由語言數據聯盟(LDC)標注的多語種語料庫,包含英語、阿拉伯語和漢語訓練數據。該語料共標注了599 篇文章,涵蓋了新聞、對話和微博等多種類型的文本。該語料庫由多種類型的數據組成,包括實體、關系和事件。其中事件類型共分為8 大類33 小類,事件元素共有35 類。其標注結構如圖7所示:

針對中文事件描述,我們完成了3000 篇的標注語料,事件類型包含包括自然災害、社會治安、公共安全、公共衛生等。相比其他標注資源,該語料的特點是:第一,該語料的觸發詞類型是針對新聞報道中的突發事件,有利于突發事件的監測和預警;第二,觸發詞可能是單個詞語,也可能是由輕動詞+動詞構成的模板,如例8 中,“發生……冰凍災害”是觸發詞,這樣可使句子的句法中心輕動詞“發生”和語義中心“冰凍”關聯起來,避免句子分析中句法和語義層面的不一致。第三,增加了事件要素的語義標記,如例8 中,“在……上”是事件要素處所的標記。圖8 給出了該語料的標注內容,表3 給出了這些要素的解釋。

表3 事件要素釋義

(三)意義和挑戰

圖9 事件鏈示例(中國西部網)

事件分析是自然語言處理的一個核心技術。首先,對于句子理解來說,事件一般是句子表達的主要信息,因此事件分析是句子理解的關鍵;其次,對于篇章理解來說,其內容主要是事件表達、演化及情感表述,因此事件分析也為篇章理解奠定基礎;再次,事件分析作為實體與關系抽取的上層任務,所包括的信息相對于實體更加完整,也能夠幫助從文本中獲取關鍵信息,為閱讀理解、自動摘要和輿情監測等應用提供支持。

目前事件分析也存在一些挑戰。首先,事件分析大多基于句子級別,但在真實文本場景下,觸發詞與其要素有可能分布在篇章中的不同句子中,因此需要考慮跨句子信息;其次,事件分析工作大都針對單個事件抽取,未考慮事件間的聯系,而事件間的聯系可能有助于事件分析,因此需要考慮更廣的篇章背景;再次,事件分析中事件的類型大都是預定義的,但在真實場景下,常常會遇到新的事件類型,因此需要事件分析具有更強的學習功能??傊?,事件分析在篇章信息的利用和開放域的背景方面面臨挑戰。

圖10 事件鏈示例(中華軍事網)

五、事件鏈

(一)概念

事件鏈是一個語篇所描述的主要事件根據它們所在句子的順序構成的鏈。語篇中所描述的主要事件一般有兩個特點,第一,主要事件一般會出現在標題中;第二,這些主要事件一般存在語義關系,如上下位、同義、因果等。

圖11 從上至下依次是句子鏈,事件鏈和實體鏈

圖10 給出另一個事件鏈的示例?!尽繕擞浀挠|發詞構成事件鏈。其中標題中的“派”和“闖入”均可看作“動作頻頻”的下位事件。其他【】標記的觸發詞要么和標題中的觸發詞語義相似,如“現身”“逼近”“闖入”等;要么作為標題中的觸發詞的子事件,如“飛行”“折返”“執行”等。

圖12 實體鏈和觸發詞鏈(中國西部網)

事件鏈的提出與語篇連貫性的研究有關。語篇連貫性的研究大致分為兩類策略,基于句子關系的模型和基于實體關系的模型。前者如Wolf 和Gibson等將篇章中描述同一主題的句子劃分為一組,并以句子關系為基礎探討語篇連貫性。 但是句子關系的判斷涉及句子內容分析,目前面臨不少挑戰?;趯嶓w關系的模型以詞匯鏈或實體鏈為基礎刻畫篇章的連貫性。但是詞匯鏈和實體鏈僅是語篇連貫的必要條件,而非充分條件,因此僅依靠詞匯鏈無法確保語篇的連貫性。

事件一方面作為句子內容的簡化表示,另一方面為詞匯或實體引入結構化表示,因此可以此為基礎探討語篇的連貫性。圖11 給出了實體鏈、事件鏈和句子鏈的示意圖。

(二)任務和資源

事件鏈識別的過程包括兩個步驟:第一,識別觸發詞鏈;第二,根據觸發詞鏈識別事件要素。事件鏈識別的關鍵在于觸發詞鏈的識別。觸發詞鏈實際上是一個謂詞詞匯鏈,其識別策略可分為兩類,一類根據觸發詞間的語義關系,首先確定標題中的觸發詞,然后根據觸發詞間的語義關系依次確定其它觸發詞。另一類是先確定實體鏈,再根據實體和謂詞間的依存關系確定觸發詞鏈。圖12 給出了圖9 所含篇章的實體鏈及基于依存關系確定的觸發詞。從圖12 可看出,基于實體鏈可大體上確定觸發詞鏈,但也存在錯判和漏判的情況,如“包圍”被識別為觸發詞,而“躲”沒有識別出來。

這種基于實體鏈分析的優勢在于觸發詞鏈內的語義關系不好把握,因此直接識別觸發詞鏈面臨一定困難,而實體鏈一般含有較易把握的詞匯鏈,比如圖12 中的實體鏈含有“美軍”,而且實體與謂詞間的依存關系也容易把握,因此通過實體鏈及其依存關系確定的觸發詞可看作一個候選,最后再根據語義關系確定觸發詞鏈。

針對事件鏈的資源建設,我們選取了3000 篇新聞報道,并根據以上標注過程標注了觸發詞鏈和事件要素。

(三)意義和挑戰

事件鏈串聯了實體鏈和謂詞鏈,為實體鏈賦予了結構信息,也承接了觸發詞間的語義關聯,因此事件鏈的識別有助于判斷語篇的連貫性,可用于作文自動打分等系統中。另一方面,事件鏈一定程度上反映篇章的主要內容,因此也可應用于閱讀理解和自動文摘等系統中。

事件鏈的分析面臨一些挑戰。首先,事件鏈的資源構造方面,篇章描述的主要事件如何界定,它們間的語義關系的類型和范疇如何確定,需進一步探討;其次,事件鏈的自動識別方面,觸發詞分布于篇章的不同句子,需要考慮更多的篇章信息才能確定觸發詞鏈;再次,作為構造事件鏈的主要手段,包括觸發詞間的語義關系判斷及觸發詞與實體間的依存關系判斷都面臨挑戰。

六、事件框架

(一)概念

目前,大多數事件分析注重于識別以觸發詞為核心的獨立事件,而忽略事件間存在的關系,因此為了實現篇章理解,需要從更宏觀的角度分析相關事件。事件框架是指由突發事件、誘因事件、處置事件、結果事件組成的框架。直觀上,事件框架描述突發事件及其誘因、結果及其處置情況。

以自然災害事件為例,其核心事件往往是自然災害本身,例如暴雨、山洪、洪水、地震等;誘因事件表示引起自然災害的直接原因,往往是非突發性氣候條件,如厄爾尼諾現象、副高氣壓影響等;結果事件表示自然災害導致的結果,例如造成的人財物損失,如人員傷亡、房屋倒塌、道路阻斷等;處置事件表示針對自然災害采取的措施與行動,如救援工作、災后處置工作等。

目前與事件框架相關的工作主要是事件關系分析任務。事件關系分析旨在于判斷事件間存在的因果、時序、共指等關系。分析方法可分為基于規則的方法和基于深度學習的方法。

圖13 突發事件示例(中國新聞網)

圖14 事件框架結構示例

圖15 事件框架標注結構圖

(二)任務和資源

事件框架抽取可看作一種特殊的事件與事件關系抽取,包括事件抽取與事件關系分析兩個子任務。

以圖13 所示這篇新聞為例,其中標注部分是我們的抽取目標?!尽勘硎竞诵氖录?,〖〗表示誘因事件,[]表示處置事件,{}表示結果事件,下劃線表示觸發詞。其事件框架邏輯圖如圖14 所示。

針對事件框架,我們標注了3000 篇新聞語料,其中標注突發事件、誘因事件、結果事件和處置事件。該標注語料由3000 個txt 文件及對應的xml文件組成,其中,txt 文本文件存放新聞語料原文,xml文件存放標注數據,其主要結構如圖15 所示。

(三)意義和挑戰

圖16 事件回指示例(騰訊網)

相比事件來說,事件框架刻畫更全局的信息,因此事件框架分析有助于更全面的篇章內容理解,反過來也有助于改進單個事件的識別性能。另一方面,事件框架有望在自動文摘、自動問答和閱讀理解等基于篇章理解的應用中發揮作用。

目前,事件框架分析面臨的挑戰主要在于:首先,篇章信息建模方面,傳統的事件分析以事件為核心,僅在句子或段落層面就可捕獲足夠的上下文信息。而事件框架中的多個事件可能分布在篇章中的不同部位,如何有效的建模覆蓋事件框架的篇章信息成為一大挑戰。其次,蘊含關系方面,不同于傳統的兩兩事件關系分析,在事件框架中,事件間的關系會受到事件框架中其他事件的影響。因此,如何捕獲這種蘊含在事件框架內的傳遞性關系具有一定挑戰性。

七、事件回指

(一)概念

圖17 事件回指標注示例(搜狐網)

(二)任務和資源

事件回指分析主要包括三個子任務,第一,識別事件回指語;第二,識別事件描述先行語;第三,識別它們間的回指關系。

針對回指語是指代短語(如“這次勝利”)的情況,我們建立了一個事件回指標注資源。其中包含4000 篇文檔,共有4406 個事件回指。圖17 給出了一個標注示例,其中包括四個回指語,兩個先行語,它們間的回指關系如箭頭所示。

(三)意義和挑戰

事件回指的識別對于自然語言處理具有重要意義。首先,事件回指有助于篇章內容的深層理解,將上下文有關同一事件的不同描述關聯起來;其次,事件回指識別有助于提高篇章級的信息抽取、話題識別及演化、文本摘要、閱讀理解和自動問答等應用的性能。

目前,事件回指的識別也面臨不少挑戰。首先,關于事件描述和回指語的類型和邊界,篇章中事件描述有時很長,回指語本身也可能較長;其次,關于事件描述與回指語關系的判別,同一個上下文中,可能存在多組事件描述和回指語,它們間的回指關系不易區分;再次,事件回指可能存在嵌套情況,即:事件描述中包括回指語和子事件描述。

本文從概念、任務、資源、意義和挑戰等幾個角度分別探討語義分析的若干前沿問題,包括詞匯融合、實體鏈、語義角色標注、事件分析,事件鏈、事件框架和事件回指等。其中詞匯融合和實體鏈分別是詞匯級和實體級的語義分析、語義角色標注是句子級的淺層語義分析,而事件屬句子級較深層的語義分析,事件框架、事件鏈和事件回指則是篇章級的語義分析,詞匯融合和實體鏈也涉及到篇章信息。這些任務都有一個重要特點:既涉及內容分析,如事件、語義角色、時間和地點等;又涉及結構分析,如事件框架和實體鏈等。從另一個角度看,這些任務既包含實體分析,包括簡單實體和復雜實體,如語義角色或事件;又包含關系分析,如回指關系、因果關系等。

猜你喜歡
語義短語實體
基于ColBert-EL 和MRC 模型的零樣本實體鏈接
初中英語詞組高頻考點聚焦
實體書店步入復興期?
2017實體經濟領軍者
漢語依憑介詞的語義范疇
關于推動實體書店經營發展的幾點思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合