?

面向新聞專題的事件關系圖構建方法

2023-04-05 07:02歐偉明韓博關珍博楊樂張建民杜丹
計算機與網絡 2023年4期

歐偉明 韓博 關珍博 楊樂 張建民 杜丹

摘要:為了能夠掌握新聞專題的發展演化過程,又使其具備可解釋性,提出一種面向新聞專題事件的事件關系圖構建方法?;谑录g的關聯關系,通過事件抽取、事件合并和事件關系識別等技術,從專題事件的新聞數據集中抽取出元事件,把指代同一現實事件的多條元事件數據合并為一條元事件數據,基于模式匹配法識別各元事件間的關系,按照時間順序和事件間關系將專題事件內各零散的元事件組織起來,構建面向新聞專題的事件關系圖,刻畫專題事件在整個演化發展過程中各子事件間的因果、轉折、條件和順承等關聯關系,實現對專題新聞事件來龍去脈更直觀的解釋和表達。

關鍵詞:新聞專題;事件演化;事件關系;事件抽??;事件合并

中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)04-50-5

0引言

新聞專題事件是指持續時間較長、發展情節較曲折、關注人數較多的事件。面對海量且無章的網站新聞數據,用戶不但很難從新聞中快速獲取專題事件的整體來龍去脈,而且很難掌握專題事件的全局信息。通過構建事件脈絡,檢測新聞專題事件演化發展的關鍵階段,對碎片化新聞進行深入挖掘分析,自動組織成簡潔、準確、連貫的專題事件脈絡,讓用戶能夠快速且直觀地了解和把握事情的演化發展過程。目前,主要通過專題事件下新聞文本內容的相似度來尋找各新聞之間的聯系,構建事件脈絡,描述事件發展過程。這些事件脈絡構建的方法以整篇新聞內容為單元,不能夠描述專題事件內部各子事件間的因果、轉折、順承等關聯關系,導致事件演化發展過程缺乏可解釋性。

一般,事件的發生不是孤立現象,其發生和發展往往與其他事件有著本源的邏輯關系。事件關系則表示事件間的邏輯關系,在新聞文本信息中蘊涵著刻畫事件關系的語義線索。一個新聞專題往往是由一系列元事件組成的,事件之間的關聯關系也反映著專題事件演化機制。因此,本文提出一種面向新聞專題事件的事件關系圖構建方法,基于事件間的關系,通過事件抽取、事件融合和事件關系識別等技術,從專題事件的新聞數據集中抽取出元事件,基于模式匹配法識別各元事件間的關系,按照時間順序和事件間關系將專題事件內各零散的元事件組織起來,構建面向新聞專題的事件關系圖,刻畫專題事件在整個演化發展過程中各子事件間的因果、轉折、條件和順承等關聯關系,實現對專題新聞事件來龍去脈更直觀的解釋和表達。

1國內外研究現狀

通過構建事件脈絡可以挖掘事件不同的發展階段,幫助用戶快速掌握專題事件全周期的發展演化過程?,F有的事件脈絡構建方法主要基于專題事件下新聞文本內容的相似度來尋找各新聞之間的聯系[1-3],是以整篇新聞為單元的,不能夠描述專題事件內部各子事件間的邏輯關系,導致事件演化發展過程缺乏可解釋性。

通常,事件的發生是相互關聯的,通過建立專題新聞下各個元事件之間的關系,可以揭示事件發展規律。事件關系抽取以事件為基本的語義單元,自動抽取事件之間的邏輯關系,包括事件的因果關系、順承關系、共指關系、時序關系等。依據事件之間的關系構建事理圖譜,可以描述事件的演化邏輯,有助于后期事件的發展預測[4]?;谑录畔⒑褪录P系構建的事件圖譜,展示了事件的演變過程和事件間的關聯關系[5]。因此,事件間關系的抽取成為國內外學者近期研究的熱點。

傳統事件關系抽取大多集中在因果關系或時序關系,主要分為3種方法:基于模式匹配的方法[6-7]、基于模式匹配與機器學習組合的方法[8-9]和基于深度學習的方法[10-12]。

相比于以往通過構建事件脈絡的方式展現專題事件的演化,本文提出一種基于事件關系圖的專題事件發展演化描述。通過事件抽取、事件共指和事件關系識別等技術,從專題事件的新聞數據集中抽取出元事件,進行元事件共指融合,識別各元事件間的關系,按照時間順序和事件間關系組織專題事件的元事件,形成面向新聞專題的事件關系圖,利用各元事件間的因果、轉折、條件和順承等關系展現專題事件的來龍去脈,實現專題事件發展過程的可解釋性。

2術語定義

定義1新聞:一篇新聞由新聞標題、正文、發布時間組成。

定義3新聞專題:新聞專題表示一個時間窗內與專題相關的一系列新聞數據集,通常包含不同的元事件,反映的是事件不同側面或發展。

定義4事件關系:事件關系則表示事件之間的邏輯關系,是事件之間固有的一種客觀存在。目前有多種事件關系分類體系,本文側重于事件之間的語義關系,即從文本語義關系的角度解釋事件的邏輯關系,事件關系包括并列、轉折、順承和因果。并列,指2件事件同時發生;轉折,指某件事與下一件事發生轉折;順承,指某件事接著一件事發生;因果,指在一定的條件下,一個事件的發生導致了另一事件的發生。

定義5事件關系圖:以元事件為節點,元事件間的關系為邊,按照元事件發生的先后順序構建的專題事件演化發展圖。

3新聞專題事件關系圖構建

3.1方法總體設計

本文中新聞專題的事件關系圖構建流程如圖1所示,主要分為4個部分:第一部分是事件抽取,采用基于模板匹配的事件抽取方法從專題事件的新聞數據集中抽取元事件;第二部分是事件合并,通過事件共指和要素對齊,實現同類元事件融合;第三部分是基于事件關系識別模板建立元事件之間的關系,并判斷關系類型;第四部分是事件關系圖構建,按照時間順序和事件間關系組織專題事件下的元事件,形成事件新聞專題的事件關系圖。

3.2元事件抽取

元事件抽取技術的主要任務是從文本中檢測到事件,并抽取事件的相關要素,獲取結構化的事件表示。本文考慮事件抽取結果的準確率,采用基于模板匹配的事件抽取方法,通過中文分詞、命名實體識別和依存句法分析等處理,從新聞文本數據抽取出元事件。事件抽取的具體流程如下:

①對新聞文本進行分句,對每句話進行分詞、詞性標注和實體識別;

②對句中的實體信息進行規范化處理,實現實體的指代消歧,包括以新聞發布時間作為基準時間進行時間規范化,根據Wiki和百度百科實體的別名詞典庫進行實體指代消解,并持續對別名詞典庫進行維護擴充;

③事件觸發詞匹配,并基于事件觸發詞庫對句子進行過濾,將包含觸發詞的句子作為事件句;

④對事件句進行依存句法分析,通過遍歷句法樹的動詞,找到其依存的主語、賓語、時間、地點等要素信息;

⑤對候選事件要素進行過濾,過濾掉動詞非觸發詞、主語非實體類(人名/地名/機構名)事件;

⑥對抽取的結果進行處理,包括:否定詞處理、被字句處理,多個主語、多個賓語的處理等;

⑦對抽取的事件要素進行組合,形成事件描述。

3.3事件合并

由于新聞數據來源的多樣性,會導致新聞事件的重復報道。本文基于句子級的元事件抽取技術從新聞文本中抽取到元事件,同一個元事件會存在于同一篇新聞的不同句子或多篇新聞的不同句子中,導致大量的元事件冗余和事件信息沖突。通過事件合并,將指代同個現實事件的多條事件數據合并為一條事件數據,降低元事件的冗余度。另外,事件抽取的信息往往是不完整的,會存在事件要素缺失。事件合并包括事件共指和要素對齊。事件共指是通過發現元事件間的共指關系,實現對同一語義的多個元事件進行融合消解。事件要素對齊,事件共指時保留有價值的事件要素,補充缺失要素,規范事件要素,達到提高事件數據質量的目的。

本文用時間、地點、施事者、受事者和動作5個元素來表示個元事件。在兩事件含有相同事件元素的限制條件下,基于事件描述句的相似度來進行事件融合的判斷,即依據2個事件含有的相同事件元素情況的不同類型設置不同大小的相似度閾值,具體操作步驟如下:

①遍歷已抽取的元事件數據集,獲取每個元事件描述句,利用TF-IDF方法對元事件描述句進行向量化表示;

②以第一個元事件1為目標事件,以1要素作為檢索條件獲取候選元事件集;

③依次計算1的事件描述句向量與候選元事件集各元事件的事件描述句向量的余弦值,得到2個事件描述句的相似度,記為(1, )。

④判斷1與各事件元含有的相同事件元素情況;

⑤依據2個事件含有的相同事件元素情況的不同類型選擇不同大小的相似度閾值,進行事件融合判斷;

⑥將滿足相似度閾值的元事件與1進行事件對齊,補充缺失的事件元素;

⑦依次以事件2, 3,…,為目標事件,重復步驟②~⑥。

3.4事件關系識別

為了能夠識別出更多元事件關系種類,本文采用基于模式匹配的事件關系識別方法,對同句抽取的2個事件,識別2個事件動詞之間的連接詞,根據連接詞的類型判斷2個事件之間的關系,包括因果、順承、轉折、并列等。本文在漢語句法模式的基礎上,基于積累的語義規則知識,根據不同的語義規則制定了不同的事件關系識別的正則表達式,形成事件關系識別模板,并在實際運用中不斷豐富,以提升關系模板的覆蓋面。對于因果事件關系,區分原因事件和結果事件,其他類型事件關系需區分事件的先后順序。從同篇新聞抽取的2個事件,在施事者相同的條件下,可根據2個事件之間發生的前后時間順序,判斷順承關系。

事件關系識別的具體流程如下:

①按新聞遍歷新聞中的事件句,依據事件關系識別模板識別關聯的元事件,并判斷關系類型;

②對于建立關系的元事件,將元事件映射為事件合并后的元事件,按照<元事件1,關系類型,元事件2>的方式存儲事件關系,其中事件1的發生時間早于事件2的發生時間;

③對于未建立關系的元事件,首先判斷施事者是否相同,若相同,則根據2個事件之間發生的前后時間順序,判斷順承關系;

④將元事件映射為事件合并后的元事件,按照<事件,關系類型,事件>的方式存儲事件關系。

4實驗結果及分析

本文從新聞網站上抓取了“美國南海核潛艇撞擊”和“印度副總統奈杜赴阿魯納恰爾訪問”新聞專題的相關新聞數據,其中“美國南海核潛艇撞擊”專題的新聞共計79篇,“印度副總統奈杜赴阿魯納恰爾訪問”專題的新聞共計104篇。經過對新聞數據進行元事件抽取、事件合并和事件關系識別等處理后,按時間順序和事件間關系對事件數據進行組織,得到2個新聞專題的事件關系圖,分別如圖2和圖3所示。

下面舉例具體說明事件關系圖的構建結果。

(1)事件抽取

從新聞原句“據美國海軍學會網站報道,10月2日,美國海軍海狼級攻擊核潛艇康涅狄格號在南海與不明物體相撞,現已航行到關島進行評估和維修?!敝凶R別出事件觸發詞“相撞”和“航行”,并基于依存句法分析抽取出2個元事件,如表1所示。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合