?

基于詞相關性特征的多歸屬譜聚類突發事件檢測

2021-01-19 04:58蔣偉進王揚劉曉亮呂斯健
通信學報 2020年12期
關鍵詞:子圖突發事件聚類

蔣偉進,王揚,劉曉亮,呂斯健

(1.湖南工商大學大數據與互聯網創新研究院,湖南 長沙 410205;2.新零售虛擬現實技術湖南省重點實驗室,湖南 長沙 410205;3.湖南工商大學計算機與信息工程學院,湖南 長沙 410205;4.武漢理工大學計算機科學與技術學院,湖北 武漢 430073)

1 引言

隨著Web 2.0 的發展,一系列新的社交網絡正在迅速興起。盡管此類網絡相對較新,但它們吸引了很多用戶來分享其觀點和感受,在社交網絡上實時討論真實生活中發生的焦點、熱度高的事情成為許多用戶的一種趨向性消遣,并且他們對事情發表帶有主觀性、影響力較強的評論,使現實生活中的突發事件在社交虛擬網絡上爆發的時間往往比官方發布新聞的時間更早[1]。具有用戶發布內容的社交媒體和在線服務已經生成了數量驚人的信息,這些信息在事件分析和應急管理等各個領域都有潛在的應用[2]。突發事件在微博和微信等社交網絡上迅速發酵[3-4],其突發性影響了后續的應急處理,包括輿論以及救援等。通過從緊急災難等事件檢測模型發出大量及時、準確的警報,可以幫助人們迅速采取行動,以減輕損失。因此,在各種突發事件發生后,通過社交網絡實時監測事件的演變情況,并采取相應措施控制其發展對輿論指導具有重要意義。

隨著時間的推移,控制突發事件的進一步擴大將有助于決策者分析整體情況,并根據演變過程做出正確的決策。在這種情況下,有必要確定關鍵事件并通過時間表對其進行控制,可以通過提取和分析與社交事件相關的微博來獲取時間信息[5]。微博平臺可以充當信息源,使個人、公司和政府組織可以隨時了解“當前情況”和“人們對它們的看法”。檢測突發事件和用戶對其的看法至關重要,因為它們可以帶來寶貴的信息。例如,公司可以使用這些信息來分析用戶對其產品(或競爭對手)的看法,以回應用戶的投訴并改善決策。與傳統的信息傳播渠道相比,在社交網絡上檢測獲得的突發事件能使人更快地了解到事件的詳細發展情況,以便相關部門迅速采取應對策略,這具有重要的現實意義。本文圍繞微博突發詞提取及多歸屬譜聚類檢測2 個核心內容,開展了微博社交網絡突發事件檢測的研究,主要創新點如下。1) 在突發詞提取上,根據微博的時空特點,在綜合考慮博文內容及社交關系的基礎上,利用詞頻增長率特征、用戶影響力及詞權重3 類指標,提出了新穎的突發詞提取模型;2) 在突發事件檢測上,針對突發事件檢測中參數過多的問題,將文本處理轉化為圖劃分,從特征關系圖的角度出發,基于事件突發特征的相似性和共現性構建詞關系圖,對突發事件進行檢測。

2 相關研究

由于本文結合文本和詞相關性特征來檢測突發事件,因此相關工作集中在文本分析、突發特征分析以及用戶特征分析等用于突發事件檢測的方法。當前的核心問題和挑戰是如何快速、準確地從指數增長的數據中檢測到突發事件?,F有的突發事件檢測方法主要分為3 類。

1) 以文本為中心。將文本語義之間的相似程度通過相關方法度量為距離對文本進行聚類分析,根據聚類結果檢測突發事件。該方法將單詞的時間序列離散為一小組級別,記錄每個單詞和每個單詞對的出現次數。然后通過滑動時間窗口將共現標記聚類,形成候選事件簇,對滿足相應突發規則的類進行突發事件的識別[6-8]。李瑩瑩等[9]通過聚類定義了有關事件的隱式語義信息,以引入相關事件,對具有相同主題的意外事件進行聚類,該聚類是在監視事件演變的社交網絡中進行的。張婧麗等[10]通過計算事件檢測標簽的文本框架類型相似度方法來識別框架,從而檢測出一種緊急情況,并改進緊急情況觸發詞的識別,能更正確地識別觸發詞,有效提高識別率。陸垚杰等[11]基于不確定的語言變量構建突發事件模型,減少了文字語言的干擾,從文本的語法和語義2 個角度進行研究,使突發事件的檢測模型更具準確性。Zhu 等[12]提出了一種改進的術語頻率逆文檔頻率(TF-IDF,term frequency inverse document frequency)算法,稱為TA TF-IDF,用于根據時間分布信息和用戶注意來查找熱門術語,從而實現對新聞中熱點話題的檢測。但是,由于微博文本含有大量的口語單詞、網絡短語、廣告、鏈接和其他垃圾郵件信息,在對數據信息進行聚類分析和計算詞語相關突發特征時,引入過多無用信息會對其造成噪聲干擾。另外,對微博文本進行聚類分析時,需要對一些參數閾值進行調試以達到最好的實驗效果,但一般都是以研究的相關經驗設定參數閾值,并且閾值選擇的質量會直接影響聚類的結果,從而對檢測的準確性產生影響。

2) 以突發特征為中心。這類方法首先獲取與突發事件相關的微博內容特征,然后對得到的突發事件相關特征進行聚類分析,最后根據聚類算法的結果獲取突發事件的相關信息。張魯民等[13]在微博上建立了一個情緒符號模型,以確定一般情況下網民的情緒可以控制事件傳播的程度,緊急情況的發生導致相關事件的信息量迅速上升,網民的情緒也隨著評論起伏不定。因此,對微博的原始文本和評論內容進行情感分析可以顯著提高緊急事件檢測的準確性,但只考慮網民的情緒變化還不夠全面。仲兆滿等[14]考慮到地域突發特征,構建了基于網絡地域的突發事件檢測方法,但是該方法檢測不到沒有地域突發特征的內容。Kalden[15]引入網頁排名的方法,對用戶影響力的比值進行計算,并提取了突發詞特征來發現突發事件。該方法引入了用戶影響力因素,但是一些僵尸用戶以及“水軍”也被引入,增加了噪聲信息。Zou 等[16]提出了一種結合情感和主題標簽的模型,以在線檢測微博流的中文突發事件,但在沒有任何標簽的情況下,這種方法將失敗。張仰森等[17]提出了基于最小代價函數的目標檢測與跟蹤融合算法對突發事件進行檢測,以降低檢測的錯誤率。該算法能夠自適應地調整跟蹤參數的大小,并在丟失目標后重新捕獲目標,它可以同時滿足多個事件的檢測跟蹤。Zhang 等[18]提出了一種基于突發項值計算和偽突發項識別的突發主題檢測(BTDF,bursty term detection and filtration)方法,通過使用術語的基本權重和突發權重來提取突發項,并通過分析術語的新穎性來過濾偽突發項,但沒有對無效突發項進行過濾。

3) 以用戶行為特征為中心。對用戶在社交網絡的行為數據進行分析,在突發事件檢測系統輸入用戶行為數據,判斷系統檢測的結果是否與現實事件基本相同。Gupta 等[19]對10 350 條獨特的推特信息進行了特征分析,以了解偽造圖像傳播的時間、社會聲譽和影響模式,并利用用戶行為特征和文本特征構建分類器進行研究,結果顯示,在10 215 位用戶中,排名前30 位的用戶(0.3%)導致了90%的偽造圖像轉發。Wang 等[20]研究用戶轉發行為,提出了一種基于多層個人信息(MII,multi-layered individual information)和動態時間序列(DTS,dynamic time series)算法的用于謠言事件檢測的新型兩層門控循環單元(GRU,gated recurrent unit)模型,稱為MII-DTS-GRU。在新浪微博數據集上的實驗結果表明,MII-DTS-GRU 模型達到了96.3%的高精度。趙海林[21]提出了一種基于用戶行為特征的監督式機器學習事件確定方法,利用從推文文本和元數據中提取的統計特征,并在突發序列中將推文簇的特征對應于緊急情況確定,以實現分類器。但是有許多用戶行為與國家安全無關,這將延遲緊急情況的判斷時間。介飛等[22]針對網絡媒體的突發問題隱式事件,根據檢測到的事件來分析突發社會行為特征,引入關鍵詞功能,動態調整每個候選關鍵詞的時間窗。不同事件具有不同的關鍵詞功能綁定,避免了事件之間的干擾,準確地識別了隱性突發事件,但對于單詞中的巨大語義變化并不適用。

為了解決這些問題,本文提出了一種結合詞語相關特征和多歸屬譜聚類算法檢測突發事件。首先,按時間順序對爬取的微博數據進行分段,利用連續時間劃分數據切片,計算每個時間片段的數據信息的各詞語的詞頻特征、用戶影響力和詞頻增長率特征,運用突發度計算方法來提取突發詞。然后,利用特征相似性對提取突發詞進行矩陣構建,轉化為詞語關系圖。最后,運用多歸屬譜聚類算法對單詞關系圖進行最優劃分,并在時間窗滑過時關注異常詞語,通過子圖中詞語突發度的變化而引起的結構變化對突發事件進行判斷?;谕话l事件的檢測模型流程如圖1 所示。

圖1 基于突發事件的檢測模型流程

3 基于突發詞相關突發特征提取模型

3.1 文本預處理

在進行事件檢測之前對文本進行預處理能夠使檢測的結果更加準確。文本預處理首先進行噪聲過濾,采用NLPIR(natural language processing and information retrieval)分詞系統過濾掉無用文本,包括去除不含事件三要素[23-24]的博文、粉絲數在某一閾值以下的用戶,以及文本中包含的圖片網址鏈接、表情符號等。其次使用BosonNLP 情感詞典[25-26]過濾掉含情感的詞語,如式(1)所示。最后對文本進行規范。

其中,Se(n)為詞語的情感度,positive_word(ωi)為積極正面的情感詞語數量,negative_word(ωj)為消極負面的情感詞語數量。

3.2 突發詞特征的分析與表示

1) 詞頻增長率特征

在一個時間窗口內,詞頻特征在單詞頻率特性中考慮了高頻單詞,但沒有考慮單詞頻率的變化趨勢。如果某個事件剛剛發生,突發的單詞只在Ti時間窗口涌動,就不能通過單詞頻率以及引入的增長率來重新提取突發正確的單詞,以識別意外單詞。本文綜合一些研究方法,計算詞語在某段時間Tm的頻率與之前的平均歷史頻率A m?1(ω)之和。

其中,f m(ω)表示詞ω在時間窗Tm下的詞頻。根據式(2),對多個連續時間段的詞語計算平均增長率,能夠顯示出單詞頻率的波動趨勢。

2) 用戶影響力

一般來說,擁有眾多粉絲的用戶發布的微博會更具影響力,相應地這些用戶討論的事件有很大的潛力能成為突發事件,這會使計算出的突發度不夠準確,少數高影響力的用戶會成為主導因素,一些普通用戶的影響力會被大幅度減弱。綜上所述,本文采用歸一化的方法計算用戶的影響力,定義用戶H=(Rep,Com,Fan,Type,Update),如式(3)所示。

其中,Rep 和Com 分別表示用戶一個月之內轉發和評論微博數量;Fan 表示用戶的粉絲數量;Type 表示用戶的類型,不同的類型權重不同,官方認證的微博權重為1,“大V”即粉絲數量多的微博權重為 0.7,普通用戶的微博權重為0.5;Update 表示用戶一個月之內的更博數,最小值不能為零。

在社交網絡上,用戶的粉絲數量越多,影響力越大,如明星所發布的微博在幾分鐘內就有可能被幾十萬人看到。因此,影響力越高的用戶對事件傳播速度的貢獻越大,其中出現詞語描述突發事件的可能性也越高。

3) 詞權重的計算

在突發事件中,與事件有關的微博會呈井噴式爆發,突發詞會頻繁地出現在同一事件的不同文本中[26]。在微博短文本中,傳統TF-IDF 方法難以衡量關鍵詞與普通詞語的差異性,因此采用文獻[27]中的文檔頻率?倒文檔頻率(DF-IDF,document frequency-inverted document frequency)詞權重算法。對于網絡熱議的話題,單詞的DF 會上升;若發生突發事件,單詞的IDF 會呈指數形式上升。該算法彌補了TF-IDF 方法的缺點,能準確地計算詞權重。

式(4)為單詞j第t天的詞權重,與傳統TF-IDF不同,本文IDF 只限于近期微博(不超過一個月),為第t?τ?t天內單詞j的平均DF,其表示第t天包含單詞j的博文。由于一般社會事件的關注度都會隨著時間而降低,不會超過兩周,因此單詞的時間段τ被設置為14。

3.3 突發度計算方法

為了能更好地得到一個突發詞,綜合用戶影響力和突發詞的重要性,突發度的計算式為

其中,wordj,t是單詞j在時間窗t內的突發度;是包含單詞j的一條微博的發布者pn的影響力;Pj,t是在時間窗t內包含單詞j的所有微博;N是時間窗的總數。突發度值高的被提取為突發詞。

4 突發事件檢測

4.1 詞語關系圖構建

為迅速獲取每日事件的信息,需要選取用于構建關系圖的突發詞集合,利用突發詞集合構建詞語關系圖。根據上述突發詞的提取方法,按突發度的高低排序,選擇突發度高的n個詞語,過濾了含大量與事件無關的詞語。

假設從文本流中連續獲取邊緣序列,詞關系圖是無向的,定義為

其中,V是從文本流中提取的詞語集合,E是在文本滑動窗口中與詞語相對應的邊緣集合。具體來說,V中一個節點上具有相同含義的多個實體或動詞。由于圖形隨著時間的變化,G中節點之間的邊緣權重將發生顯著變化。邊緣節點gi在時間ts邊緣權重定義為R=(gi,ts)。

給定2 個詞語矩陣ωi和ωj,通過余弦距離定義它們之間的語義相似性為

其中,vω是從word2vec 模型計算出的單詞的單位向量。

歸一化將具有表達式的維數轉換為無量綱的表達式后,ω將成為標量,可將計算量簡化。歸一化交叉相似度Dcc(ωi,ωj)定義如式(8)所示,其中表示單詞ωi的矩陣形式。

通過式(8)計算,得到詞語關系圖的相似矩陣,且維度為n(單詞ωi和ωj的相似度),相似度高的即為同義詞。然后使用word2vec 模型將多個同義詞合并到一個節點中。對于每個詞語,遍歷詞語關系圖上的每個節點,如果相似度超過閾值則將該詞語與存在的節點進行比較,并按字典順序用前一個短語表示。

對于微博文本中多個詞語同時出現,本文通過最大化而非累積來更新該詞語的權重。遍歷所有文本后,通過將權重加在一起來合并它們。熱門話題的影響會隨著時間的流逝而逐漸消失,因此單詞共現度在很長一段時間內都不會穩定下來。為了模擬時間效應,引入衰減因子λ來調節單詞共現度隨時間衰減的速率。

其中,f(ωi,ωj)表示單詞ωi和ωj在某時間段內微博文本中同時出現的次數,f(ωi)表示詞語ωi和ωj在時間窗內出現的總次數。共現度顯示了單詞共同出現的頻率,數值越高,描述同一事件的概率越大。

4.2 基于多歸屬譜聚類的圖劃分算法(MASCA,multi-attribute spectral clustering algorithm)

譜聚類算法從數據的親和力矩陣(即相似性矩陣)得出拉普拉斯矩陣的特征向量,并將數據轉換為新的維度,然后可以使用其他最小化失真度量的算法對其進行圖劃分。在這種情況下,親和矩陣證明了數據點之間的成對相似性,并用于克服由于數據分布缺乏凸度而帶來的困難。具體而言,與K 均值不同,譜聚類不會在數據上施加超球形聚類,并且在大多數情況下,甚至在數據點不對應于凸區域時,也可以獲得令人滿意的聚類結果。多歸屬譜聚類的圖劃分流程如圖2 所示。

圖2 多歸屬譜聚類的圖劃分流程

1) 目標函數建立

為了對單詞關系圖進行最優劃分,本文首先運用子圖歸屬度向量表示詞語對劃分子圖的歸屬程度,使子圖內部的單詞盡量相似,定義為

其中,ui,r表示單詞ωi對第r個子圖的歸屬程度,0≤ui,r≤1,L表示詞語的數量。每個子圖包含一個事件的突發詞,而一個突發詞能對應多個事件,即對應多個子圖,則不同子圖會包含同一個單詞。

NJW 方法[28]使用歸一化相似度矩陣作為圖拉普拉斯矩陣,并通過考慮對應于最大特征值的特征向量,基于歸一化割準則優化分區建立目標函數P如式(11)所示。式(11)的目標是同時考慮最小化cut邊和劃分平衡,即優化不同子圖的歸屬度向量ur,以免cut 出一個單獨的詞語。W是詞語關系圖頂點之間的相似度矩陣,D是相應的度矩陣。

目標函數P的最小化可轉化為拉普拉斯矩陣特征值的最大化,使用U表示所有子圖的歸屬度矩陣,其定義為

2) 歸屬度矩陣近似優化

向量矩陣Ue按數學方法進行旋轉變換,在不改變向量大小的情況下轉換向量原有的方向,保持原矩陣的特性。轉換之后得到單詞的最優歸屬度矩陣Uopt,即Uopt=U eR,其中R為旋轉矩陣,屬于單位正交矩陣。由于在連續域空間中優化Uopt無法得到最優結果,屬于NP 難問題,因此本文運用近似方法在離散域中對其優化以期得到最好的結果,近似矩陣

近似方法通過衡量近似矩陣Ua與最優歸屬度矩陣Uopt的誤差進行優化,即在約束條件下如何使誤差最小的問題。Ua與Uopt通過弗羅貝尼烏斯范數(Frobenius norm)進行表示,即

其中,(Π,Ω,Ξ)是矩陣的奇異值分解矩陣,矩陣Π和Ξ均是正交矩陣。使用迭代的方法進行求解,具體算法偽代碼如算法1 所示。

算法1優化歸屬矩陣

輸入n,m,U

輸出Uopt

3) 聚類個數自適應方法

譜聚類劃分將微博文本數據聚類轉換為單詞關系圖的多向劃分問題,解決圖劃分的關鍵是找到準確的聚類個數。當確定了聚類的個數時,能夠優化通過近似方法求出的近似矩陣值,并進一步精確該值。在本文中,為了使算法更適用于突發事件檢測的實時應用場景,最優聚類個數由特征值的下降程度決定,由于下降程度無法精確,因此是近似估計。

算法2 給出了確定聚類個數的偽代碼。使用該方法計算最優聚類個數的線性時間復雜度為O(L),可以及時地檢測出實時事件。運用歸屬度矩陣優化的方法劃分單詞關系圖,由算法得出的最優聚類個數是多少,則劃分子圖的個數就是多少。

算法2使用特征值向量優化聚類個數

4) 突發事件識別

子圖劃分之后,每個子圖包含若干個突發詞,這些突發詞組成一個事件,即每個子圖代表一個事件的集合。判斷事件是否為突發事件由對應的單詞關系圖結構是否發生變化決定,即突發事件發生時,短時間內會出現與該事件有關的大量微博文本,而這些文本中會包含高突發度的詞語,并出現在構建關系圖的單詞集合中。此時,發生變化的詞語會顯示突發性,構成新的單詞關系圖。因此,在關系圖中單詞突發度發生改變代表突發事件產生,偽代碼如算法3 所示。

算法3判定突發事件

算法4 說明了突發事件與文本聚類簇的映射關系,比較了事件關鍵詞集合和聚類簇的關系,通過循環,找出與事件關鍵詞集合相似度最大的文本聚類簇,即為突發事件的具體信息。

算法4將子圖結果映射到文本聚類簇

輸入subgraph,cluster

輸出eventcluster

5 實驗結果與分析

本文使用的數據集來自新浪微博,通過模擬微博登錄來爬取微博數據,采集了2019 年11 月1 日至11 月30 日的微博數據,這些數據沒有進行事件標注。由于微博不僅包含官方新聞事件,也包含娛樂新聞事件[29-31],因此本文以官方新聞熱議事件作為微博事件的參考。對于所有數據集,本文使用3.1 節方法進行文本預處理。所有實驗均在具有8 GB 內存并在Windows 8 上運行的4.00 GHz Intel CPU 上進行。本文實現了該算法,以獲取準確的突發事件并驗證檢測是否成功。

5.1 突發詞提取

鑒于微博數據中存在的大量噪聲,本文對數據進行噪聲過濾以及情感過濾,經處理后的微博存儲結構如表1 所示。

表1 處理后的微博存儲結構

為了測試突發詞提取模型的效果,從數據庫中抽取2019 年11 月20 日到2019 年11 月30 日的數據。首先分析時間窗口參數對突發事件檢測結果的影響,如圖3(a)所示;然后分析提取突發詞數量的多少是否會影響實驗結果,如圖3(b)所示。

如圖3(a)所示,當時間窗口長度過小時,事件的準確率和召回率較小,IDF 僅在短期內被平均化,使關鍵詞提取模型受到干擾,并且容易獲取到大量毫無關聯的關鍵詞。當時間窗口長度在2~14 時,準確率和召回率都呈逐漸上升趨勢,無關聯的關鍵詞被剔除,對檢測效果產生正面影響。當時間窗口長度繼續增加,準確率繼續上升,召回率下降較快。為使準確率和召回率都在一個大的數值范圍上,時間窗口長度取14。由圖3(b)可知,關鍵詞數量較少,無法檢測到突發事件,因此召回率和準確率都比較低。當關鍵詞數量從2%增長到4.5%時,召回率和準確率都達到了頂峰,而當關鍵詞數量繼續增加時,太多的關鍵詞容易引起混亂,使檢測效果變差(準確率下降)。因此為了使檢測效果最好,使用整個數據集4.5%的詞語來提取突發詞。

5.2 多歸屬譜聚類效果測試

1) 單詞關系圖參數測試

詞關系圖是進行譜聚類圖劃分的基礎,據此可分析基于圖聚類的事件檢測效果。圖4 分析了關系圖節點近鄰數的大小對突發事件檢測效果的影響。當節點近鄰數較小時,即突發詞之間的關系不足,極大地影響了事件的檢測效果。直到數量達到6 時,召回率和準確率都是最大值,事件檢測的性能才最好。

圖3 不同突發詞提取參數對事件檢測的影響

圖4 詞關系圖節點近鄰數對事件檢測性能的影響

圖5 顯示了突發詞相似度閾值的變化對突發事件檢測性能的影響??梢园l現,事件的準確率隨著相似度閾值的增大而上升,表明突發詞的相似度越高,越容易檢測到突發事件。但閾值太大,會過濾掉一些相似度較小的突發詞,導致事件的召回率較低??紤]到準確率和召回率的平衡,選擇兩者交點處的閾值,即1.2。

根據上述結果調好參數之后,選取突發度較高的8 個單詞按順序構建單詞關系圖,8 個單詞的關系網絡如圖6 所示。實線表示2 個詞語之間相似度高(在0.7 以上),細虛線表示詞語之間相似度較低,粗虛線表示通過word2vec 模型連接的邊。

圖5 相似度閾值對事件檢測性能的影響

圖6 詞關系圖效果示意

2) 多歸屬譜聚類效果測試

利用2019 年11 月1 日至11 月30 日的微博數據,根據提出的詞的突發度計算式得到了詞的突發度,突發關鍵詞的熱度頻率如圖7 所示,本文對11 月的突發事件進行分析。在圖7中,這些關鍵詞的趨勢是相同的。同樣,與不同事件相關的相同關鍵詞也具有此特征,如圖8所示。事件4 與突發詞1、2、3 相關,事件2與突發詞1、4 相關。這2 個圖揭示了關于不同事件的關鍵詞彼此之間具有某些語義相關性,并且相互影響。

最終選取突發度排名前70 的突發詞構建詞關系圖,得到58 個詞語組成的關系圖。再利用MASCA(multi-attribute spectral clustering algorithm)對關系圖進行劃分,并且給出了圖劃分的最優個數為7。

5.3 突發事件檢測

表2 顯示了突發事件檢測算法中事件相似度閾值參數μ的各項指標,它能衡量檢測突發事件的難易程度,參數值越高,檢測到的突發事件數量就越多。為了選擇最佳的參數值,當μ為0.5、0.6、0.7、0.8、0.9 時,計算相對應的指標大小,并對其進行比較。

圖7 突發關鍵詞的熱度頻率

圖8 突發事件的熱度頻率

表2 閾值參數對實驗結果的影響

Precision、Recall 和F1 在不同相似度閾值參數μ下的變化趨勢如圖9 所示。Precision 隨著μ的增加而逐漸下降,0.7~0.9 下降幅度較大;與之相反,μ越大,Recall 也隨著增大,0.8~0.9 基本保持不變;而F1 的變化趨勢是先增大然后減小,在μ=0.7 時,F1 值最大,此時突發事件檢測算法達到最優的效果,與之對應的Precision、Recall 分別為82.57%、87.95%。因此在檢測突發事件時,事件相似度閾值參數μ取0.7。

圖9 突發事件檢測效果

在國內微博突發事件檢測中,尚沒有識別手動標記的語料庫[32-35]。因此,結合使用Search Billboard中的微博和微博數據本身,可以手動注釋30 天的緊急情況,包括32 個事件。近一個月內社交網絡上熱議最多的7 個突發事件在表3 顯示,包含了事件的基本信息,即事件編號、與事件相符的子圖詞語數量、單詞重合率。

表3 部分突發事件檢測結果

與單詞重合率代表子圖中包含了多少突發事件的關鍵詞不同,子圖單詞重合率是衡量子圖與事件是否相符的指標。該值越大,子圖與事件的相符程度越高,包含事件關鍵詞的數量就越多。從突發事件檢測的Recall 值來看,子圖單詞都能描述對應事件的發展經過,同時子圖單詞重合率平均值為0.892 9,表明本文提出的算法能準確地劃分單詞關系圖,并且被劃分的子圖內單詞集合能對事件進行簡單的表達。

由事件檢測結果知,本文提出的突發事件檢測算法能準確地識別突發事件,并且通過不同時刻單詞關系圖的變化反映事件在不同時間的演變趨勢,說明本文提出的突發事件檢測方法檢測事件更全面。

5.4 評價指標

本節將本文與其他文獻的方法進行對比,使用標準指標Precision、Recall 和F1 評估量化模型的有效性,計算式為

其中,Bcorrect 為系統中識別正確的突發事件個數,Bnumber 為數據集中事件的總數量,Boutout 為數據集手動標注的突發事件個數。

1) 指標對比

文獻[29]提到的基于詞共現圖的方法將微博數據進行預處理,根據主題詞間的共現度構建詞共現圖,把詞共現圖中每個不連通的簇集看成一個新聞話題進行突發事件檢測,當共現度閾值為0.6 時F1 值最高,達到0.661 5,Precision 是0.645 4,Recall 是0.77。文獻[20]通過博文的轉發關系、跟隨關系和轉發時間創建消息傳遞圖,然后從圖結構方面提取時間演化特征識別突發事件,當時間演化聚類距離閾值為0.8 時,F1 值最高,達到0.766 8,Precision 是0.736 4,Recall 是0.805 0。將其與本文方法的Precision、Recall、F1 值相比較,如圖10 所示。

圖10 實驗結果對比

由圖10 可知,本文方法在Precision、Recall與F1 值上都要優于其他2 種方法,這是由于本文為了解決微博的時間特性專門設計了一種新型詞語突發度以及詞語矩陣相似度的計算方法,使提取的突發詞全面準確,能夠更好地對突發事件進行描述。并且本文采用的基于多歸屬譜聚類的圖劃分的事件檢測方法能夠使突發詞構建的共現圖包含較大較全的信息量,提高檢測的準確率。

2) 事件檢測時延

檢測時延是指事件發生到檢測到事件之間的時間間隔,它反映了算法的效率[36-38]。本文選擇30 個通過給定5 種方法成功檢測到的事件。圖11 顯示了突發事件檢測時延對比。在所有方法中,本文方法花費最少的時間進行事件檢測。由于此數據集中每個事件的稀疏分布,因此所有方法比由預定義事件組成的其他數據集花費的時間更長,說明本文提出的突發事件檢測方法在較短的時間內能夠檢測到結果,能使相關人員及時采取措施進行控制。

圖11 突發事件檢測時延對比

值得注意的是,本文發現實驗中其他方法的召回率比MASCA 低得多,檢查了真實數據后發現,關系圖中最早和最新的事件不一定彼此相似。但是其他方法將它們視為無關事件,因為它沒有達到閾值。本文方法獲得了由最相似事件之前已經構造的舊關系圖,并將本文的候選事件放入其中,因此事件不需要足夠相似就可以放在一個圖中,這會增加召回率。

6 結束語

本文提出了一種結合詞相關性特征和MASCA算法的模型,用于檢測微博流的中文突發事件。在此模型中,引入了增量word2vec 以在檢測過程中合并同義詞,以詞語的基本特征為基礎,通過使用DF-IDF 和用戶影響力提取事件的突發詞,結合詞語關系圖和事件的相似性度量來進行圖劃分。當任務完成時,本文不僅可以檢測突發事件,還可以提取人們對突發事件的把握程度。實驗結果表明,本文方法具有很高的性能和有效性。為了提高性能,本文對檢測模型的相關參數進行調整,得到了最優檢測性能,當μ=0.7 時,Precision、Recall 與F1 值都有良好的效果,本文方法在精度、召回率和時延方面均優于其他對比方法。

由于社交網絡不僅是文本信息,也有其他非結構數據。因此,在未來的工作中,會繼續對突發事件的檢測模型進行優化,并加入更多的其他模態數據,使檢測更加準確,并能使用多方面的信息對事件進行描述。

猜你喜歡
子圖突發事件聚類
關于星匹配數的圖能量下界
不含3K1和K1+C4為導出子圖的圖色數上界?
面向WSN的聚類頭選舉與維護協議的研究綜述
面向高層次綜合的自定義指令自動識別方法
基于高斯混合聚類的陣列干涉SAR三維成像
突發事件的輿論引導
基于Spark平臺的K-means聚類算法改進及并行化實現
基于加權模糊聚類的不平衡數據分類方法
清朝三起突發事件的處置
突發事件
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合