?

多特征融合的可移植謠言早期檢測模型

2020-10-09 11:17孫王斌
計算機時代 2020年9期

摘要:針對當前諸多網絡平臺的謠言泛濫現象,提出結合長短期記憶(Long-short Term Memory,LSTM)網絡與支持向量機(Support Vector Machine,SVM)的可移植謠言早期檢測模型。將謠言文本轉換為向量序列,通過LSTM網絡挖掘謠言文本的深層特征,并引入有效度、敏感度與熱度特征.通過SVM融合訓練擬合表明,該模型在多平臺數據集上表現出良好的預測結果。

關鍵詞:謠言檢測;可移植;LSTM; SVM

中圖分類號:TP391.1

文獻標識碼:A

文章編號:1006-8228(2020)09-11-06

Rumor early detection model with multi-feature merged and portability

Sun Wanebin

(Central South University, School of Cornputer Science and Engineering, Changsha, Hunan 410012. China)

Abstract: In view of the phenomenon of rumor overspreading among many platforms, a portable rumor early detection model withthe combination of Long-short Term Memory (LSTM) network and Support Vector Machine (SVM) is proposed. Vector sequencesconverted from rumor corpus are fed into LSTM network to mine the hidden text feature. Effectiveness, sensitivity and heatfeatures of rumor corpus are introduced and merged by SVM training. The experimental results show that the model performs wellin multi-platform dataset.

Key words: rumor detection; portable; LSTM; SVM

0引言

隨著社會經濟、文化的快速發展,截止到2018年底,我國互聯網普及率達59.6%,網民規模達到8.29億?;ヂ摼W技術的進步,極大增強了網絡信息的流動性和擴散性[1]。網絡信息質量參差不齊及監管機制的缺乏,導致網絡謠言肆意傳播。謠言泛濫致使人們難以甄別信息可信程度,對人們的正常生活秩序造成影響,甚至引起經濟損失及社會動蕩。近年來,各大新聞網站及社交平臺積極推出官方辟謠平臺,如新浪微博辟謠平臺或中國互聯網聯合辟謠平臺(以下簡稱聯合辟謠平臺)。然而,上述平臺需要大量專業人士花費大量時間驗證,并且平臺資源差異大、謠言重復率高,更加重了驗證負擔。因此如何在各平臺謠言傳播初期進行通用有效的自動檢測,對于輔助人工驗證、降低謠言危害和維護社會穩定具有重要意義。

1相關研究

目前謠言檢測主要為二分類問題,即1代表謠言,0代表非謠言。該問題最先由Yahoo實驗室研究員Castillo[2]通過對Twitter上的tweet進行整理后于2011年提出,并提出基于用戶特征、傳播特征和用戶特征的決策樹分類模型,以此判斷事件的真實性。2012年,Yang等人[3]首次基于新浪微博平臺進行謠言檢測,引入了用戶終端類型和用戶位置兩個新的統計特征,并通過對真實微博數據集的測試證明了上述新特征的有效性。2016年,毛二松等人[4]提出了一種基于深層特征和繼承分類器的微博謠言檢測方法,利用微博情感傾向、微博傳播過程及微博用戶歷史信息等深層分類特征對集成分類器進行訓練,有效提高了微博辟謠性能。2019年,王志宏[5]、過戈提出將事件流行度、模糊度和流傳度作為微博謠言事件檢測分類器的三項新特征,使謠言事件自動檢測效果得到了可觀提升。

近年來,深度神經網絡在文本分類、圖像處理等方面表現優異,自然語言處理(Natural LanguageProcessing,NLP)領域也越趨成熟。2016年,Ma等人[6]首次提出使用循環神經網絡(Recurrent NeuralNetwork,RNN)學習微博謠言中的深層特征,捕獲相關微博的上下文信息隨時間的變化,在真實微博數據集上的測試表明,該方法的準確率較傳統檢測方法而言取得進一步提高。李力釗[7]等人提出基于C-GRU模型的微博謠言事件檢測方法,充分考慮了微博語句的句義特征與微博事件中的微博序列相關特征,有效提高了檢測準確率。

雖然現有研究已取得一定成果,但仍存在以下幾點問題。

(1)純傳統機器學習方法需要人為構造大量特征,增強了主觀性。

(2)研究平臺單一,影響模型泛化能力與可移植性。

(3)所依賴的傳播模式、評論轉發等特征具有時延性,在謠言高速傳播窗口期后才能發揮作用,無法完成早期檢測。

針對上述問題,本文提出多特征融合的可移植謠言早期檢測模型。該模型結合LSTM神經網絡挖掘謠言文本特征以提高特征工程質量與模型性能,在剔除時延特征同時引入有效度、敏感度、熱度三大通用淺層特征保證早期檢測能力,利用SVM進行融合訓練,最終在多平臺驗證集上得到88%預測準確率。

2多特征融合的可移植謠言早期檢測模型

謠言早期檢測模型流程如圖l所示,記謠言事件語料集合為T={t1,t2,…,tm},其中ti(1≤i≤m)代表某一主題的謠言語料。本文首先結合預處理過程提取出有效度、敏感度等淺層特征,再將已處理語料通過NLP技術轉換為向量序列輸入LSTM網絡中學習謠言文本特征,同時利用網絡爬蟲技術獲取熱度特征,最后融合所有特征,構建SVM模型進行訓練,實現謠言自動檢測。

2.1淺層特征構建

本節將對除文本特征外的淺層特征計算方式進行介紹,包括普通特征與引入特征。

2.1.1符號特征

該特征是對語料中符號出現次數與占比的綜合,符號包括超鏈接、感嘆號等。謠言語料中常重復加入符號用于加重語氣、博人眼球,如聯合辟謠平臺發布的十大熱點謠言中便出現以“《郵政編碼要取消了?……》”為題的謠言。利用式(1)對數據進行統計分析得到結果如表1所示,結果表明謠言語料符號平均占比約為非謠言語料的2.5倍,存在明顯差距。

f(t)=len(t)-len(t')/c+len(t)-len(t')/len(t) (1)其中t表示輸入語料,t'表示刪除符號后的語料,len表示語料長度,C為自定義參數。

2.1.2情感特征

該特征指語料的情感正向程度。首歡容等人[8]在2017年提出一種基于情感詞典的網絡謠言識別方法,在假設高質量信息源信息更可靠的情況下,對特定類型謠言識別取得了較好成果。而情感詞典缺乏可移植性,因此本文采用NLP科學工具SnowNLP計算情感值,其輸出范圍為[0,1】,輸出值越大表示情感越趨于正向。隨機選取謠言、非謠言樣本各50條利用SnowNLP計算情感值發現謠言與非謠言語料平均情感值分別為0.59和0.75,表明非謠言語料較謠言語料而言情感更為積極。

2.1.3有效度特征

該特征指語料信息的有效程度,本文采用語料中的停用詞數量進行表示。停用詞處理是許多文本處理應用(如信息檢索)中最重要的任務之一[9],可以節省存儲空間和提高搜索效率。停用詞通常不代表具體含義[10],因此語料中停用詞數量在一定程度上體現了有效信息的占比,而以往研究沒有進行利用。本文以哈工大停用詞為主體構建了1677個停用詞,對語料集進行統計得到結果如表2所示,證明該特征可以有效區分謠言與非謠言。

2.1.4敏感度特征

該特征指語料信息的敏感程度,以語料中敏感詞含量定量表示。敏感詞是在謠言中高頻出現的詞語,如“震驚”、“驚呆”以及帶有性暗示的詞語等。而網絡文化的發展與輿論監管機制的完善更讓這一特征顯得復雜,縮寫、變換字體、改用諧音等逃脫檢測的手法層出不窮。本文對健康、政治及兩性等領域的敏感詞及變體進行搜集并構建敏感詞庫,利用詞庫對語料庫統計分析發現,謠言中敏感詞的數量遠高于非謠言,詳細結果如表3所示。

其特征計算公式如下:

f(t)=1/k∑k i=1 ∪Swi t (2)其中t為輸入文本,K為敏感詞總數,∪Swi t為敏感詞Swi在語料中的出現次數。

2.1.5熱度特征

該特征指語料在網絡環境中的熱度值。為保證各平臺衡量標準一致,本文以語料于百度搜索引擎中的搜索次數表示。本文在數據收集過程中發現謠言語料多由個體發布,往往通過更改人物、地點等進行重復傳播以提升熱度,因此具有一定熱度基礎。非謠言語料則主要由個體或官方發布,而官方平臺的存在會造成較大的熱度差異。隨機選取謠言、非謠言語料各5000條,得到熱度分布如圖2所示。圖中結果證明了特征的有效性,當熱度值較低時,謠言語料頻數遠高于非謠言語料;而隨著熱度值增加,非謠言語料頻數則普遍高于謠言語料。

2.2基于LSTM的謠言深層文本特征構建

文本是謠言信息的主要載體與直觀體現。喻國明[11]基于騰訊大數據篩選鑒定的6000+謠言語料,對謠言語料的敘事結構、議題場景構筑及標題特征進行了詳細分析,反映出謠言文本特征的復雜性與重要性,體現了廣泛的分析意義與應用價值??紤]到人為構造特征的不完備性,本文采用LSTM神經網絡[12]對謠言深層文本特征進行學習。

LSTM模型構建過程如圖3所示,本文將其劃分為四大模塊:輸入模塊、LSTMl模塊、LSTM2模塊和分類模塊。輸入模塊負責接收輸入語料以及進行向量化操作;LSTM1模塊負責對來自輸入模塊的向量矩陣進行語義適應;LSTM2模塊利用LSTM1模塊輸出矩陣進行強化學習,深層次挖掘謠言文本特征;分類模塊根據LSTM2模塊的輸出進行分類總結,得出分類結果,詳細步驟如下。 (1)輸入模塊將預處理后的謠言語料序列作為輸入,經分詞得到詞序列集合Ws={W1,W2,…,Wm}。設置詞數閾值Th,對于詞序列Wi(1≤i≤m)采用截斷補齊策略保證數據規整性。利用預訓練Word2Vec詞向量模型,將詞語轉化為低維稠密向量,詞序列Wi則對應轉換為矩陣Mebd∈RTh*D,其中D為詞向量模型中的向量維度,則文本集合可轉換為Ws∈Rm*Th*D。圖4以m=4,Th=5,D=4為例kk直觀展現了上述過程。

(2)LSTMl模塊將Ws作為輸入序列,通過LSTM單元進行語境自適應,將詞向量維度更新為D,得到新的語料集合表示:

Ws=Ω(f(Ws·U1+b)

(3)其中f為Relu函數,U1為網絡權重,b為偏置項,Ω為防止模型過擬合的Dropout操作。

(3)LSTM2模塊利用LSTMl模塊的輸出進行擬合訓練。對于謠言文本Ti,LSTM單元綜合其詞向量序列Wsi,提取句意、句式等隱藏特征,并將結果融合為窗口大小為D。的一維向量,最后通過Dropout層得到特征序列為

(4)其中Ω為Dropout操作,g為Softsign函數,U2為網絡權重,b為偏置項。

(4)分類模塊使用Sigmoid函數將LSTM2模塊最后時間步的輸出轉換為對應謠言與非謠言的分類概率p,其即為文本特征值,p值越大表示語料為謠言的概率越高。

2.3SVM模型構建

在保證學習性能的同時,本文融合深、淺層特征構建特征向量,采用傳統機器學習模型SVM進行擬合以提高物理性能。作為機器學習中流行且功能強大的監督分類器,SVM已經成功應用于模式挖掘、計算機視覺和信息檢索等領域[13]。

SVM可以應用于可分離和不可分離的數據集[14]。令向量xi為文本Ti的特征向量,yi為謠言標簽,則數據集Xtrain可表示為

Xtrain=(5)

考慮到數據來自多個平臺,相互之間容易造成噪音干擾導致線性不可分,本文采用高斯徑向基函數(Radial Basis Function,RBF)作為核函數K,該函數可將樣本從原始空間映射到高維空間,使得樣本在高維空間中線性可分。

3實驗過程與結果分析

3.1實驗數據

微博與微信作為目前國內頂級流量平臺,其數億級的用戶群體使得其中流動著海量信息,其中不乏網絡謠言。2018年聯合辟謠平臺正式上線,至今已精確辟謠數千條網絡謠言。此外,各大論壇及直播平臺均有謠言滋生。因此,本文將從上述平臺采集實驗所需謠言數據。同時,為保證數據合理性,本文從網絡開源新聞數據集中抽取部分語料作為非謠言數據。結合網絡爬蟲與正則表達式技術,最終,經聚類去重處理,為謠言識別任務構建的數據集分布情況如表4。

3.2超參數優化與實驗結果

本文需要訓練兩個模型:計算文本特征的LSTM模型和融合多特征的SVM模型。隨機選取12000條數據作為訓練集,2000條數據作為交叉集,3000條數據作為驗證集。

3.2.1LSTM模型實驗結果

該模型用于學習謠言深層文本特征。設置詞向量維度D為180,文本分詞后的詞數閾值Th為100,LSTM1模塊輸出維度為100×64,LSTM2模塊輸出維度為1×64。模型損失函數采用Binary_crossentropy函數,并使用自適應矩估計優化器(Adam)對模型進行優化。設兩層Dropout值為Dr1與Dr2,篩選范圍均為0.2-0.5,以0.1為調整步長。設置洲練一交叉集迭代次數為10,圖5呈現的Dropout參數調優過程表明Dr1=0.5、Dr2=0.4時達到最優性能,其對應洲練過程如圖6所示。

圖6表明第8次迭代時,交叉集損失值達到最低隨后開始增加造成過擬合,說明模型達到最優,最終在驗證集中取得80%預測準確率,詳細評測結果見表5。

3.2.2SVM模型實驗結果

為進一步提高模型性能,利用SVM融合上述特征進行訓練?;赗BF核函數的SVM中參數C與σ的搭配很大程度上決定了模型性能,因此本文將C與σ范圍縮小為[1,100]后,采用網格搜索確定其最佳組合為C=30,σ=40,結果如圖7所示。

以迭代步數為自變量繪制模型對應準確率曲線如圖8所示,當迭代步數達到5000步時,模型逐漸收斂達到最佳性能,最終取得88%準確率,相對僅使用文本特征的LSTM模型提高了8%。

3.2.3對比分析

令R表示謠言,NR表示非謠言,使用如下方法與本文提出方法進行對比。

(1)王志宏[5]等提出的動態時序特征表示方法和三項新特征的檢測方法SVMDTSall。

(2) Ma等人[6]使用的tanh-RNN、LSTM、GRU檢測方法。

結果如表6所示,如第1章所述,本研究主要采用微博或Twitter數據進行檢測,而人們在不同平臺針對某一事件的表現形式存在一定差異,對模型可移植性造成影響。本文在平臺差異性增強了數據集噪音的情況下,進一步將準確率提高到了88%,證明了模型的謠言早期檢測能力以多平臺間的可移植性。

4結束語

作為互聯網時代的消極產物,網絡謠言對個人、社會和國家帶來了巨大影響。本文提出多特征融合的可移植謠言早期檢測模型摒棄傳統的時延特征,引入常被以往研究忽略的有效度、敏感度、熱度特征;結合深度神經網絡挖掘謠言深層文本特征,進一步增強了對謠言語料的表征能力。在對多平臺數據集的測試表明,本文所提出的模型展現了可觀的謠言早期檢測能力,并表現出更為優秀的可移植性。下一步工作中我們將獲取更大數據集,對數據進行深度分析,發現網絡謠言更有效的特性以提高模型準確率。除此之外,謠言傳播方式繁多,如圖片、視頻等,因此僅考慮文本形式的謠言存在一定局限性,需要進一步地思考如何將其進行融合以達到更好的檢測效果。

參考文獻(References):

[1]張鵬,蘭月新,李昊青等,基于認知過程的網絡謠言綜合分類方法研究[J],圖書與情報,2016.4:8-15

[2]Castillo C,Mendoza M,Poblete B.Information credibilityon twitter [C]// Proceedings of the 20th internationalconference on world wide web. ACM,2011:675-684.

[3]Yang F,Liu Y, Yu X, et al. Automatic detection of rumoron Sina Weibo[C]//Proceedings of the ACM SIGKDDWorkShop on Mining Data Semantics. ACM,2012:13

[4]毛二松,陳剛,劉欣等,基于深層特征和集成分類器的微博謠言檢測研究[J].計算機應用研究,2016.33(11):3369-3373

[5]王志宏,過弋.微博謠言事件自動檢測研究[J].中文信息學報,2019.33(6):132-140

[6] Ma J,Gao W, Wong K, et a/ Detecting rumors frommicroblogs with recurrent neural networks[C]// InProceedings of the Twenty-Fifth International JointConference on Artificial Intelligence. New York: AAAIPress,2016:3818-3824

[7]李力釗,蔡國永,潘角,基于C-GRU的微博謠言事件檢測方法[J].山東大學學報:工學版,2019.49(2):102-106,115

[8]首歡容,鄧淑卿,徐健,基于情感分析的網絡謠言識別方法[J].數據分析與知識發現,2017.1(7):44-51

[9] Mohammad S,Jesus V. Automatic identification of lightstop words for Persian information retrieval systems.Journal of Information Science,40(4):476-487

[10] Kaur J,R. Saini J.Punjabi Stop Words:A Gurmukhi,Shahmukhi and Roman Scripted Chronicle. InProceedings of the ACM Symposium on Women inResearch 2016. ACM,2016:32-37

[11]喻國明,網絡謠言的文本結構與表達特征——基于騰訊大數據篩選鑒定的6000+謠言文本的分析[J],新聞與寫作,2018.2:53-59

[12]Hochreiter S, Schmidhuber J. Long Short-TermMemoW. Neural Comput,1997.46:1735-1780

[13] Cheng Fan, Chen Jiabin, Qiu Jianfen. et a/.A subregiondivision based multi-objective evolutionary algorithm forSVM training set selection[J].Neurocomputing,2020.

[14]Mary Francis L Sreenath N. TEDLESS-Text detectionusing least-square SVM from natural scene[J].Journal of King Saud University-Computer andInformation Sciences,2020.32(3).

收稿日期:2020-04-26

作者簡介:孫王斌(1998-),男,江西宜春人,本科生,主要研究方向:自然語言處理。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合