一種干擾系數自探測的網絡事件選取方法

2024-03-05 01:41馮艷爽魯錦濤

小型微型計算機系統 2024年3期

關鍵詞：排序輿情準確率

臧潔,任旭,馮艷爽,王妍,肖萍,魯錦濤

1(遼寧大學信息學院,沈陽 110036)

2(榮科科技股份有限公司,沈陽 110027)

3(中國刑事警察學院公安信息技術與情報學院,沈陽 110854)

0 引言

近年來,隨著互聯網的快速發展、電子產品的快速更新迭代,微博、微信、抖音等網絡社交和短視頻平臺的快速崛起,人與人之間的社交變得更為便捷.跨地域、跨年齡、跨文化水平的社交成為了現實,大幅降低了社交成本,改變了人們的生活方式.

民眾可以通過互聯網發表、傳播各種觀點和情緒,這些不同觀點和情緒的總和形成了網絡輿情.網絡輿情是由于各種事件的刺激而產生并通過互聯網傳播的人們對于該事件的認知、態度、情感和行為傾向[1],其影響力日益擴大.當前我國網民數量世界第一,互聯網相關治理政策的出臺難以應對互聯網的快速蔓延.互聯網上頻繁出現各類熱點事件,受到大量關注的同時,也出現了很多網民隱藏在網名背后表達自我觀點的狀況.伴隨著民眾發表的各種言論,熱點事件一再發酵,往往可以在短時間內造成較大的影響力,而且近年來很多事例表明,網絡輿情產生的影響存在向真實社會蔓延的趨勢.

對于網絡輿情領域的相關研究,大致從以下3個方面入手:1)對網絡突發事件輿情的演變勢態進行分析[1,2],主要關注網絡突發事件發生后,輿情演變規律以及及時發現潛在的風險,以便進行應對操作;2)輿情風險定量評估[3],主要研究網絡事件發生后對其影響力進行準確評估判斷,精準掌握事件影響程度;3)從輿情傳播觀點角度定性分析[4],針對網絡事件發生后民眾觀點傾向變化,探討如何應對事件擴散所帶來的一系列影響.以上研究,都可以給相關部門在應對輿情時,提供可參考和借鑒的理論依據.

經過研究發現,關于網絡輿情方面的研究大多針對單一事件自身的傳播趨勢[1-7],并未對同一時刻,不同事件共同傳播過程中所存在的競爭關系進行有針對性的研究.如果關注多事件,必須找到影響多事件傳播的關鍵影響因素,重新設計具有多事件容量的網絡事件傳播模型,從理論、建模、實驗等各方面均需結合多事件傳播的特征進行研究,具有一定的難度.

本文以多網絡事件共同傳播所產生的事件間干擾為出發點,以不同類型事件間所產生的干擾效果不同為根據,以mSIR-CA(Multiple SIR-Cellular Automata)模型為核心,提出了一種干擾系數自探測的網絡事件選取方法.隨后,利用粒子群算法與微博平臺真實事件數據集對方法進行參數尋優,經過實驗證明,本文提出的方法對干擾事件有效性分類和干擾強度判斷具有較好的準確性.

1 問題描述及相關工作

本文在對網絡事件擴散規律研究中發現,同一時刻互聯網中并不是僅有單一事件進行傳播,而是眾多事件同時進行擴散傳播,事件的數量龐大,整個網絡空間被這些事件占據.假設網絡空間中所有正在傳播的事件構成事件集合T,該集合中一部分事件在經歷輿情發生期、發展期、高潮期以及回落期之后逐漸淡出網民視野,被移出集合T,但立即有新發生的事件進入網絡空間,并開始傳播,即加入集合T.

網絡用戶在上線期間,會在瀏覽各類社交平臺過程中,接觸到正在處于傳播過程集合T中的部分事件,但由于在線時長和信息瀏覽量的限制,單一用戶接觸到的事件集合T1為集合T的子集.集合T1中所包含的多個事件對于用戶注意力存在競爭關系,用戶在此次在線過程中通過評論、轉發、搜索等行為表現對事件的關注,注意力落在一個或有限的幾個事件中,某一時刻用戶僅關注某一事件.各大平臺相關熱搜榜單也從側面反映出事件間所存在的競爭關系,登榜事件在集合T所包含的所有正處于傳播過程中事件的競爭中取得了一定優勢,熱搜榜單通過數據排名量化了競爭結果.

網絡事件在網絡空間的傳播和傳染病在人際間的傳播有很多共同點,網絡輿情仿真建模相關領域不少學者選擇借助傳染病模型(SIR模型)對網絡事件的傳播規律進行研究.部分學者將傳染病模型應用于社交網絡輿情研究[8-11],也有將傳染病模型應用于網絡謠言與辟謠信息傳播相關領域[12,13].其他,諸如Chen[5]提出了群體極化模型,借助SIRS模型并引入BA網絡對信息擴散過程中的輿論極化現象進行研究,并提出了相應措施;張雷等[14]通過KNN算法對網絡輿情進行定量分級,并結合SIR模型進行仿真模擬.

元胞自動機(Cellular Automata,CA)憑借其并行迭代運算的特點,在對網絡空間以及網絡用戶不同狀態的表現上具有明顯的優勢.Alves[15]等于2002年在自由選舉輿情分析中應用了元胞自動機理論;方薇[16,17]、黨小超[18]等也在元胞自動機網絡輿情應用中進行了諸多探索.近年來,元胞自動機在網絡輿情方面的應用更加細化,毛乾任等[19]關注于網絡輿情觀點聚合,將模糊推理理論與元胞自動機相結合,研究網絡輿情中觀點視角下的聚類效應,之后還對導控策略影響下的網絡輿情傳播進行了研究;姚翠友等[20]提出基于用戶屬性的微博輿情演化元胞自動機模型,得出相關部門可以通過增加網絡事件參與度等方式,更好地發揮輿情引導作用;滕婕等[3]將CA模型與SEIR傳染病模型相結合,應用于群體辟謠信息的擴散效果預測,并對謠言傳播過程存在的規律進行研究.

分析以上研究發現,當前應用于網絡輿情仿真領域的模型多關注單一時間推演,受事件容量限制,無法完成多事件同步推演.為了更快、更優地選取干擾事件,首先需要提出新的模型對多事件的發展進行推演.

2 mSIR-CA模型

本文結合多事件發展特征,將SIR模型和CA模型進行融合,提出了mSIR-CA(Multiple SIR-Cellular Automata)模型作為網絡事件選取方法的事件推演模型.

mSIR-CA模型將經典SIR傳染病模型與元胞自動機CA(Cellular Automata)進行融合,并將SIR模型的單事件分支結構進行改進,劃分出多事件分支結構,通過元胞個體興趣偏好模擬真實網絡空間的用戶喜好結構.此模型能夠完成不同類型事件同時競爭擴散的推演工作,其模型矩陣靜態構建如圖1所示.

圖1 mSIR-CA模型矩陣靜態示意圖Fig.1 mSIR-CA static diagram of model matrix

圖1中,元胞矩陣A為二維有限元矩陣,利用橫縱坐標i,j可以確定矩陣中每一個元胞個體的位置.元胞鄰域選擇類擴展Moore型鄰域,用來對初始時刻矩陣中在線用戶比例Dt0進行控制.根據類擴展Moore型鄰域構建的經典元胞狀態轉換表達式如式(1)所示:

(1)

進一步對基于無分支順序結構的經典SIR狀態轉換關系進行改進,得到具有分支結構、支持多事件容量的多重SIR狀態轉換規則,其轉換規則如圖2所示.

圖2 多重SIR狀態轉換規則Fig.2 Multiple SIR state transition rules

(2)

3 網絡事件選取方法設計

3.1 網絡事件選取方法流程

不同的事件會產生不同的干擾效果,如何通過以上模型構建網絡事件選取方法,使其能夠對不同事件干擾影響下的擴散程度進行準確判斷及應對,是該過程的重點內容.

網絡事件選取方法的運行過程如圖3所示.首先,收集部分當前網絡空間中正在傳播的事件,構建動態事件池,選取某一事件作為目標事件確定事件類型屬性以及初始擴散指標;之后,從事件池中選取一組同處于擴散過程中的多個不同備選干擾事件,將其傳入干擾事件選取方法中,分別與目標事件進行共同傳播推演,并將結果與目標事件單一傳播結果進行比較;通過事件選取方法對其進行有效性分類,分別給出能產生有效影響的建議事件以及無法產生有效影響的無效事件,并且通過推演過程各項指標對有效事件進行排序,最后給出首選、次選建議.

圖3 網絡事件選取方法運行過程Fig.3 Operation process of interference event selection method

網絡事件選取方法本質上是對多個事件進行分類排序的過程,能夠根據不同目標事件從相應的不同事件組中進行推演,將結果進行分類排序,最終給出事件選取結果,具體方法流程圖如圖4所示.

圖4 網絡事件選取方法流程Fig.4 Network interference event selection method and process

首先構建符合目標平臺用戶偏好比例的網絡空間,依此建立支撐方法運行的靜態基礎矩陣;之后,根據具體干擾事件選取方法應用平臺、借助先驗知識事件集對mSIR-CA模型動態參數進行有針對性的參數尋優,以保證網絡事件選取方法的準確性;最后,根據上文所述事件推演過程,給出最終的有效性判斷和效果排序建議.

當平臺發生變化、或者平臺自身用戶屬性特征發生變化、或者模型動態參數無法滿足準確性需要等情況,可以再次進行動態參數尋優,使其歸于合理范圍,從而提升方法性能.

3.2 動態參數尋優過程

在網絡事件選取方法中,對動態參數進行尋優是重中之重,本文采用粒子群算法進行模型參數尋優,其流程如圖5所示.

圖5 粒子群算法尋優流程Fig.5 Optimization process of particle swarm optimization

根據事件選取方法中待尋優參數個數、各參數尋優范圍以及網絡事件數據集規模設定粒子個數n,每個粒子攜帶隨機b1組事件信息進行尋優,其中事件組中包含單個目標事件以及與其相關聯的多個備選干擾事件.

對圖2中除P01、P10外的其余3組,共6個人為設定轉換概率閾值參數進行自動化尋優,每組中對應兩個閾值之和為1,因此每個粒子僅需對3個閾值參數進行尋優,便可還原為6個閾值參數對應值.其中,每個粒子尋優維度d∈(1,2,3,4),迭代次數上限kmax=25.對于全局最優解,從訓練集中整體隨機抽取b2組事件信息進行推演評價.個體最優解和全局最優解,通過分類準確度以及排序準確度進行評價,不設最優閾值,25輪尋優迭代之后,輸出參數尋優結果.

4 實驗結果與分析

4.1 實驗數據及參數設置

本文采用的數據集為2020年全年微博熱搜數據,通過第三方自行爬取獲得.數據集圍繞熱搜話題條目建立,原始數據包含熱搜關鍵詞、URL鏈接、當日話題被爬取次數、最高熱度值以及在榜最高位次、上榜時間等,共計104252條數據.

對原始數據集進行分析,發現其包含事件數量過多,可用于網絡干擾事件選取方法訓練及驗證的有效事件密度低,符合真實干擾事件關聯關系的事件數量有限,因此,本文對數據集進行了數據處理.首先,排除重復事件,根據事件選取方法,將事件進行篩選分組和類型標注,對于存在雙重屬性的部分事件,分別予以標注;之后,根據事件爆發時間,將爆發時間點接近的每5個熱搜事件歸為一組,每個事件組中選取一個事件為目標事件,另外4個事件作為干擾事件;然后,將干擾事件數據與目標事件數據進行綜合比較,對每個分組內的干擾事件進行分類標注;最后將有效干擾事件按照擴散范圍大小進行排序標注.按照此方法,共計篩選出240組1200條真實事件數據,供參數尋優及方法驗證,其中160組800條事件作為真實事件訓練集,80組400條事件作為真實事件驗證集.

實驗使用的有效元胞矩陣大小設置為100×100,初始元胞在線狀態密度為Dto=0.70,人為設定模型轉換參數設置依次為:P01=0.001;P10=0.0005;P12=0.67;P13=0.33;P2I=0.8;P2R=0.2;P3I=0.7;P3R=0.3.并以此為對照進行參數尋優效果評價.

網絡干擾事件選取方法本質上是分類排序算法,因此在參數尋優后,事件選取方法結果的準確性需要通過計算分類精確率P、分類召回率R、分類準確率ACC以及排序準確率acc進行綜合評價,各指標計算如公式(3)～公式(5)所示:

(3)

(4)

(5)

其中TP、TN、FP、FN分別表示正類樣本被準確判定個數、負類樣本被準確判定個數、正類樣本被錯誤判定個數、負類樣本被錯誤判定個數.其中對于某一備選干擾事件,經過網絡干擾事件選取方法推演,在有效干擾事件與無效干擾事件的分類結果中符合真實事件數據集的標注結果,則此事件被認定為是正確分類判定,反之則為錯誤分類判定;在事件擴散范圍排序結果中,排序位次符合真實事件數據集的標注結果,則此事件被認定為正確排序判定,反之則為錯誤排序判定.

實驗運行環境為Windows10 20H2版本644位操作系統,計算機采用2.30GHz,Intel(R)Core(TM)i7-10875H處理器,16GB內存;實驗使用Python3.6實現.

4.2 事件選取方法尋優過程準確性評價

在尋優過程中,實驗記錄每次迭代全局最優解參數下的選取方法在真實事件訓練集的評價結果,因為粒子群算法重復實驗結果并不唯一,并且網絡干擾事件選取方法存在隨機變量,因此實驗結果圖為單次實驗結果,如圖6所示,橫軸為粒子群算法尋優輪次,縱軸為各評價指標結果數值.

圖6 參數尋優過程中方法結果準確性變化Fig.6 Accuracy of method results changes in the process of parameter optimization

干擾事件選取方法多次實驗結果相近,但存在誤差,多組參數值均可滿足相同的準確性指標,因此,可認為參數值應處于一定范圍之內,范圍內的參數值差異不會對事件選取準確率產生顯著影響.

從圖中可以看出,經過改進的粒子群算法尋優過程后,事件選取方法整體準確性有了明顯的提高,其中對于真實事件訓練集中,有效干擾事件與無效干擾事件的分類準確率達到85%以上,對于事件干擾強度的排序準確率達到了75%以上.粒子群算法尋優過程中,初始階段的隨機參數設定值并不理想,準確率也較差,但是,隨著尋優過程的進行,參數值逐漸向合理區間靠攏,并在第9輪尋優過后趨于平穩,所以可將尋優結果參數認定為處于網絡干擾事件選取方法合理參數范圍之內.

4.3 基于驗證集的方法準確性評價

使用真實事件數據驗證集,對經過參數尋優后的網絡干擾事件選取方法進行結果驗證,具體驗證集事件統計信息如表1所示.該數據集中包含80組事件,共400個事件,其中目標事件80個,有效干擾事件153個,無效干擾事件167個.

表1 真實網絡事件驗證集信息Table 1 Real network event verification set information

將網絡干擾事件選取方法應用于真實事件驗證集中,對事件集中的各事件組進行干擾事件選取,并將得到的事件選取結果與真實事件驗證集中人工標記結果進行比較,統計整理得到事件選取方法結果中各項分類數據,具體運行結果如表2所示.

表2 真實網絡事件驗證集信息Table 2 Real network event verification set information

經由上述結果可以求出,網絡干擾事件選取方法結果與真實事件驗證集進行對比后的TP、TN、FP、FN數值,以及真實事件驗證集的分類精確率P、分類召回率R、分類準確率ACC和排序準確率acc,結果如表3所示.

表3 方法驗證評估結果Table 3 Method validation evaluation results

通過表3可以看出,干擾事件選取方法應用于真實事件驗證集中具有較好的準確率,但相比尋優過程中使用的訓練集,尋優參數設定下的事件選取方法在事件驗證集下的準確率略有降低,造成該結果的原因可能有:

1)方法自身存在隨機變量,使得重復實驗條件下事件選取結果存在小幅誤差;

2)真實事件訓練集與驗證集所包含事件數量有限,訓練集與驗證集分類排序比例自身存在差異;

3)粒子群算法尋優機制導致,尋優結果為大量重復選取后的最優結果,而基于驗證集的選取結果僅為同參數下單次實驗所得,不可避免會出現在驗證時準確率下降的問題.

將尋優過后的參數設定與人工合理參數值設定的網絡干擾事件選取方法進一步進行準確性比較,此實驗同樣采用真實事件驗證集對其準確性驗證,分別將人工參數與尋優參數輸入網絡干擾事件選取方法運行真實事件驗證集,得到結果如圖7所示.

圖7 人工設定參數與尋優參數性能對比Fig.7 Performance comparison between manually set parameters and optimization parameters

網絡干擾事件選取方法使用尋優后的參數運行結果相較于人工設定參數,在真實事件驗證集上的準確率有一定幅度的提高,其中分類準確率提高約3.5%,排序準確率提高約2.5%.兩者相較于隨機參數設定下的事件選取方法均具有更好的準確率,說明參數尋優對于網絡干擾事件選取方法來說,是必要且有實際效果提升的.

4.4 不同規模模型方法性能對比

借助mSIR-CA模型,網絡干擾事件選取方法對不同事件傳播干擾進行推演,模型中其他可變參數的不同設定,也會影響事件選取方法最終的性能指標.為了充分說明所提方法的有效性,又從調整模型矩陣大小、迭代次數兩方面進行了實驗.通過調整對應數值大小,記錄方法單次事件選取實際運行時間、真實驗證集上的整體分類準確率和排序準確率,綜合比較不同運算量下方法的性能差異.

不同模型參數設定下,單次運行時間變化如圖8(a)所示,每組數據均重復進行5次之后取平均值,分別記錄了在50×50、100×100、150×150、200×200矩陣大小下,改變模型迭代次數為250、500、750、1000次情況下的網絡干擾事件選取單次運行耗時.從圖中可知,在相同模型矩陣大小設定下,事件選取單次運行時間會隨著迭代次數增加而線性增加;相同模型迭代次數設定下,方法單次運行時間隨著矩陣增大呈平方關系增加.造成該現象的具體原因為:模型迭代推演過程中涉及到大量簡單運算,整體網絡干擾事件選取方法的絕大部分運算時間消耗在與模型推演相關的簡單運算中,改變迭代次數或者矩陣大小,會直接影響到網絡事件選取方法的時間消耗.

圖8 不同規模模型下網絡干擾事件選取方法單次耗時與準確率對比Fig.8 Comparison of single time consumption and accuracy of network interference event selection methods under different scale models

不同模型參數設定下,對事件驗證集運行后的準確率又進行了評估.通過調整模型參數值,計算分類準確率ACC以及排序準確率acc,并與4.3節中經過尋優實驗結果所采用的100×100大小矩陣以及500次迭代數值設定下的干擾事件選取結果進行對比,結果如圖8(b)所示.

由結果可知,通過改變矩陣大小與推演迭代次數,能夠對網絡干擾事件選取方法的性能產生較大影響.矩陣大小和迭代次數設定小于合理范圍時,干擾事件的分類準確率以及排序準確率大幅降低;矩陣大小和迭代次數設定偏大時,能夠從整體上提高方法的分類準確率以及排序準確率指標,但提升幅度較小.

同時,考慮本節前述實驗,矩陣大小以及迭代次數的增加會大幅延長單次事件選取的運行時間,在網絡干擾事件選取方法運行時間與精確率上需要進行取舍.過于追求準確率則會導致運行時間增加,有違網絡輿情領域相關研究所尊崇的及時性原則;為了追求時間效率簡化模型規模,可能會造成事件選取方法內部模型對于真實網絡空間的模擬大幅度失真,使得方法準確率出現斷崖式下降.該實驗結果說明了本文所述方法參數設定能夠兼顧時間消耗與準確性,具有較好的性能表現.

5 結束語

本文以不同網絡事件共同傳播所產生事件間的干擾為依據,以mSIR-CA模型為核心,設計了一種干擾系數自探測的網絡事件選取方法.該方法能夠針對特定事件和事件類型差異,從多個備選事件中選取有效干擾事件和無效干擾事件,并對其進行排序.以獲取的微博平臺真實事件為數據集,經過參數尋優后,方法在干擾事件有效性分類和干擾強度判斷方面取得了較好的準確性結果.

未來的工作中,將對事件選取方法所容納的事件影響因素進行擴充,或與其他現有模型的功能進行融合,以使方法理論更加完善.