?

網絡輿情監測及指標建設

2017-01-21 19:30劉曉亮
卷宗 2016年10期
關鍵詞:網絡輿情指標體系

摘 要:介紹網絡輿情監測的來源范圍,提出網絡監測指標的構建原則與監測指標體系,分析了其中的問題與實現方法,并探討了輿情工作中的一些具體做法,以期推動網絡輿情監測工作的研究與實踐。

關鍵詞:網絡輿情;輿情監測;指標體系

有效加強網絡輿情監測分析,才能實時掌握網絡輿情動態。網絡輿情監測分析工作重要環節包括采集、整理和分析輿情信息,需要構建一定的指標體系,評價揭示網絡輿情信息的特征與變化規律。指標是在評價某些研究對象所確定的依據和標準,包括指標名稱和數值。網絡輿情指標體系是由相互聯系、相互補充的指標組成的統一整體,用于反映網絡輿情的綜合狀況,揭示其中的各個方面。本文首先介紹輿情監測的來源范圍,接著闡述網絡輿情監測指標的構建原則與內容,提出從主題匯聚、熱度、內容傾向性、預警等方面構建網絡輿情監測指標體系。

1 網絡輿情監測來源

網絡信息的來源不斷趨于多樣化,從傳統的新聞網站、博客論壇,發展到微博、微信等社會化網絡應用[2]。準確把握輿情態勢,防止監測分析片面化,需要增加信息來源范圍。然而,輿情監測難以捕獲所有網絡信息,網絡輿情的來源選擇就顯得非常重要。在網絡上,表現為圍繞新聞、事件、問題與個案等產生的網絡信息。網絡輿情的信息來源選擇主要包括:

(1)主流媒體新聞網站。網絡新聞是民眾獲取信息的重要來源,特別是主流媒體發布的新聞。重大性與突發性輿情都會及時出現在主流媒體,聚集大量網民跟帖評論,是輿情的重要來源與傳播源頭。(2)論壇。在網絡社區中,網民會發出具有個人觀點看法的各類信息。在輿情監測工作中,接觸到的近半信息都來自于各種論壇。(3)博客。博客是個人分享、交流思想知識的空間,會對熱點和新聞事件、特定話題和現象發表個人評論,是輿情信息的重要載體之一。博客數量眾多,主要采集專家、知名人物的博客及網民回復。(4)視頻網站。視頻網站是社會生活和事件的記錄與發布者,并且大多視頻網站提供給留言功能,比如優酷、愛奇藝等。視頻信息鮮活,網民會分享觀感看法與態度,視頻標題與描述信息為輿情數據的整理分析提供了可能和便利。以往工作容易忽視這類輿情載體,而實際中一些輿情事件會較早通過視頻網站發布傳播。輿情監測工作需要重視視頻信息的價值,及時采集抽取其中的有價值信息。(5)社交媒體。在社交媒體應用上,國內主要是微博和微信。微博相對數據開放,數據量巨大,很難在較短的輪詢時間窗口完成采集遍歷。所以,與傳統博客類似,選擇其中的部分微博。微信主要限制在個人通訊范疇,主要將微信公眾號作為輿情信息來源。另外,一些網站由于贏利、點擊量等原因,有意甚至惡意炒作負面信息。所以,要區分標識這類信息來源。同時,在采集器設置上進行一定限制和過濾,避免采集處理過多無效無關數據。

2 監測指標構建原則

網絡輿情指標體系的構建原則應包括:(1)主題性。具體的輿情工作具有明確的服務對象,其輿情內容具有鮮明的主題、行業或領域性質。輿情監測的目的是及時識別問題與風險。因此,輿情指標應對各類信息做出靈敏響應。(2)可靠性。指標的選取要有相對可靠性與穩定性,確保指標的使用在時間上有延續性[1]。(3)系統性。網絡輿情監測分析工作是一項十分復雜的過程,涉及內容眾多。指標體系一定要盡量全面完整形成整體,覆蓋輿情工作流程,從多層次多角度揭示網絡輿情特征。(4)實用性。輿情監測指標必須反映輿情演化趨勢與客觀規律,符合網絡輿情工作需求與相關流程,便于分析和引導輿情。同時,指標的計算分析結果要盡量便于理解與解釋說明,為輿情簡報等工作提供必備的數據支持。

3 監測指標體系

(1)主題聚合

按照內容相關度準確關聯聚合輿情信息,是準確把握輿情整體走向、媒體與網民言論態度的前提。主題聚合即指依據信息內容實現信息的分類與聚類,是輿情話題發現與話題追蹤的基本支撐。從技術實現角度,主題聚合涉及信息內容分析,大多都是基于詞語匹配的聚分類方法實現輿情話題發現與追蹤等主題聚合功能。然而,文本中存在大量詞形不同,但意義關聯的近義詞、同義詞與相關詞,內容相同或相近的新聞、帖文會出現在不同的頁面與帖文。輿情信息中包括大量短文本,特別是網民回帖評論,存在明顯的語義特征稀疏問題。分類體系只限于關鍵詞本身,不具備主題詞的語義描述,容易影響聚分類的準確率與召回率,主題聚合指數的性能會受到明顯限制。一個解決方法是構建語義知識,并擴展語義計算模型提高分析的準確程度;利用當前的最新技術,比如深度學習方法,通過構建具有多隱層的學習模型,以海量輿情數據作為訓練集,學習擴展語義特征,提升內容分析的準確程度。

(2)熱度

輿情熱度衡量輿情被關注的程度與傳播范圍。輿情熱度主要包括輿情關注度、傳播覆蓋度、輿情權威度等二級指標。一些研究提出地域關注度指標[3],但網民IP地址對于第三方采集系統是難以大范圍直接獲取的。其中,輿情關注度采用主題內容下輿情信息的關注數量衡量,具體是篇目、瀏覽、回復數量的綜合加權值,一般以線性累加和公式計算。該指標主要從網民角度,衡量輿情內容的被關注程度和感興趣情況。覆蓋度是指主題信息在采集來源站點中出現的比例。輿情信息來源站點是經過篩選的,代表輿情在整個監測范圍內的傳播程度。由于信息來源規模與特點不同,所以需要對來源類型預設參數再進行比例計算。權威度指輿情信息的來源權威度,比如人民網的權威度較高而小型商業新聞網站的權威度低,知名公眾人物的博客權威度較高。權威度通過預設參數區分主流媒體、論壇、博客、微信公眾號的來源指標。最后,將以上二級指標綜合加權,進行標準化處理得到主題熱度。

(3)內容傾向

內容傾向是信息內容中包含的觀點態度,內容傾向指標用于統計輿情信息中的各類情感傾向類型數量。傾向類型主要分為兩類:正面(褒、支持)、負面(貶、反對)。文本中的句子不僅包括情感詞,而且包含一些具有較強情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區分輿情的傾向性,需要構建情感詞庫作為智力支撐,才能提高情感判斷的范圍與準確性。比如鄙視、侵犯屬于負面動詞,而擁護、贊揚屬于正面動詞,安全、漂亮屬于正面形容詞?!氨梢曔@種言論”,“這種裝置不安全”,可以依據其中的動詞形容詞判斷情感傾向。

傳統手工構建的情感詞典覆蓋面有限,難以滿足實際運用??紤]到技術實施的快速性、易用性以及語義問題。借助已有情感詞典構建基本情感詞庫,運用Word2Vector工具將語料庫(比如已采集輿情信息、維基百科知識)轉換為詞向量,計算其他詞語與已知情感詞的語義距離,構建情感詞特征空間[4]。通過擴展情感詞庫,判斷廣泛的情感傾向。輿情信息中的回帖或評論大多由較短句構成,其中句子s中的情感詞表示為,s的情感類型。其中,表示詞wi的傾向類型。如果wi前面否定詞個數是奇數,則反置wi的極性傾向。將傾向性判斷問題轉化為文本分類問題,這樣可以有效判斷各種長短文本的情感傾向,得到主題信息的情感態度頻率分布與內容傾向趨勢。

(4)預警

網絡輿情表現為海量的網絡信息,輿情變化程度對應相應數據的特征與趨勢。所以,監測分析數據變化可以描述輿情的影響趨勢,對網絡輿情進行危機預警。當前,網絡輿情事件處理存在應急準備不足,報送時間不及時,突發事件響應速度慢等不足。一個重要原因是網絡輿情預警能力相對較弱。輿情監測需要增強輿情信息的分析和預測,將工作重點從單純的收集有效數據,向深入研判與預測輿情的趨勢方向拓展。常用的思路與方法是:預設時間窗口,獲取主題信息數量,內容敏感程度,負面傾向性評價數量比例,傳播范圍等基本特征與指標。計算歷史窗口下的信息增長率、增長梯度等變化程度,評估輿情信息的數據變化趨勢并制定預警級別。進而,以數據挖掘為核心技術,應用不同的數據模型方法,比如傳統的多元回歸、貝葉斯網絡、決策樹、支撐向量機等預測輿情發展趨勢。如果大于某閾值或符合預定模式,認為需要預警,即從海量網絡數據中預判出潛在的危機隱患。

參考文獻

[1] 王鐵套,王國營,陳越. 基于模糊綜合評價法的網絡輿情預警模型[J]. 情報雜志,2012, 31(6):47-51.

[2] IRI網絡口碑研究咨詢機構介紹及研究方法[EB/OL]. http://www.baike.com/wiki/網絡輿情指數體系.

[3] 李雯靜,許鑫,陳正權. 網絡輿情指標體系設計與分析[J]. 情報科學,2009 (7):986-991.

[4] 黃仁,張衛. 基于word2vec的互聯網商品評論情感傾向研究[J]. 計算機科學,2016(6):387-389.

作者簡介

劉曉亮(1979-),男,陜西西安人,講師,博士,南京政治學院信息管理系政治工作信息化教研室,研究方向:數據挖掘、輿情分析。

猜你喜歡
網絡輿情指標體系
淺談公路統計指標體系的構建
層次分析法在生態系統健康評價指標體系中的應用
供給側改革指標體系初探
數據挖掘技術在網絡輿情管理中的研究
淺析網絡輿情治理
基于社會穩定視角的網絡輿情預警機制構建的思考
城鎮排水系統量化指標體系研究
測土配方施肥指標體系建立中‘3414
土地評價指標體系研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合