?

面向武漢市網絡問政的文本挖掘研究

2021-06-04 03:32王燦梁霄
科技視界 2021年12期
關鍵詞:問政分詞分類器

王燦 梁霄

(湖北文理學院數學與統計學院,湖北 襄陽441053)

1 問題分析與挖掘目標

近年來,隨著互聯網技術的發展和盛行,大數據時代已悄然而至,群眾參與政府工作的途徑也越來越多,于是群眾留言信息成為網絡問政的產物?;ヂ摼W的普及加快了網絡問政的出現,它是信息技術快速發展和群眾積極性不斷提高的產物,它不但解決了群眾問政的時空障礙,而且可以讓群眾可以隨時了解政治動態并直接與政府溝通。

與此同時,網絡問政也成了學者的聚焦點。李傳君、李懷陽學者[1]通過分析政府回應網絡問政存在的問題,提出了構建良性的政府回應機制的相關建議;孟天廣、趙娟[2]討論了關于了網絡問政回應制度在我國的擴散發展態勢、制度管理體系設計、應用以及其運行管理模式,考察了政府在不同的管理制度模式下的網絡問政回應制度管理績效,為國家進一步建設現代化的具有回應性的政府提供了理論和實踐參考。沙勇忠[3]等學者探究政府與群眾互動行為對網絡問政制度的直接影響,使用文本挖掘技術和機器學習等方法,利用數據探索作為推論——分析統計檢驗的“數據驅動”研究理論模式,分析和識別并描繪了網絡問政問題中社會群眾與其他政府以及社會組織的其他網絡問政主體互動行為及有關話題的結構,進一步討論網絡問政制度效果的影響因素。

本文通過對武漢市政府網站上的群眾留言和回復建立分類模型,有助于提高效率,盡快將留言分派至相應的職能部門。通過對群眾留言信息的分析,可以及時發現群眾關心的熱點問題,有助于有關部門進行針對性地處理,提升政府的服務效率,對政府“智慧政務”的建立具有十分重要的意義。

我們從武漢市政府網站得公開信息中獲取數據,主要包括群眾留言和政府部門的回復,然后對獲取的數據進行分析,實施數據清洗、分詞和去停用詞等文本預處理操作,并根據分詞后的結果畫出高頻詞的詞云圖。本文主要研究的問題有對群眾留言信息進行分類、挖掘熱點問題以及對政府有關部門的回復進行評價。

2 數據預處理

本文使用Python中duplicated()方法檢查留言詳情中的重復對象,在重復的留言中,保留一個即可。中文分詞的目的就是將一個連貫的句子按照一定的分詞標準將其分成一個個具有獨立含義的詞[4]。分詞的好壞直接影響后期模型的準確率,它是文本挖掘的基礎。只有經過分詞處理,才能把原始的文本數據進行向量化處理。本文利用Python語言環境中的jieba工具包對文本進行分詞處理。在本文中,首先擴展了通用的停用詞表,然后又自定義了一些新的停用詞,將分詞處理過后所得到的詞與停用詞表進行匹配,若匹配成功,則刪除該詞,反之保留。

3 問題求解

數據中共包含7類一級標簽的9851條數據,在python語言環境中,對這些數據重新按標簽排列,標簽分別為勞動和社會保障、城鄉建設、教育文體、衛生計生、交通運輸、商貿旅游、環境保護。使用duplicated()方法檢查留言詳情中的重復對象,結果顯示有909條重復對象,刪除重復對象(保留第一個)后,還剩8942條數據。去重后各類標簽的文本數量如圖1所示。

圖1 去重后各類別情況

本文采取了通用停用詞表和自定義停用詞表對留言詳情進行分類。通過詞云圖來展示對留言詳情進行這一系列操作后的效果,讓讀者一眼便能看出主要內容。以勞動和社會保障類群眾留言詞云圖為例,如圖2所示。

圖2 勞動和社會保障類群眾留言詞云圖

TF-IDF是一種常見的加權方法,在計量單詞個數的基礎上,降低常見詞的比重,提高稀缺詞的比重。本文先將message(留言詳情)轉換成詞頻向量,再將詞頻向量轉換成TF-IDF向量,最后開始訓練分類器。本文使用了4種不同的機器學習模型,分別為:多項式樸素貝葉斯、線性支持向量機、邏輯回歸和隨機森林。這四種模型的準確率可視化圖如圖3所示。從箱體圖中可以看出隨機森林分類模型的準確率最低,主要是因為隨機森林屬于集成分類器——由許多子分類器組成,而集成分類器不適合用來處理高維數據,比如文本數據,因為文本數據有許多不同的特征值,使得集成分類器難以應付,另外三個分類器的平均準確率都在50%以上。其中線性支持向量機的準確率最高,故我們選擇支持向量機模型作為主要的挖掘方法。

圖3 4種機器學習模型的準確率

其中,準確率最高的是線性支持向量機模型,我們查看其混淆矩陣,并將其預測標簽和實際標簽之間的差異表示出來?;煜仃嚾鐖D4所示?;煜仃嚨闹鲗蔷€顏色不同,其顯示的是預測正確的數量,而除了主對角線外,其他的都是預測錯誤的數量。從圖4的混淆矩陣中可以看出“教育文體”這一列除了對角線數字和為10,說明有10例預測錯誤,準確率較高;而“交通運輸”這一列除了對角線數字和為240,表明有240例預測錯誤,準確率較低。

圖4 線性支持向量機模型混淆矩陣

多分類模型一般使用ROC、F-Score等指標來評價模型,而不使用準確率評價,因為準確率反應的不是每一個分類的準確性,當訓練數據每一類的個數相差太大時,準確率就不可以反映出模型的真實預測精度。

從圖5中F1分數來看,“勞動和社會保障”和“商貿旅游”類的F1分數最高,達到80%,“交通運輸”和“環境保護”F1的分數較低,僅34%,主要原因可能是“交通運輸”和“環境保護”這兩類的數據較少,使得支持向量機模型學習的不夠充分,然后導致失誤較多。從該圖中還能看出線性支持向量機模型的精度為0.70,召回率為0.70,F1分數值為0.69,整體效果較好。

圖5 各個類的F1分數

主題模型(LDA)算法是數據挖掘與文本處理中一個非常實用的方法,通過概率分布的形式給出每篇文檔的主題,從文檔中提取實用的主題信息。對文字隱藏的主題進行建模,改正了以往信息檢索中文檔相似度計算方法的缺點。在進行LDA建模時,需要先確定主題數量K的值。主題數量K的值直接影響到最終結果的好壞。對于一個未知的分布,Perplexity(困惑度)越低,則說明模型效果越好。從圖6中可以看出,當主題數為12時,困惑度達到最低,故我們可以確定最優主題數為12。

圖6 困惑度隨主題數量的變化圖

根據確定的最優主題數訓練LDA模型,將群眾反映的多數一致的留言進行分類,然后建立熱度評價指標。本文采用了熱度排行Reddit算法。

根據預處理后的數據,我們建立群眾留言詳情的語料庫詞典,將答復意見通過doc2bow轉化為詞袋模型,對該模型進行進一步的處理,獲得新的語料庫,將其通過tfidfmodel處理,得到tfidf。通過計算token2id得到特征數,然后計算稀疏矩陣的相似度,建立索引,最后得到相似度結果。從結果中我們可以看出,政府答復意見和對應留言情況的相似度都大于0(主對角線元素全都大于0),說明政府的答復意見和群眾留言詳情之間有相關性。從結果中,我們還能看出相似度系數值都不高,究其原因,在實際生活中,答復意見都是根據留言內容而定的,一般來說,這兩者之間雖說的是同一個問題,但一個是問,一個是答,兩者之間的聯系僅僅是主題相同而已,其他內容都是不盡相同的,故就造成了相似度值不高這種現象。

4 總結與建議

本文的主要目的是利用文本挖掘和機器學習技術建立對武漢市網絡問政中群眾留言的多分類模型,并對模型進行評價。對于群眾留言分類,通過對4種機器學習模型的對比分析,本文選擇了線性支持向量機分類模型,其F1值達到了0.70,分類效果較好。對于熱點問題分析,通過進行LDA建模,首先確定了最優主題數為12,然后根據確定的主題數對留言詳情進行劃分,通過Reddit算法建立熱度評價指標,結果顯示噪聲擾民和強制學生去定點企業實習是熱度指數最高的兩個問題。建議相關部門多花費一些精力去解決這些熱點問題。對于留言回復的評價,通過計算留言詳情和政府答復意見的相似度,發現相似度值都大于0,從而說明了政府的答復意見和群眾的留言都是相關的。通過查看詞云圖和高頻詞,可以明顯看出,答復意見中的前幾個高頻詞中有“回復”“收悉”“調查”等,說明政府對留言詳情中所涉及的問題基本都進行了相應的調查并給予了答復,這些高頻詞表明了政府對所搜集到的留言都進行了答復,并進行了相應的調查去核實,這些高頻詞反映出政府答復意見的完整性和可解釋性都較好。

猜你喜歡
問政分詞分類器
分詞在英語教學中的妙用
做好人大代表問政需要三個條件
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
BP-GA光照分類器在車道線識別中的應用
網絡問政節目應為公眾所期盼
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
論英語不定式和-ing分詞的語義傳承
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合