?

微博熱點話題檢測系統的設計與實現

2013-09-17 10:26趙前東
電視技術 2013年3期
關鍵詞:熱點話題熱點網頁

趙前東,葉 猛

(1.武漢郵電科學研究院通信與信息系統,湖北武漢 430074;2.武漢虹旭信息技術有限責任公司,湖北武漢 430074)

微博熱點話題檢測系統的設計與實現

趙前東1,葉 猛2

(1.武漢郵電科學研究院通信與信息系統,湖北武漢 430074;2.武漢虹旭信息技術有限責任公司,湖北武漢 430074)

描述了一個微博熱點檢測系統。管理者通過它可以快速了解正在發生的或是已發生的微博熱點事件。系統采用調用微博API接口與改進爬蟲程序相結合的方式獲取網頁數據,由于網絡數據量巨大,為了提高效率,還采用了網頁清理技術。重點介紹了話題活性模型的方法,系統可以根據時間坐標快速尋找熱點話題,提高了熱點話題發現的效率,大大降低了熱點話題發現的時間復雜度。

微博;API;網頁清理;話題活性模型;熱點話題

微博作為新時代基于Web 2.0的互聯網應用,在短短幾年中得到了迅猛的發展。微博是一個基于用戶關系的信息分享與傳播的平臺,微博用戶可以通過手機、PC等平臺在個人微博上發布140個字以內的文本信息等內容,對大眾展現個人最新狀態,把最新的事物景色等即時分享,是時下流行的互聯網應用之一。

微博中每天都有成千上萬的話題,微博用戶可以選擇自己感興趣的話題瀏覽,閱讀話題相關的內容以及評論。如果想更深入更全面地了解一個話題,就需要不斷地點擊瀏覽相關的內容來了解事件發展的過程。微博用戶如果想要了解最新最熱的話題也需要通過不斷刷新來瀏覽大量話題及其評論熱度和轉發數量,這樣不僅花費了大量的精力,而且了解到的信息還可能不完整,得不到理想的結果。怎樣實現從數量繁多的微博話題中自動檢測出熱點話題[1],方便管理者快速了解時下熱點話題成為一個研究熱點。而且在某些特殊部門的業務應用中,情報信息的挖掘和分析對其工作的開展有著極其重大的支撐作用。如果用人工處理的方式,會消耗大量時間及人力物力,不僅可能得不到精確的結果,容易錯失情報間的關聯,而且人工處理信息的速度非常有限。因此,本文設計一個微博熱點話題檢測系統,來幫助相關人員主動檢測新熱點事件以及跟蹤以往焦點事件,提高工作的效率。

1 系統總體設計

1.1 系統的總體結構

系統的總體構架設計相當于一個大樓的框架結構設計,其重要性不言而喻。系統總體結構的優劣決定了系統的穩定性、系統功能的實現質量和執行效率,所以構建一個好的結構有著重要的意義。系統各個模塊間的關系如圖1所示。

圖1 微博熱點分析系統的模塊關系

1)系統管理模塊

微博分析系統設計的訪問機制是基于角色的,系統針對不同權限的用戶,對用戶指派的虛擬角色不同,實現用戶、訪問權限、數據的分離。它主要由用戶管理模塊、角色權限管理模塊組成。

2)微博信息采集模塊

微博信息采集模塊的主要功能是獲取網絡數據并將數據分類存儲在數據庫服務器中,以便熱點信息發現模塊,對其數據進行分析運算,從而達到發現和追蹤熱點話題的目的?,F階段能夠實現新浪微博及評論等信息的獲取。

3)熱點信息發現模塊

熱點信息發現模塊主要的功能是發現新的熱點話題和追蹤以往的焦點話題。熱點分析模塊根據采集到的數據和用戶設定的閾值,根據話題活性算法計算,篩選出熱點話題。熱點監測模塊能對系統新添加的話題按照相關算法進行計算,在各個時間段內進行連續追蹤,來達到對熱點話題的跟蹤檢測。

1.2 系統的業務流程

在充分理解用戶需求的基礎上,根據用戶的實際需求,仔細推導邏輯程序,按照“數據采集—數據分析—圖形化顯示結果”的信息處理流程來設計微博熱點話題檢測系統。圖2簡要描述了微博熱點話題檢測系統的業務流程。

圖2 系統業務流程圖

1)數據收集

通過采用調用微博API接口與改進爬蟲程序相結合的方式獲取網絡信息,將提取的信息按數據庫中的字段分類存儲在數據庫服務器中。

2)數據分析處理

用戶登錄系統,啟動系統執行熱點發現程序。服務器就會從數據服務器中調用分類存儲數據,根據話題活性模型,進行相關運算,完成熱點話題分析、熱點話題追蹤等功能,并將結果返回且以直觀的圖表方式顯示出來。

3)界面結果顯示

系統分析運算完畢之后,數據處理的結果會以熱點話題活性圖和熱點話題列表兩種形式直觀地顯示在用戶界面上。用戶可以清楚地看到出現了哪些熱點話題并且根據自身需要篩選關注的信息。

2 開發平臺及關鍵技術

2.1 系統開發平臺

開發環境為:服務器為多核處理器服務器,客戶端為CPU 3.06 GHz、1 024 Mbyte內存的普通計算機,能夠通過網絡連接上服務器端即可。開發模式采用三層構架的開發模式。開發結構采用客戶端/服務器(C/S)結構。后臺開發語言采用C語言[2-3]。前臺開發工具采用Microsoft Visual Studio 2006。數據庫管理系統采用Oracle 9i。

2.2 網絡數據獲取

2.2.1 網頁數據獲取

采取調用微博API接口與改進傳統的爬蟲程序相結合[4-5]的方式來實現微博數據的抓取,雖然通過調用微博API接口可以便捷地抓取微博數據,但是所有的微博服務商都不會把完整的API接口權限開放給普通用戶,并且對于開放的API,在返回結果數量與調用頻率方面有限制,一次查詢的返回結果數目上限為5 000。于是在調用API接口技術之外,還引入了基于傳統網絡爬蟲改進的程序抓取技術[6-7],獲得更多的網絡數據,通過兩者結合的方案可以實現微博數據高效全面的獲取。但是又由于最近新浪微博頒布了禁令,禁止搜索引擎以及網絡爬蟲類的程序抓取微博的網絡數據,所以暫時只能采取調用API接口的方式來獲取微博網絡數據。

2.2.2 網頁數據解析

成功地獲取了網頁數據[8]之后,此時網頁數據中還包含很多無關的數據,隨即由網頁解析器進行網頁數據清理,提取有用的信息如網頁鏈接URL、微博及評論內容、時間等,去除網頁數據中無用信息,調用Stream類讀取該URL頁面的數據流,通過正則表達式類進行匹配找到微博的內容、作者、評論的內容、時間、點擊數、回復數等信息,將這些信息按照數據庫表的字段存儲到數據庫服務器中。

2.3 熱點話題檢測技術

2.3.1 熱點數據處理流程

從圖3的熱點分析流程可以直觀了解到,首先通過話題活性算法計算所有話題的活性值,如果超過用戶設置的參數值時,則話題活性圖會顯示出一個比其他平穩部分高出一截的“毛刺”,熱點話題列表會在界面上顯示詳細的話題內容、時間、評論數等。

圖3 熱點分析流程圖

從圖4的熱點追蹤流程可以直觀了解到,熱點追蹤的話題活性圖和熱點話題列表更新的頻率為1/T(T為設定值)。當時間間隔為T的整數倍時,則通過話題活性算法計算所有話題的活性值,如果超過用戶設置的參數值時,話題活性圖會顯示出一個比其他平穩部分高出一截的“毛刺”,熱點話題列表會在界面上顯示詳細的話題內容、時間、評論數等。同時刷新熱點活性圖和熱點話題列表。

圖4 熱點追蹤流程圖

2.3.2 話題活性模型

話題活性是由一個話題的總發微博數和微博相關的總評論轉發數決定的,根據話題活性模型計算全部話題的活性值,然后觀察活性圖,平穩部分就是一般的話題,出現“毛刺”的地方就說明發現了熱點話題,這樣可以快速找出微博熱點話題。使用這種方法,大大降低了微博熱點話題檢測的時間復雜度。

分析話題活性[5]要從話題數量和評論的數量這兩個方面考慮,話題數量即單位時間內同一話題的發帖數,評論數量即單位時間內同一話題相關的評論數。根據這兩個因素構建話題活性模型:

1)單位時間內發微博數量越多則話題活性越強;

2)單位時間內微博評論數量以及被轉發次數越多則話題活性越強;

3)討論范圍越熱烈越集中(即評論和轉發集中在幾個微博且回復微博數量多),則話題活性越強。

話題活性模型具有時變特性,構建全部話題的話題活性模型如下

式中:fact(Δt)是系統在Δt內的活性值,ob(Δt)是Δt時間間隔內進入系統的根帖子數量,rb(Δt)是Δt內帖子的回復數量,orb(Δt)是Δt內根帖子的回復數量,rbi(Δt)是每個根帖子i的回復數量,即rb1(Δt)+rb2(Δt)+rborb(Δt)=rbi(Δt)。

3 系統功能實現與結果分析

3.1 評價標準

本研究根據TDT評測標準,評估話題檢測系統性能的指標為漏報率、誤報率以及歸一化檢測開銷,話題i(i=1,2,…,tn)為話題的個數[9]:

系統的平均漏報率PMiss、平均誤報率PFa和歸一化檢測開銷CDet(Norm)如下

式中:Missi和Fai分別是漏報率和誤報率,CMiss和CFa分別是漏報和誤報的開銷;Ptarget是目標話題的先驗概率,P-target=1-Ptarget為后驗概率。其中CMiss,CFa,Ptarget的取值在不同的測評中是不相同的,都是可自行設定的,此次測評中預設CMiss,CFa,Ptarget分別為1.00,0.10,0.02。

3.2 結果分析

設置適當的閾值且閾值不變時,根據實驗分析結果和數據庫真實情況比對,對漏檢率、誤檢率、誤測開銷值進行評估,均得到了較好的結果。

下面是微博系統熱點檢測系統檢測新浪微博2012年4月份熱點話題的實驗結果:

1)熱點分析功能結果顯示見圖5,系統每隔5 min(300 s)讀取1次活性值,突出的毛刺部分顯示檢測出熱點話題。

圖5 熱點分析功能實驗結果(截圖)

2)熱點追蹤功能結果顯示如圖6所示,在輸入框輸入需要追蹤的話題關鍵詞,如“央視帥哥播音員”,從2012年4月25日上午9:30開始實驗,過了二十幾個小時后,追蹤的熱點話題出現了(如圖中顯示的毛刺部分)。

4 結束語

本文采用了調用微博API接口與改進爬蟲程序相結合的方式獲取網頁數據,結合網頁清理及話題活性模型等技術,詳細設計了一個微博熱點話題檢測系統。經過實驗驗證,本系統確實可以有效地幫助用戶快速了解新的熱點話題和以往熱點話題的發展態勢。

圖6 熱點追蹤功能實驗結果(截圖)

系統在信息個性化搜索方便還可以進行后續的改進,采用網絡數據的預處理技術增加數據的預處理模塊,可以使系統更加精確、高效,從而更迅速、更準確地發現和追蹤微博熱點話題。

:

[1]曾依靈,許洪波.網絡熱點信息發現研究[J].通信學報,2007,28(12):141-146.

[2]格羅夫.SQL完全手冊[M].章小莉,寧欣,汪永好,等,譯.2版.北京:電子工業出版社,2004.

[3]張立.C#2.0 寶典[M].北京:電子工業出版社,2006.

[4]廉捷.新浪微博數據挖掘方案[J].清華大學學報:自然科學版,2011(10):1300-1305.

[5]YANG Y,CARNONELL J G,BROWN R,et al.Learning approaches for detecting and tracking news events[J].IEEE Intelligent System,1999,14(3):32-43.

[6]周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9):19-20.

[7]劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007(10):20-21.

[8]MATSUMURA N,MIURA A,SHIBANAI Y,et al.The dynamism of 2 channel[J].Journal of AI & Society,2005,19(1):84-92.

[9]丁杰,徐俊剛.IPSMS:一個網絡輿情監控系統的設計與實現[J].計算機應用與軟件,2010,27(4):188-190.

Design and Implementation of Micro-blog Hot Topics Detection System

ZHAO Qiandong1,YE Meng2

(1.Dept.of Communication and Information System,Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China;2.Wuhan Hong Xu Information Technology Co.Ltd.,Wuhan 430074,China)

A micro-blog hot topics detecting system is described.System managers can quickly find the micro-blog hot events that are taking place or have occurred.The system uses a combination of calling micro-blog API interface and improving crawler program to get Web data.Due to the huge amount of network data,in order to improve efficiency,the system uses Web cleaning technology.Focusing on the method of the topic activity model,the system can quickly find the hot topic by the time coordinate,and improve efficiency of the hot topics detection and greatly reduce the time complexity of the hot topics detection.

micro-blog;API;pages clean up;topic activity model;hot topics

TN929.6

A

【本文獻信息】趙前東,葉猛.微博熱點話題檢測系統的設計與實現[J].電視技術,2013,37(3).

國家“863”計劃項目(2012BAH38B05)

趙前東(1987— ),碩士生,主研網絡信息安全及通信協議;

葉 猛(1975— ),博士生導師,主要研究方向為網絡信息安全及通信協議。

責任編輯:任健男

2012-09-26

猜你喜歡
熱點話題熱點網頁
熱點
熱點
基于CSS的網頁導航欄的設計
基于HTML5靜態網頁設計
結合熱點做演講
2017年高考作文熱點話題預測
基于URL和網頁類型的網頁信息采集研究
基于SVM的熱點話題跟蹤實現過程研究
網頁制作在英語教學中的應用
熱點話題排行榜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合