?

基于DOM樹的信息推廣平臺設計

2015-07-02 00:12劉維陳銀熊偉程
山東工業技術 2015年12期
關鍵詞:微信公眾平臺

劉維++陳銀++熊偉程

摘 要:根據網頁具有極高的相似結構和局部代碼重復性的特點,總結Web頁面信息自動化提取時的步驟。再根據Web頁面的結構特點,利用DOM樹將頁面的信息提取出來,分析當步驟實現時HTML的預處理流程和HTML頁面的解析過程,將提取出來的信息集中顯示,以達到推送的目的。

關鍵詞:HTML頁面;DOM樹;正則表達式;微信公眾平臺

1 引言

隨著“互聯網+”時代的到來,信息的來源,可信度,及時度越來越受到人們的關注,但現在大多數的信息都是來自Web網頁,這樣的信息多而雜,具網絡資料顯示,文本信息正以指數型式不斷增長。為了節約時間,就有了基于Web頁面挖掘技術的產生。實現信息推送最好的選擇就是微信公眾平臺。微信公眾平臺是最近幾年新出的推送信息的一種新方式,它是騰迅公司在微信的基礎上新增的功能模塊,通過這一平臺,個人和企業都可以打造一個微信的公眾號,并實現和特定群體的文字、圖片、語音的全方位溝通、互動。

2 Web頁面挖掘

如今Internet上很多網頁都是動態生成的,通過用戶填寫表單提交信息,動態的生成Deep Web頁面,與此同時用戶提交的大量數據信息被保存在網站的后臺數據庫中。由于頁面中數據記錄之間的代碼具有極高的結構相似性,因此Web數據記錄所對應的標簽樹之間自然也具有很高的相識性,所以網頁往往具有相似的結構和局部代碼重復性。因此數據的自動化提取則可以分為以下幾個步驟:

(1)輸入一些具有相同或相似結構的Web頁面。

(2)對這些Web頁面進行預處理,就是將一些與網頁無關的內容進行刪除,將代碼結構不嚴謹的HTML頁面轉換成結構嚴謹、易于處理的HTML頁面。

(3)將處理好的頁面解析成以標簽為隊列的線性數據結構,接著利用標簽隊列的匹配去除頁面中的廣告,導航欄等。

(4)按照一些頁面性質將網頁中的標簽歸類成為一些小集合,然后對這些小集合的有效數據進行自動抽取,并自動生成該類的模版頁。

3 DOM標簽樹

HTML通過定義一套標簽來刻畫顯示的頁面。依據標簽的作用可將HTML的標簽分為三類:

(1)規劃網頁布局的標簽。在視覺上,我們都知道網頁是由無數的方塊嵌套在一起組成,而里面的內容則是由標簽規劃出來的。常用的標簽有:

等。

(2)描述顯示特點的標簽。在網頁中??吹綖榱艘鹞覀冏⒁獾牟煌袷轿淖?,它們都是由一些標簽規定的,這類標簽稱為信息標簽。常用的有:

等。

(3)超鏈接相關的標簽:超鏈接是網頁區別于普通文本最明顯的特征之一。它表示著網頁間的關系,整理出超鏈接標簽可以挖掘出網頁間的相關內容。

4 部分功能與實現的步驟

4.1 HTML的預處理

現在大多數的網站都是以HTML文檔形式向客戶展開,每一個頁面中的數據和格式都是以一組成對的“始標記”與“結束標記”組成。例如:

,,等。在頁面中的標簽可以相互嵌套使用。為了避免網頁不兼容、代碼錯誤的現象可能導致的頁面解析失敗,我們可以先除去一些無用的標簽,如:,

猜你喜歡
微信公眾平臺
傳統媒體使用微信平臺推送的價值選擇研究
高校學報微信公眾平臺發展的SWOT分析
基于微信公眾平臺的高校綜合素質社團建設
基于微信公眾平臺的閱讀推廣案例研究
基于微信的大學生微型學習平臺的設計與實現
基于微信公眾平臺的碎片化學習研究
媒體融合背景下出版社微信公眾平臺發展研究
微信公眾平臺在高校圖書館信息服務中的應用研究
試析高校應用微信公眾平臺的問題與策略
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合