?

基于網絡爬蟲的搜索引擎的研究

2016-12-31 15:13
移動信息 2016年8期
關鍵詞:爬蟲結點分詞

馮 丹

?

基于網絡爬蟲的搜索引擎的研究

馮 丹

湖北工業大學計算機學院,湖北 孝感 432400

網絡爬蟲是一種按照一定的規則自動搜集和抓取互聯網信息的程序或者腳本。通過網絡爬蟲不僅能夠為搜索引擎采集網絡信息,而且可以作為定向信息采集器,定向采集某些網站下的特定信息,如健康新聞、健康知識等?;诖?,闡述了網絡爬蟲的相關知識與技術,并對這些技術的優劣進行了分析,為基于網絡爬蟲的搜索引擎的設計和實現提供了有用的意見和建議。

網絡爬蟲;數據分析;搜索引擎

1 研究背景與意義

隨著互聯網的飛速發展,網絡上的信息呈爆炸式增長。這使得人們在網上找到所需的信息越來越困難,這種情況下搜索引擎應運而生。搜索引擎搜集互聯網上數以億計的網頁,并為每個詞建立索引[1]。在建立所搜引擎的過程中,搜集網頁是非常重要的一個環節。爬蟲程序就是用來搜集網頁的程序。如何從龐大的資料庫中找到正確的資料,是互聯網深度爬取技術的競爭要點。一般的網絡爬蟲是盡可能多的爬數據,本文所提到的爬蟲是首先將網絡數據分類,找到用戶需要的主題然后爬取數據,這樣大大減少了數據吞吐量,提高了爬取效率[2]。

作為搜索引擎的基礎組成部分,網絡爬蟲在Web信息采集中起著關鍵的作用。簡略地講,網絡爬蟲主要是一個Web應用程序,該應用程序從人工給定的一個初始的URL集合出發,根據URL獲取其所指向的頁面,存入頁面庫中,同時從這些以獲取的頁面中提取新的URL鏈接,將URL全部放入待提取URL隊列中,下一次爬取頁面時就從這個隊列中按一定的順序提出URL進行爬行,重復上述過程,直到達到某一預定條件時停止爬取。

2 相關概念與技術

2.1 搜索引擎的工作原理和分類

搜索引擎的工作流程相對來說比較復雜。第一步是對因特網上的網頁進行全面的抓??;第二步是將抓取的目標網頁進行預處理;第三步,根據用戶輸入的查詢請求定位相關網頁并呈現給用戶。

目前的搜索引擎可以分為以下幾類:全文搜索引擎,目錄搜索引擎,元搜索引擎。全文搜索引擎是名副其實的搜索引擎,目前主流的搜索引擎都采用的是此方法。它們從互聯網提取各種網站的信息,建立起數據庫,并能檢索與用戶查詢條件想匹配的記錄,按照一定的排序返回結果;目錄索引的功能比較弱,知識按照目錄分類的網站鏈接列表,不依靠關鍵字進行查詢;元搜索引擎接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將返回結果返回給用戶。還有其他非主流搜索引擎形式,如集合式搜索引擎、門戶搜索引擎等,這里不再做描述[3]。

2.2 網絡爬蟲簡介

網絡爬蟲是一種自動化瀏覽網絡的格式,或者說是一種網絡機器人。它們被廣泛用于互聯網搜索引擎或其他類似網站,以獲取或者更新這些網站的內容和檢索方式。它們可以自動采集所有能夠訪問到的頁面內容,將這些內容提供給搜索引擎做進一步的處理和分析。

本文中提到的爬蟲是主題爬蟲。所謂主題爬蟲是對特定的領域進行頁面檢索,并且會選擇性地忽略與搜索主題相關性較小的網頁。主題爬蟲的任務是最大化的發現和抓取與主題相關的頁面,過濾掉與主題無關的頁面,最大程度地利用有限的系統資源,獲得較優秀的檢索結果。主題爬蟲需要對用戶所搜索的主題進行深入的分析,以去除相關性小的網頁,保留相關性強的索引,這個過程實質上是在網絡爬蟲抓取模塊中,實現一部分原本需要通過預處理模塊處理的功能。對用戶輸入的關鍵字信息進行分詞處理,然后計算爬蟲抓取的頁面的相關程度,給頁面賦予相關度權重,判斷是否抓取頁面。

網絡爬蟲實際上是在互聯網這張非常大的“圖”中進行遍歷操作。我們將互聯網看作一張“圖”,每一個頁面就都可以看成是一個“結點”,而連接這些結點的鏈接就可以看作是“邊”。所以類比“圖”的遍歷方式,網絡爬蟲的搜索策略也可以分成兩種方法:一種是深度優先遍歷;另一種是廣度優先遍歷。通俗地講,深度優先遍歷是從某個頂點出發,首先訪問這個頂點,然后找出剛訪問這個結點的第一個未被訪問的鄰結點,然后再以此鄰結點為頂點,繼續找它的下一個新的頂點進行訪問,重復此步驟,直到所有結點都被訪問完為止;廣度優先遍歷是從某個頂點出發,首先訪問這個頂點,然后找出這個結點的所有未被訪問的鄰結點,訪問完后再訪問這些結點中第一個鄰結點的所有結點。重復此方法,直到所有結點都被訪問完為止??梢钥闯?,兩種方法最大的區別在于前者是從頂點的第一個鄰結點一直訪問下去再訪問頂點的第二個鄰結點;后者從頂點開始訪問該頂點的所有鄰結點再次依次向下,一層一層地訪問[4]。

2.3 中文分詞算法概述

在本文前面的部分我們提到過,要做好網絡爬蟲,分詞是必不可少的一步。當然,日常生活中大部分用戶瀏覽的是中文頁面,所以中文分詞對于網絡爬蟲也非常重要。目前的分詞算法存在三種類型,一種是基于字符串匹配的分詞方法,一種是基于統計的分詞方法,一種是基于理解的分詞方法。

基于字符串匹配的分詞算法或者通常稱為機械分詞算法,它通過某種策略將需要進行分析的字符串與機器中包含的中分詞典中的詞條進行對比分析,若系統在該中文詞典中匹配到了目標字符串,則匹配成功。

基于統計的分詞是基于統計學的思路進行分詞。如果僅從詞的構成形式來看,詞往往是一種或者多個固定的字的排列組合,因而在研究文本內容時,文中幾個字相鄰出現的概率越高,其組成一個詞的概率也就越大。由此可知,幾個字之間相鄰出現的頻率反映了一個詞得以形成的概率大小。這樣便給我們提供了分析思路,計算中文文本語料中幾個字相鄰組合出現的頻度,并定義幾個字之間出現的相關信息。由這些相關信息所反映出來的信息體現了中文文字組合的緊密程度,當這種緊密程度高于某閾值時,便可以認定這個字符組合可以形成詞。

基于理解的分詞方法基本思想為在進行中分分詞同時對語義以及語法進行一系列的分析,通過利用語義信息和句法信息來避免發生歧義。通常情況它包含了三個部分:句法語義子系統、分詞子系統以及總控模塊。在總控模塊的調度下,分詞子系統通過獲取包括詞、句子等的語義信息和句法信息來進行分詞和判斷歧義現象[5]。

3 結語

本文對基于網絡爬蟲的搜索引擎的背景,意義以及相關的關鍵技術進行了研究。搜索引擎是現代生活中不可缺少的一個工具,對于此技術的研究非常有意義。

網絡爬蟲作為一種抓取數據的技術,在搜索引擎中起到了不可或缺的作用。所以在本文第二部分,對搜索引擎的原理和分類,網絡爬蟲的相關技術進行了簡要的分析。另外,對搜索引擎中另一個關鍵技術分詞方法進行了簡要的分析。

[1]羅剛,王振東.自己動手寫網絡爬蟲[M].北京:清華大學出版社,2010.

[2]羅剛.自己動手寫搜索引擎[M].北京:電子工業出版社,2010.

[3]楊濤.中文智能搜索引擎淺析[J].圖書情報工作,2002(2):58-60.

[4]Animesh Tripathy ,Prashanta K Patra. A Web Mining Architectural Model of Distributed Crawler for Internet Searches Using PageRank Algorithm[C]. IEEE Asia-Pacific Services Computing Conference, 2008.

[5]邱哲,符滔滔.開發自己的搜索引擎[M].北京:人民郵電出版社,2007.

Research on Search Engine based Crawler

Feng Dan

School of Somputer Science, Hubei University of Technology, Hubei Xiaogan 432400

The web crawler is a program or script that automatically collects and captures the information of the Internet according to certain rules. Through the web crawler not only can collect network information for the search engine, but also can be used as a directional information collector, directed to collect specific information under certain websites, such as health news, health knowledge, etc.. This paper describes the relevant knowledge and technology of web crawler, and analyzes the advantages and the advantages of these technologies. It provides useful advice and suggestions for the design and implementation of web crawler based search engine.

web crawler;search engines;data analysis

TP391.3

A

1009-6434(2016)08-0121-02

猜你喜歡
爬蟲結點分詞
利用網絡爬蟲技術驗證房地產灰犀牛之說
LEACH 算法應用于礦井無線通信的路由算法研究
基于八數碼問題的搜索算法的研究
基于Python的網絡爬蟲和反爬蟲技術研究
分詞在英語教學中的妙用
目前互聯網中的網絡爬蟲的原理和影響
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
大數據背景下校園輿情的爬蟲應用研究
聚焦現在完成進行時
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合