?

Na?ve Bayes分類器制導的專業網頁爬取算法

2010-06-04 10:04韓國輝梁時木唐小棚王亞強于中華
中文信息學報 2010年4期
關鍵詞:爬蟲隊列分類器

韓國輝, 陳 黎, 梁時木, 唐小棚, 王亞強, 于中華

(四川大學 計算機學院, 四川 成都 610065)

1 引言

人類已經進入信息社會,信息以前所未有的速度積聚,人類生活的方方面面無不需要豐富的信息支撐。作為人類有史以來最大的信息庫,如果能夠充分挖掘和利用萬維網(Web)上信息,對提高生活質量,進行科學決策,具有重要意義。對Web信息挖掘利用的廣泛需求,使搜索引擎成為人們日常生活工作中最常用的工具之一,搜索引擎服務也成為發展最迅猛的商業服務之一。

目前廣泛應用的搜索引擎屬于通用搜索引擎,其目的是盡可能多地搜集Web上的網頁,對它們建立索引,然后基于索引向用戶提供方便快捷的檢索服務。通用搜索引擎盡管取得了巨大的成功,然而由于其面向的服務對象具有各種各樣的專業背景和知識層次,搜集檢索的信息也紛繁復雜,無法充分利用專業領域知識對用戶的檢索需求進行深入的分析,也無法對被檢索的對象進行深層次的處理,因此檢索結果的質量不高。

從Web中快速、準確地檢索出所需要信息的迫切需求催生了專業搜索引擎技術。專業搜索引擎旨在針對特定專業領域的用戶提供專業相關信息的檢索服務。為此,專業搜索引擎需要解決以下核心問題:(1)從Web上準確高效地搜集與特定專業領域相關的網頁; (2)利用專業領域知識對搜集的網頁進行深入的分析處理,建立語義內容豐富的索引詞表和索引結構; (3)基于專業領域知識對用戶查詢進行深入處理,準確理解用戶的查詢需求; (4)面向專業領域的相關度計算模型和排序算法。

本文以金融為專業背景,對中文專業網頁的爬取問題進行了研究,提出了以鏈接錨文本及其前后文為特征、Na?ve Bayes分類器制導的中文專業網頁爬取算法,并進行了大量的離線和在線測試,結果表明,基于所提出算法實現的專業網絡爬蟲可以達到近90%的專業網頁收割率。

本文余下部分組織如下:第2節介紹相關工作,分析現有專業網頁爬取算法的研究現狀;第3節提出Na?ve Bayes分類器制導的中文專業網頁爬取算法,對基于Na?ve Bayes的URL領域相關性判別進行了詳細的討論和分析;第4節介紹實驗方法和實驗結果,并對實驗結果進行分析;第5節對全文工作進行總結,指出進一步的改進方向。

2 相關工作

作為搜索引擎的核心部件,網絡爬蟲的研究和設計一直受到高度的關注和重視。網絡爬蟲的工作原理是:給定種子URL集合,將這些URL放入待爬取隊列,然后不斷地從待爬取隊列中取出URL,下載相應的網頁,從中抽取超鏈接的URL,加入到待爬取隊列中。上述“取URL—爬取—抽取URL—加入隊列”過程不斷進行,直到預定的終止條件滿足為止。網絡爬蟲的工作過程可以看成是一個對Web圖的搜索過程,不同爬蟲的區別主要在于對隊列中待爬取URL的不同排序方式上。

通用爬蟲的目標是盡可能多地搜集網頁,因此可以基于盲目搜索策略進行爬取。然而,由于任何搜索引擎都無法搜集和索引整個Web上的網頁,加之深度優先搜索易使爬蟲陷入爬取陷阱(Spider Traps),因此,現代網絡爬蟲都采用某種啟發式搜索策略,對隊列中的待爬取URL進行重要性評估,以便使被爬取網頁盡可能重要、權威。

專業爬蟲的目標是搜集與專業領域相關的網頁,為此可以采取兩類策略:(1)使用通用爬蟲爬取網頁,然后基于網頁過濾技術過濾掉與專業領域無關的網頁; (2)對隊列中的待爬取URL進行評估,預測其對應網頁與專業領域相關的可能性大小,據此對隊列中的URL排序,刪除與專業領域無關的URL,優先爬取與領域相關度大的URL。第(1)種策略由于帶寬資源浪費嚴重,因此很少采用。目前研究的重點是第(2)種策略,其中的關鍵點是對待爬取的URL預測評估其領域相關性。

樸素的URL領域相關性判別方法是使用一部專業詞典,如果URL對應的錨文本或鏈接的前后文中出現專業詞匯,則認為該URL與領域相關。這種方法可以達到比較高的準確率,然而自然語言稀疏性的特點使其召回率很低。因此,許多研究者開始采用分類器來制導專業爬蟲的爬取過程。根據分類器所使用特征的不同,這些網絡爬蟲可以分成兩大類,一類是基于已爬取的網頁內容,另一類基于Web圖。第一類的典型工作如文獻[1],其中設計實現了一個專業爬蟲,提供兩種爬取策略:(1)由Na?ve Bayes分類器制導,對于每個爬取的網頁,根據貝葉斯分類模型計算其屬于特定專業領域的可能性大小,將該值作為相應網頁中所有鏈接URL的領域相關性得分; (2)基于變種的HITS[2]尋找專業Hub型網頁。屬于第二類的典型是文獻[3],其中設計的算法仍然采用貝葉斯分類器制導,但是評價的目標是網頁與目標網頁之間的鏈接距離。文獻[1]中的第(2)種爬取策略也屬于基于Web圖結構的爬取。

早期的基于已抓取網頁內容進行分類的算法中,多數將網頁的全文作為分類特征,如文獻[1,4],并且屬于一個網頁的所有鏈接URL具有相同的領域相關性。為了克服上述方法的不足,進一步提高專業網頁判別的準確率,人們開始嘗試使用與鏈接有關的信息作為分類特征,針對單個鏈接進行專業相關性預測,如文獻[5]使用基于鏈接錨文本和本體(Ontology)的分類器來對鏈接進行專業相關性預測,進而制導爬取過程,文獻[6]基于鏈接錨文本及其鄰近的文本對鏈接進行評價,文獻[7]雖然也使用鏈接錨文本及其前后文,但根據網頁的DOM樹來確定鄰近關系。

國內有關專業爬蟲的研究起步較晚,取得了一定的研究成果[8-10]。文獻[8]綜述了專業爬蟲的爬取策略和算法。文獻[9]探討了專業爬蟲的一些關鍵問題,通過改進主題模型、鏈接分類模型的學習方法及鏈接分析方法達到提高下載網頁的專業相關度和質量的目的,針對中文財經領域進行的實驗驗證了所提出算法的有效性。文獻[10]提出了EPR算法,該算法在URL 的專業相關性判別中引入了鏈接文本及相關鏈接屬性的分析,但文中未給出實驗驗證,不清楚算法的具體性能。

盡管研究者在專業爬蟲的爬取策略和算法方面已經開展了大量的工作,但是針對中文網頁的專業爬取研究,尤其是建立在充分實驗驗證基礎上的工作,目前還比較少見。在所列舉的上述工作中,只有文獻[9]針對中文網頁進行了比較充分的實驗驗證,對所爬取的前3 000個網頁進行了主題相關性評價。然而,文獻[9]的算法在抓取過程中要不斷使用HITS進行迭代,這將大大降低爬取的效率,而且算法中的鏈接分類器使用鏈接提示文本來預測待爬取網頁的專業相關度,自然語言固有的稀疏現象[11]將使鏈接分析的作用大打折扣。此外,僅基于3 000個網頁來評價算法的性能,規模還遠遠不夠,尤其無法評價主題發散的程度。

最近幾年,雖然國內外一些研究者提出了基于分類器的鏈接相關性判別算法,然而,由于很難獲取帶鏈接類標的訓練數據,人工標注又工作量太大,因此,絕大多數這些工作都利用帶類標的網頁集合來訓練分類器,然后訓練好的分類器基于鏈接的前后文對鏈接進行專業相關性預測。上述處理方法的本質是將鏈接的前后文看成普通的網頁,將鏈接相關性預測歸結為網頁分類。由于作為訓練的網頁集合和作為預測對象的鏈接前后文不滿足概率同分布的要求,這是有監督學習的基本前提,因此,這樣訓練的分類器很難準確地判別鏈接的專業相關性。

本文以金融為專業背景,研究了中文專業網頁的爬取問題,提出了基于Na?ve Bayes分類器制導專業網頁爬取算法,該算法以鏈接錨文本及其前后文為特征,以帶鏈接類標的語料為訓練樣本。對算法進行了大量的測試,評價的網頁規模達到5萬,包括人工抽樣評價和網頁分類器評價,結果表明,基于所設計的Na?ve Bayes分類器,專業爬蟲可以達到近90%的專業網頁收割率。此外,本文還通過KL距離計算和實驗對比驗證了網頁內容和鏈接前后文在概率分布上的差異,分析了不同前后文信息對專業相關性預測的作用。

3 Na?ve Bayes分類器制導的專業網頁爬取算法

3.1 基于Na?ve Bayes的URL領域相關性判別及爬取算法

本文將被鏈接網頁的專業相關性判斷看成是基于鏈接前后文(父網頁中鏈接所處的前后文)對鏈接進行二值分類的問題,即屬于專業相關類和不屬于專業相關類。對于任意鏈接Link,設其前后文Context={F1,F2, …,Fn},其可能屬于的類別集合為C= {+, -},其中“+”表示專業相關,“-”表示專業不相關。Na?ve Bayes基于后驗概率最大化原則和前后文特征之間獨立性假設來對Link進行分類,即Link的類別為:

(1)

為了評估不同前后文特征對鏈接專業相關性的預示作用,本文考察了以下特征組:(1)鏈接錨文本分詞形成的單詞集合; (2)鏈接錨文本分詞形成的單詞集合、鏈接前后文分詞形成的單詞集合、鏈接錨文本中是否包含專業詞匯、鏈接前后文中是否包含專業詞匯。

(2)

其中Count(Fj,Ci)為出現特征Fj的Ci類樣本的個數,Counti為Ci類樣本的總數。

下面給出了Na?ve Bayes分類器制導的專業網頁爬取算法,它與通用爬蟲的主要區別在于:(1)對待爬取隊列按照專業相關度(由Na?ve Bayes分類器根據鏈接前后文計算的后驗概率)從大到小排序; (2)對網頁中提取的每一個鏈接,需要提取其前后文,調用Na?ve Bayes分類器計算鏈接的專業相關度; (3)對于網頁中提取出的每一個鏈接,如果它已經在待爬取隊列中存在,則可能需要更新該鏈接的專業相關度。

Frontier←Seed; //待爬取隊列初始化為種子的集合

while (Frontier!=φ && Stopping criterion is not met) {

CurrURL←Dequeue(Frontier); //從排序隊列中取URL

if (Unvisited(CurrURL)) { //如果CurrURL尚未抓取

CurrPage←Download(CurrURL); //下載頁面

for (Link∈CurrPage) { //當前網頁中的每個子鏈接

Feature←FeatureExtraction(Link,CurrPage); //提取鏈接前后文

Score←P(+/Feature); //調用Na?ve Bayes分類器,根據特征Feature計算

//鏈接Link屬于專業相關的概率

if (In(Link, Frontier)) { //如果當前的子鏈接已在隊列中

OldScore←GetScore(Link); //獲取Link原來的Score

if (OldScore

UpdateScore(Link,Score); //更新Link的Score

Sort(Frontier); //待爬取隊列按其中鏈接的Score從大到小排序

}

}

else {

Enqueue(Link,Frontier); //將子鏈接(其URL)加入隊列

Sort(Frontier); //對待爬取隊列按照其中鏈接的Score從大到小排序

}

}

}

}

3.2 URL類別標注

在現有的分類器制導爬蟲中,訓練分類器的數據多為帶類標的網頁,分類的對象卻是處于父網頁一定前后文的鏈接,這種做法實質上違反了有監督學習的一個基本前提條件,即訓練數據和測試數據必須同分布。本節將首先通過計算網頁集合和鏈接前后文集合中單詞分布的KL(Kullback-Leibler)距離,即相對熵,來說明網頁和鏈接前后文中詞語的分布不滿足概率同分布。為了提高分類器對鏈接專業相關性預測的精度,必須用帶鏈接類標的訓練數據來訓練分類器,而手工標注網頁中每個鏈接,工作量遠遠高于對網頁進行標注。為此,本節還將設計一種自動收集帶鏈接類標的訓練數據的方法。

3.2.1 網頁和鏈接前后文中單詞分布的距離度量

為了分析網頁集合和鏈接前后文(包括錨文本)集合中單詞出現的不同情況,收集了金融專業相關網頁1 200篇,金融鏈接的前后文25 039個,對它們進行分詞,分別得到金融網頁中出現的單詞集合和金融鏈接前后文中出現的單詞集合,保留兩個集合交集中的單詞,去除其他單詞。對于這樣得到的每一個單詞W,它們在網頁集合和鏈接前后文集合中出現的概率分別估計為:

(3)

(4)

其中C(W,PageSet)為單詞W在金融網頁集合中出現的次數,C(W,LinkSet)為單詞W在金融鏈接前后文集合中出現的次數。

利用相對熵來度量兩個概率分布PLink(W)和PPage(W)之間的距離:

(5)

對于所實驗的網頁集合和鏈接前后文集合,詞語規模分別為23 005和9 211,兩個集合都出現的詞共6 468個,按式(3)、(4)、(5)計算出兩個集合中詞語分布的KL距離(相對熵)為2.086 5。

為了進行對比,將1 200篇金融網頁集合隨機劃分成兩個子集,每個包含600篇網頁,詞語規模分別為15 672和17 838,包含的公共詞匯共10 505個。對這兩個子集,按式(3)、(4)、(5)計算出的KL距離為0.567 6,明顯低于網頁集合和鏈接前后文集合之間的距離。此外,還將鏈接前后文集合隨機劃分成兩個子集,計算了它們之間的KL距離,為0.782 8,也明顯低于網頁集合和鏈接前后文集合之間的距離。

3.2.2 自動獲取帶類標鏈接

手工標注鏈接的工作量遠遠大于標注網頁,這也是文獻中以帶類標網頁訓練專業爬蟲分類器的原因之一,盡管網頁與鏈接不滿足概率同分布的要求。通過考察發現,重要的專業性網站往往有大量編輯人員負責搜集組織其網頁信息,這些信息的質量一般更高、更可信,很少包含與本專業不相關的網頁?;谏鲜鲇^察,本文以金融為例,設計了自動獲取帶類標鏈接數據的算法,算法的基本流程如下。

Input:

Seed-種子URL的集合;

PositiveDN-重要金融網站的域名集合; //如http://finance.sina.com.cn/,

//http://money.163.com/,

//http://www.hexun.com/等。

Output:

PositiveLinkContext-金融鏈接(用URL,錨文本和其出現的前后文表示)的集合;

{

PositiveLiknContext←φ; //初始化為空集

Frontier←Seed; //待爬取隊列初始化為種子的集合

while (Frontier!=φ && Stopping criterion is not met) {

CurrURL←Dequeue(Frontier); //從隊列中取URL

if (Unvisited(CurrURL)) { //如果CurrURL尚未抓取

CurrPage←Download(CurrURL); //爬取CurrURL的網頁

for (Link∈CurrPage) { //對于當前網頁中的每個子鏈接

Enqueue(Link,Frontier); //將子鏈接(其URL)加入隊列

if (Link∈PositiveDN) { //子鏈接(URL)屬于重要金融網站域名

PositiveLinkContext←PositiveLinkContext ∪ //得到一個正例鏈接

;

}

}

}

}

return PositiveLinkContext;

}

前面給出的算法實質上是一個通用爬蟲的擴展,它不斷地從待爬取隊列中提取URL,下載相應的網頁,從網頁中提取鏈接,加入到待爬取隊列中,并判斷提取的鏈接是否處在重要金融網站的域名下,如果是,則認為該鏈接為金融相關鏈接,提取其出現的前后文等信息加入到帶鏈接類標的正例集合中。反例鏈接(非金融鏈接)及其前后文可以類似地獲取。

前面給出的算法實現了獲取帶類標鏈接及其前后文的自動化,同時由于使用了通用爬蟲,較好地對金融鏈接出現的各種前后文進行了抽樣,盡可能地減少了主觀因素的影響。

3.3 前后文特征抽取

文獻[13]對不同鏈接前后文的分類效果進行了實驗對比,表明基于Tag Tree的方法優于Text Window的方法。然而,在爬取過程中構建網頁完整的Tag Tree,然后提取鏈接的前后文,由于用在解析網頁上的時間過多,會影響爬蟲的吞吐率。為此,本文提出了一種啟發式的鏈接前后文提取方法,該方法既繼承了基于Tag Tree方法的優點,同時又有較高的效率。

基于啟發式的前后文特征提取方法如下:對于鏈接(即標簽)前后各一定大小的窗口,如果其中有其他鏈接出現,則提取前后各一個鏈接錨文本作為前后文,否則取附近一段長度的文本作為前后文。

4 實驗及結果分析

4.1 訓練數據和測試數據

利用算法2自動獲取帶標注鏈接共計67 600個,其中金融鏈接34 728個,非金融鏈接32 872個。上述帶標注鏈接按照7∶3隨機劃分成訓練集和測試集,測試集中共包含9 689個金融鏈接和9 182個非金融鏈接。訓練集用于訓練Na?ve Bayes分類器,測試集用于離線對分類器的測試。除了對分類器在測試集上進行測試外,本文還對Na?ve Bayes分類器制導的專業爬蟲進行大量的在線測試。

4.2 離線測試

本文將分類器在帶類標鏈接測試集上進行的測試稱為離線測試。為了比較不同的前后文特征對鏈接專業相關性的不同預示作用,本文分別考察了以下特征組:(1)錨文本中的單詞; (2)錨文本中的單詞、前后文中的單詞、錨文本中是否出現金融詞匯、前后文中是否出現金融詞匯。表1給出了利用這兩組特征的離線測試結果。

表1 離線測試結果

從表1可以看到,使用特征組(2),綜合利用錨文本、前后文和專業詞典可以明顯提高Na?ve Bayes分類器對鏈接專業相關性判斷的準確率和召回率,明顯優于單純基于錨文本的分類效果。

為了進一步分析用帶類標的網頁作為訓練數據的分類器的效果,用包含1 200篇金融網頁和1 200篇非金融網頁的數據集專門訓練了一個Na?ve Bayes分類器,用于對測試集中的鏈接進行金融專業相關性判斷。測試集中的鏈接用特征組(2)來表示,將這些特征詞看成是出現在網頁中的單詞。實驗結果見表2。

表2 網頁Na?ve Bayes分類器的離線測試結果

從表2可以發現,用網頁訓練的分類器在精確率方面遠遠低于用鏈接訓練的分類器,召回率優于使用特征組(1)的鏈接訓練分類器,但是在精確率和召回率方面都明顯低于使用特征組(2)的、用帶類標鏈接訓練的分類器。

4.3 在線測試

本文將Na?ve Bayes分類器制導的網絡爬蟲在實際網絡環境下的爬取測試稱為在線測試。所使用的Na?ve Bayes分類器使用特征組(2)、用帶類標的鏈接集合訓練得到。爬蟲初始的種子集合包括http://daohang.google.cn/(Google導航) 和http://site.yahoo.com.cn/(Yahoo網址大全)。盡管選取的初始種子不是金融專業網站,但是分析發現,爬蟲很快就聚焦到專業相關的頁面。對爬蟲爬取的5萬篇網頁分別進行了人工評測和自動評測,兩項評測均表明:所設計的專業爬蟲可達到近90%的收割(精確)率。

4.3.1 人工評測

從爬蟲爬取回來的5萬篇網頁中隨機抽取了2 500篇(5%),請3名評價人員分別獨立判斷這些網頁的金融相關性,然后對他們三人的結果進行平均,得到圖1的測試結果,其中橫軸為網頁篇數,縱軸為收割率。從圖1可以看到,所設計的專業爬蟲可以達到98%以上的收割率。

圖1 對抽樣數據的人工評測結果

4.3.2 自動評測

由于人工評測只能在專業爬蟲爬取結果集的一次小規模抽樣上進行,存在“以偏概全”的可能。為了更全面地對所設計爬蟲的性能進行評價,實現了一個Na?ve Bayes網頁分類器,由該網頁分類器代替評價人員對爬取回來的網頁內容進行分析,判斷是否屬于金融專業網頁。當然,由于網頁分類器的準確率不可能達到100%的水平,尤其是抓取回來的網頁中包含大量的Hub型[14],而網頁分類器對Hub型網頁的分類能力很弱,因此,這里的測試結果也只能作為人工評價的一個參考和補充。圖2給出了利用網頁分類器的自動評測結果,從中可以看到,收割率接近90%。

圖2 自動評測結果

從圖1和圖2不但反映出所設計的專業爬蟲發現專業鏈接的能力很強,盡管初始種子是非金融網站,但很快聚焦到金融網頁上,收割率很高,同時還可以發現,專業爬蟲的工作非常穩定,爬取5萬篇網頁時也基本沒有出現“主題發散”的情況。

5 結論及進一步的工作

本文對專業網絡爬蟲的爬取算法進行了研究,提出了以鏈接錨文本及其前后文為特征、Na?ve Bayes分類器制導的專業網頁爬取算法。離線和在線測試的結果均表明,Na?ve Bayes分類器制導的網絡爬蟲可以達到近90%的專業網頁收割率。此外,本文還度量了網頁集合和鏈接前后文集合中詞的分布方面的差異,說明了利用帶類標鏈接訓練分類器以制導專業爬蟲的重要性,提出了自動獲取帶類標鏈接的方法。為了驗證不同特征對爬蟲分類器性能的影響,進行了較充分的實驗對比和分析。

本文存在的不足和進一步的改進工作包括:(1)由于很難準確評估專業網頁在整個Web上的數量規模,從而無法精確評價專業爬蟲的召回率,因此在線評價時只度量了收割率(即精確率)。作為下一步的工作,需要研究本文算法在召回率方面的性能,對漏抓的專業網頁的情況進行盡可能準確地評價; (2)盡管網頁集合中單詞的分布與鏈接前后文集合中單詞的分布存在較大的距離,然而還是存在一定的關聯,而且網頁的標注有許多現成的資源可以利用,如ODP(Open Directory Project)等,因此,下一步準備采用遷移學習(Transfer Learning)的思想,用網頁來訓練分類器,用于對鏈接進行專業相關性判斷。

[1] S. Chakrabarti, M. van den Berg, B. Dom. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery[J]. Computer Networks, 1999,31(11-16): 1623-1640.

[2] J. Kleinberg. Authoritative Sources in a Hyperlinked Environment[J]. Journal of the ACM, 1999,46(5): 604-632.

[3] M. Diligenti, F.M. Coetzee, S. Lawrence, 等. Focused Crawling Using Context Graphs[C]// Proc. of Intl. Conf. On Very Large Databases (VLDB’00), Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 2000: 527-534.

[4] P.M.E. De Bra, R.D.J. Post, Information Retrieval in the World Wide Web: Making Client-Based Searching Feasible [C]// Proceedings of the First International World-Wide Web Conference, CERN, Switzerland, May, 1994.

[5] M. Iwazume, K. Shirakami, K. Hatadani, 等. IICA: An Ontology-Based Internet Navigation System[C]// Proc. AAAI-96 Workshop Internet Based Information Systems, 1996.

[6] M. Hersovici, M. Jacovi, Y.S. Maarek, 等. The Shark-Search Algorithm—An Application: Tailored Web Site Mapping[C]// Proc. Seventh Int’l World Wide Web Conf., 1998.

[7] S. Chakrabarti, K. Punera, M. Subramanyam. Accelerated Focused Crawling through Online Relevance Feedback[C]// Proc. 11th Int’l World Wide Web Conf., May 2002.

[8] 周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9): 1965-1969.

[9] 蔣宗禮,徐學可,李帥.一種基于超鏈接引導的主題搜索的主題敏感爬行方法[J].計算機應用,2008,28(4): 942-944.

[10] 李勇,韓亮.主題搜索引擎中網絡爬蟲的搜索策略研究[J].計算機工程與科學,2007,30(3): 4-6,56.

[11] Manning C.D.等,苑春法等譯,統計自然語言處理基礎[M].電子工業出版社,2005.

[12] S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan, D. Gibson, J. Kleinberg. Automatic Resoutce Compilation by Analyzing Hyperlink Stucture and Associated Text[C]// Proc. 7thWWW Conf, Brisbane, Australia, 1998.

[13] Gautam Pant, Padmini Srinivasan. Link Contexts in Classifier-Guided Topical Crawlers[J]. IEEE Transactions on Knowledge and Data Engineeering, 2006,18(1): 107-122.

[14] 李曉明,閆宏飛,王繼民.搜索引擎——原理、技術與系統[M].北京:科學出版社,2005.

猜你喜歡
爬蟲隊列分類器
利用網絡爬蟲技術驗證房地產灰犀牛之說
基于Python的網絡爬蟲和反爬蟲技術研究
隊列里的小秘密
基于多隊列切換的SDN擁塞控制*
在隊列里
大數據背景下校園輿情的爬蟲應用研究
基于差異性測度的遙感自適應分類器選擇
豐田加速駛入自動駕駛隊列
基于實例的強分類器快速集成方法
大數據環境下基于python的網絡爬蟲技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合