?

中國地區Internet特性分析DmytroLande

2017-11-15 09:00李晶楊子江BorisBerezin周曉明董婷
電腦知識與技術 2017年28期
關鍵詞:搜索引擎網頁數量

李晶+楊子江+BorisBerezin+周曉明+董婷

摘要:文本通過與全球Internet資源對比的方法,評估中國地區Internet的獨特特性,并在此基礎上分析了采用RSS源采集中國地區Internet信息的可能性。

關鍵詞:中國地區Internet;網絡資源特性;RSS源;信息采集

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)28-0020-04

1 概述

隨著Internet的發展,中國已成為全球網絡用戶數量最多的國家,目前超過6.88億占全國總人口一半以上的用戶使用Internet。而Internet發源地美國的用戶量僅為2800萬排名第三。同美國相比,中國地區Internet的發展有其自身的特色[1-3]。首先,通過移動客戶端訪問Internet的用戶遠超美國,中國約有90%的用戶通過智能手機等移動客戶端訪問Internet,而美國僅有40%的用戶通過移動客戶端連入Internet;其次,在線發布內容具有高活性和高穩定性,中國在線發布內容超過美國大約20%-50%;最后,用戶年齡段的構成不同于美國,中國20-29歲的用戶占比最高大約30%左右,10-19歲的用戶次之約占22%,另外還有24%的用戶年齡段處于30-39歲。

Internet用戶量排名前37位的國家用戶使用Internet比例如圖1所示。圖中橙色和灰色部分分別表示使用和未使用Internet的用戶量。該圖可以反映某國用戶對Internet的貢獻情況,以及國內Internet的使用程度。

中國地區Internet用戶增長狀況如圖2所示[4]。其中橫軸表示年份,縱軸表示用戶量,單位為百萬。

中國擁有423萬個網站和2123億個網頁,其每年的增長情況如圖3所示。其中橫軸表示年份,縱軸左側表示網站的增長情況(單位:百萬),右側表示網頁的增長情況(單位:十億)。絕大多數網站使用漢語,僅有少量使用英語,這為歐美國家的用戶訪問增加了難度,幸好隨著Google翻譯等軟件的逐漸成熟,對解決因語言障礙問題而引起的用戶訪問困難起到了很大的幫助。

目前大多數文獻僅從用戶量、網站和網頁數量等統計性特征分析了對中國地區Internet的情況,很少有從采集角度對內容層面的特征進行深入分析。本文首先使用對比分析的方式對中國地區Internet資源特征進行總結,然后探討了利用RSS和網絡資源監控軟件采集中國地區Internet網站的可能性。

2 中國地區Internet特性分析

中國地區Internet內容的采集受一系列因素的影響,包括:網站及網頁數量,區域分布,語言和編碼, web文檔數據格式、報紙、新聞機構、教育和科研機構門戶網站,開放出版物,社交網絡等。文獻[1-4]已對這些因素進行了分析,在此不再贅述。然而網站內容的訪問往往并不是通過直接輸入URL地址實現的,而是依賴于搜索引擎及網站的索引。而不同搜索引擎在不同國家地區Internet覆蓋情況取決于搜索引擎所屬國家、托管網站搜索國家以及網站的類型(如商業、政府、組織、大學網站等)[5,6]。文獻[7,8]提出了對搜索引擎索引的評價及其可視化方法。鑒于現有研究成果,在對中國地區Internet特性進行分析師,除合理使用文獻提供的數據外,還應將中國地區Internet與其他國家地區Internet 進行比較,使用對比的方法發現中國地區Internet不同于其他國家和地區的獨特特性。

2.1 網站數量

由文獻[4]提供的數據可知,2010年底中國地區網站總量為191萬,到了2015年底網站數量達到423萬。中國不同區域網站分布情況如圖4所示。其中橫軸表示區域,縱軸表示網站數量。由圖可知,廣東省的網站數最多約67.1萬,占總量的15.9%,而西藏的網站數最少僅為1000。

截止2016年9月全球網站總數為10.8億,根據Web服務器的監測顯示其中活躍的網站數量約為1.73億。由此可以看出,中國地區網站僅占世界活躍網站總數的2.4%左右。而國土面積遠小于中國的烏克蘭地區,其擁有網站532萬,占世界活躍網站總數的30.7%左右。

2.2 網頁數量

2006年5月搜索引擎baidu為用戶提供了超7.4億次網頁訪問,而到2015年底網頁數量達到了2123億。中國各地區網頁的分布情況如圖5所示,其中橫軸表示區域,縱軸表示網頁數量。由圖可知,北京市網頁數量最多遠超850億(其中靜態網頁500億,動態網頁340億),青海網頁數量最少約為3400萬(其中靜態網頁2000萬,動態網頁1300萬)。全國超2120億的網頁中,靜態網頁1310億,動態網頁800億,兩者的比值約為1.63。具體到中國某區域時,這一比值分別從重慶的4.3和江蘇的3.19,到寧夏的0.37 和新疆的 0.5不等。

2016年9月,全球被搜索引擎列入索引的網頁數量不少于47.2億[9]。2005年全球被編入索引的網頁數量約為115億,而2015年編入索引的網頁數量超過3045億[10]。

2.3 網頁更新頻率

中國各區域網頁更新周期如圖6所示,其中橫軸表示區域,縱軸表示網頁更新比例。不同顏色代表不同更新周期,其中青、紅、黃、藍、紫分別表示更新周期為周、月、3個月、半年以及半年以上。由圖6可知,每周更新的網頁占比最大的省份是甘肅省約為10.2%,而超6個月更新的網頁占比最大的省份是海南約為22.6%。不同周期網頁更新比例的平均值分別為:4.5%、24.4%、33%、27.6%和10.5%。

利用Google系統高級搜索接口獲取的數據,繪制全球網頁更新周期如圖7所示。僅有0.23%的網頁更新周期為一天,1.5%的網頁更新周期為一周,而80%以上的網頁更新周期超過一年。

2.4 網頁語言endprint

中國各區域網頁使用的語言字符集如圖8所示,其中橫軸表示區域,縱軸表示網頁占比。不同顏色代表不同語言,其中青、紅、黃、藍分別表示中文、方言、英語和其他語言。

借助于Google和Bing對.com和.cn域名使用的語言進行評估,全球Internet存在約5億.cn和約1億的.com域名的網頁使用中文,超700萬.cn域名,超50億應用.com域名的網頁使用英語,超5000萬.cn和超30億.com域名的網頁使用德語,超1000萬.cn域名和約5億.com域名的網頁使用法語。

2.5 網頁格式

中國網站的網頁和媒體應用的數據格式如圖9和圖10所示。由圖可知,中國doc格式文件遠超PDF格式文件,而2013年全球Internet中pdf格式文件是doc和docx文件的6倍。圖11展示了pdf、doc/docx、rtf、txt等格式在Web文件中的占比。

2.6 社交網絡應用

中國各類社交網絡,如微博、QQ、人人、朋友、豆瓣的用戶比例如圖12所示。借助Google和Bing對各類社交網絡特性的評估如圖13所示。圖例中不同的顏色依次代表簡體中文、繁體中文、英文、德文、法語、其他語言網頁的數量,以及近24小時、一周、一個月、一年內的網頁數量。

借助Google和Bing對全球范圍內典型社交網絡Twitter和Facebook的評估如圖14所示。通過圖13和圖14的對比可知,中國的社交網絡被搜索引擎評估的網頁數量以千萬計,而在全球社交網絡被搜索引擎評估的網頁數量以億計,遠超中國的數量。

2.7 搜索引擎

Baidu.com 成立于2000年并在2004年成為中國頭號搜索引擎。通過其處理的請求數量占全球搜索總量的18%,僅次于Google。2006年百度向用戶提供超過7.4億網頁、8000萬圖像和1000萬媒體文件的檢索。

2015年12月搜索引擎擁有5.66億用戶,躋身中國Internet第二大常用的基本應用。其中Baidu搜索系統用戶使用量約為91.2 %,手機端用戶90.3 %。其后為Soso/Sogou搜索系統用戶使用量約為45.8 %,360搜索系統用戶使用量約為38.6 %,Google搜索系統用戶使用量約為27.4 %。

2.8 科技文獻資源

中國地區各類提供科技文獻資源中,最突出的是Baidu學術和CNKI。

Baidu學術創立于2014年,以百度搜索系統為基礎。至2014年底 Baidu學術收錄了數十萬科學網站并索引上億出版物,提供對國際和國內資源的免費訪問。截至2014年底,Baidu學術服務每天的訪問量達到800萬。其中約20%的請求為英文。

CNKI是由清華大學和其他單位支持的國家級信息集成重點項目。目前CNKI提供一整套中國知識庫系統,包括:雜志、博士論文、研究生論文、文獻、報紙、年鑒、統計年鑒、電子書、專利、標準等。其資源在中國各地被各大學、科研機構、政府、智庫、企業和公共圖書館廣泛使用。CNKI在全文學術資源、軟件數字化和知識管理領域整合新的內容并開發了新的產品。CNKI目前成為中國規模最大、應用最廣的在線數字圖書館。

3 Internet資源采集

RSS (Rich Site Summary,豐富站點摘要),用于頻繁變動信息的發布,是一項用戶定制感興趣網頁更新的技術。2004年RSS源數量僅為30.7萬,到2016年Feedage.com目錄收錄的RSS源超過31億。2005年約有30%的用戶采用RSS源[11]獲取內容,截至2008年這一比例增至50 %。

文獻[12] 研究了Web 2.0技術,如社交網絡、wiki技術、博客、RSS、即時通訊和編目功能在中國頂尖38所大學圖書館的應用。結果顯示,RSS應用頻率排名第二,約有55%的大學圖書館使用該技術。大學圖書館最常采用RSS的三個基本功能:一是,向對圖書館感興趣的讀者提供信息通知,推送圖書館新聞與事件、新書追蹤等信息;二是,個人使用圖書館的信息通知;三是,專題信息聯合。這三類功能需要不同級別的技術支持,所以大多數圖書館僅提供RSS源的部分功能,只有上海大學圖書館同時提供這三項功能。

文獻[13] 研究了Web 2.0技術在北美、歐洲和亞洲120個圖書館的應用情況。結果顯示,在所有被分析的120個圖書館網站中,通過RSS源進行信息傳播的學校網站中,北美有28個(約占70%),歐洲與亞洲分別為17和15個(占比分別為43%和37%)。RSS源在三個地區大型圖書館中的平均應用率約為50%,在Web 2.0應用排行榜中,緊跟微博之后位列第二。美國使用RSS技術的比例最大,在100所科技圖書館97 %使用了該項技術。

中國及全球其他地區RSS源的使用情況如圖15所示。由圖可知全球過半的圖書網站使用RSS源,該比例超過亞洲各國平均使用率,卻低于歐美平均使用率。

3.1 數據源分類

為評估利用RSS源采集中國地區Internet網站信息,將Internet網站資源分為以下幾類:報紙門戶網站、新聞門戶網站、高校和院所網站、國家機構網站、法律信息網站。對每類網站我們根據Alexa排行榜選出前20位的網站進行評估。結果表明,多家頂尖報社及新聞門戶網站以及文獻[12,13]中列出的大型圖書館網站,均利用RSS源進行信息傳播。此外中國報社網站分析表明,約有40 %的中文網站和50 % 英文網站使用RSS進行信息傳播。約60 % 的中文新聞門戶網站和約70 % 的英文新聞門戶網站應用RSS傳播信息。

3.2 微博應用分析

文獻[2]對微博和Twitter兩個社交媒體進行了對比分析,該文獻首先從兩個社交媒體中挑選50個熱門話題的關鍵詞,然后計算包含關鍵詞的熱門話題出現頻率。結果表明,微博中每個關鍵詞出現的平均時間約為6小時,每個主題出現的時間分布符合冪規則,這表明這些熱門話題中只有少數主題具有長期流行的特點。而Twitter中推特每個關鍵詞出現的平均時間約為20-40分鐘,其主題時間分布與微博相似。兩者在關鍵詞出現時間上的區別說明微博上具有競爭力的話題要少于Twitter。endprint

為更進一步分析微博的特征,本文對近1小時的關鍵詞進行抽取,所得到5天內的關鍵詞變化曲線如圖16所示。其中橫軸表示關鍵詞,縱軸表示信息量。我們以口袋妖怪和快樂大本營兩個關鍵詞為例說明微博的特征。微博中關鍵詞口袋妖怪在2016年7月22日14:00和2016年7月23日4:00出現的次數分別占據top-50排行榜的第18位和第9位,信息量分別為1萬和16萬。關鍵詞快樂大本營在在2016年7月22日15:00和2016年7月23日9:00出現的次數分別占據top-50排行榜的第47位和第2位,信息量分別為2萬和20萬。

基于百度和Google的搜索服務,對兩個關鍵詞的搜索量變化情況進行分析。圖17繪制了兩個關鍵詞的搜索變化情況,由圖可知兩個關鍵詞的搜索變化極大。

4總結

在采集中國地區Internet網絡資源時需要考慮其獨特的特性,如網站及網頁數量;更新周期與語言;網頁格式;報紙、新聞門戶網站的流行性評估;中國社交網絡應用數據等。通過研究總結中國地區Internet資源的主要特性有:

(1)網絡資源與用戶數量增長速度超互聯網全球范圍的水平;

(2)擁有自己的社交媒體,更新總量超全球范圍內同類別社交媒體;

(3)擁有自己的搜索引擎百度、搜狗等,這些搜索引擎在中文搜索領域擁有絕對優勢,并顯著占據中國市場;

(4)目前RSS源應用相對較少,但RSS源應用呈上升趨勢,尤其是在移動端。

參考文獻:

[1] Deans P.C., A framework to understanding social media trends in China, The 11-th Internation. DSI and APDSI Joint Meeting, Taipei, Taiwan. July 2011:12-16.

[2] Yu L., Dynamics of trends and attention in chinese social media, arXiv preprint arXiv:1312.0649, 2013:1-17.

[3] Bolsover G., Social Foundations of the Internet in China and the New Internet World: A Cross-National Comparative Perspective, Oxford Internet Institute, University of Oxford, 2013:1-22.

[4] 37次中國互聯網絡發展狀況統計報告,2016

[5] Vaughan L., Equal representation by search engines? A comparison of websites across countries and domains, Journal of Computer-Mediated Communication, 2007:888-909.

[6] Vaughan L., Search engine coverage bias: evidence and possible causes, Information processing & management,2004:693-707.

[7] Ordu?a-Malea E., The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories, Scientometrics,2015:829-846.

[8] Ordu?a-Malea E., Methods for estimating the size of Google Scholar, Scientometrics,2015:931-949.

[9] Bosch A.,Estimating search engine index size variability:a 9-year longitudinal study, Scientometrics,2016:839-856.

[10] Gulli A., The indexable web is more than 11.5 billion pages, Special interest tracks and posters of the 14th international conference on World Wide Web. ACM, 2005:902-903.

[11] Ma D., Use of RSS feeds to push online content to users, Decision Support Systems,2012:740-749.

[12] Han Z., Web 2.0 applications in top Chinese university libraries, Library Hi Tech,2010:41-62.

[13] Si L., An investigation and analysis of the application of Web 2.0 in Chinese university libraries, The electronic library, 2011: 651-668.endprint

猜你喜歡
搜索引擎網頁數量
統一數量再比較
基于CSS的網頁導航欄的設計
基于URL和網頁類型的網頁信息采集研究
網頁制作在英語教學中的應用
網絡搜索引擎亟待規范
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫療搜索引擎的研究與開發
10個必知的網頁設計術語
廣告主與搜索引擎的雙向博弈分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合