?

基于Hadoop的校園網視頻流量訪問偏好分析

2017-01-03 01:29許聞秋雒江濤楊軍超
關鍵詞:校園網流量用戶

許聞秋,雒江濤,楊軍超

(重慶郵電大學 電子信息與網絡工程研究院,重慶400652)

基于Hadoop的校園網視頻流量訪問偏好分析

許聞秋,雒江濤,楊軍超

(重慶郵電大學 電子信息與網絡工程研究院,重慶400652)

針對傳統視頻用戶訪問日志的偏好分析方法存在數據客觀性差和用戶關聯分析困難等問題,在傳統偏好分析方法的基礎上,面向互聯網數據原始流量,提出一種基于主流大數據平臺技術Hadoop的校園網視頻用戶訪問偏好分析方案。該方案利用網絡爬蟲和深度包檢測技術,對視頻訪問內容進行精細化識別,進而研究了校園網視頻流量的訪問偏好,并對比了MySQL和Hive的查詢效率。結果表明,文化層次的差異導致了視頻用戶群體的不同需求,低成本硬件環境下對大數據的處理Hive更顯健壯性。另外,該方案能穩定可靠地實現對校園網視頻流量訪問的偏好分析,捕捉用戶網絡輿情,制訂定向營銷方案并提供個性化視頻推薦服務。經現網測試驗證,設計的視頻訪問偏好分析方案達到了預期的效果。

校園網視頻;偏好分析;Hadoop;網絡爬蟲;深度包檢測

0 引 言

互聯網的發展使得視頻業務占據網絡流量的絕大部分,而通過視頻網站訪問視頻的方式逐漸成為主流[1]?;ヂ摼W視頻流量承載了視頻用戶的訪問數據,對其深度挖掘是用戶偏好分析的一個有效途徑。同時,校園網視頻流量分析將對校園網絡維護、擁塞控制及用戶管理等領域帶來研究價值[2]。視頻訪問偏好分析將有助于捕捉用戶網絡輿情、制訂定向營銷方案,且為個性化視頻推薦提供依據。然而,以視頻用戶訪問日志為主的傳統偏好分析方法存在數據客觀性差,用戶關聯分析困難,用戶相關信息提取不易等問題。

結合深度包檢測(deep packet inspection,DPI)技術的流量識別方法有助于視頻用戶訪問偏好的分析,但精度不高。原因有:①傳統的數據挖掘算法對TB/PB量級的數據存儲和運算存在局限性;②視頻HTTP(hyper text transfer protocol)請求的統一資源定位符(uniform resource locator,URL)無法直接獲取視頻詳細信息[3-4]。為此,融合網絡爬蟲(web crawler)技術并建立視頻網站產品信息庫的視頻流量識別方法能提高分析精度。

本文面向互聯網流量數據,基于Hadoop提出一種通過視頻流量識別與統計從而對用戶訪問偏好進行分析的方案;融合DPI及網絡爬蟲技術,通過分析校園網實時流量,得到不同維度下的用戶訪問偏好,驗證方案可行性并提高分析精確度;與傳統數據庫方法對比,驗證了大數據下Hive的高效性;最后,本文為校園網流量監管、擁塞控制,校園網用戶視頻推薦提供了依據。

1 相關工作

中國互聯網絡信息中心,通過計算機輔助電話訪問和抽樣調查的方法,調研了國內網絡視頻的用戶規模及用戶行為[5]。但是,該方法對參與的人力物力資源配置要求較高,不易實現。艾瑞咨詢通過第3方監測軟件iVideoTracker,收集固定樣本簽約用戶的網絡視頻行為日志,分析了國內主流視頻媒體收視情況及收視人群分布[6]。但是,該方法所需的用戶視頻訪問日志不易獲取,且調研樣本單一,不具有普適性。

文獻[7]提出了一種在Hadoop下執行解析IP(internet protocol),TCP(transmission control protocol),HTTP層MapReduce任務的網絡流量分析方案,驗證了Hadoop下流量分析的可行性。文獻[8]結合DPI技術,提出了一種移動端視頻應用用戶行為分析方案;文獻[9]通過對Web日志挖掘,提出了一種針對移動互聯網視頻用戶的流量分析方法;文獻[10]提出了一種考慮視頻用戶偏好的視頻內容質量評估方法。文獻[11]在Apache Pig,Apache Hive和MySQL集群下,分別對不同大小的數據集進行查詢效率測試,驗證了Hive方法的優越性。然而,上述文獻卻存在用戶訪問信息及用戶偏好提取困難的問題。為此,文獻[12]進一步提出了基于Hadoop的電商網站流量識別與DPI系統,對電商用戶的行為和偏好進行提取和分析。本文應用主流的開源大數據平臺Hadoop,通過MapReduce提供的并行運算編程模型,Hadoop分布式文件系統(hadoop distributed file system,HDFS)提供存儲基礎,Hadoop的數據倉庫Hive實現統計分析[13-17]。結合視頻網站及用戶特點,提出了一個針對校園網視頻流量用戶訪問偏好的分析方案。

2 視頻流量訪問偏好分析方案

2.1 視頻流量識別和DPI

本文結合DPI及網絡爬蟲技術,通過解析校園網視頻流量,識別視頻提供商及視頻類別,借助爬蟲建立的產品信息庫,確定視頻具體文件,統計分析視頻用戶訪問偏好。

2.1.1 視頻服務提供商識別

用戶通過視頻網站,向視頻服務提供商的服務器發送一次HTTP請求,服務器隨即回送響應,通過瀏覽器解析響應中的HTML(hyper text mark-up language),得到相應視頻網頁。本文通過解析網頁視頻請求流量,重組HTTP請求,提取視頻關鍵信息,從而實現視頻服務提供商的識別。

本文采用基于特征字匹配的DPI數據包解析方法,通過對在應用層協議頭或應用層負荷中特定位置的視頻特征字段的識別來實現對視頻業務數據包的檢測和解析,從而得到一個包含視頻特征字段與特征值的DPI視頻特征庫。其中,視頻特征值具體包括:數字特征值(視頻ID)、HTTP GET請求中的Host域名特征、Referer特征及URL等字符特征值。

以優酷視頻的特征識別為例,當用戶訪問某視頻時,Host域名(youku)和GET請求URI同時構成了用戶視頻請求HTTP數據包中的Full Request,其中,URI則帶有視頻數字特征,即視頻ID。通過正則表達式匹配同時包含Host域名和帶有“/v_show”和“.html”的校園網用戶GET請求數據包,匹配Host字段,由此識別該視頻請求流量的服務提供商為優酷網。

2.1.2 視頻訪問事件識別

本文應用視頻網站爬蟲技術,根據配置規則,定向抓取特定視頻網站資源,并把抓取結果存儲到視頻網站產品信息庫中。數據包解析得到視頻服務提供商信息和視頻ID,通過與視頻網站產品信息庫匹配,與對應視頻文件建立映射關系。結果錄入數據庫,并將該視頻請求流量轉化為用戶的一次視頻訪問事件。

以優酷網產品信息為例,表1是對優酷網建立的產品信息表,包括:視頻網站、視頻ID、視頻名稱Name、視頻頻道、視頻二級頻道等信息。其余視頻類網站結構及其分析過程與之類似。確認視頻文件后,得到視頻名稱,即“視頻Name”。與優酷網產品信息表匹配,即可辨認對應的視頻類別,其中包括:視頻頻道、二級頻道等相關信息。

表1 優酷網產品信息

2.2 統計與偏好分析

2.2.1 流量識別與DPI

每條時間記錄下用戶視頻訪問事件的累計,能反映群體用戶的視頻偏好。因此,對校園網視頻用戶偏好的分析,通過對視頻流量的識別與DPI,最終被轉化為對視頻訪問事件的統計。

為了能直接統計解析后的網頁視頻請求流量,同時避免對數據庫的重復建表和海量數據操作,本文采用Hadoop生態系統中的數據倉庫Hive作為統計工具。解析后的校園網視頻流量直接存入HDFS,并建立元數據庫存入MySQL中,從而構建數據映射關系。對Hive運行查詢語句(hive query language,HQL),快速簡單地實現MapReduce統計。整個分析過程,同時輸入MapReduce分布式運算模型,最終完成對校園網視頻用戶的偏好統計分析。

2.2.2 數據表建立

用戶視頻訪問事件以文本形式保存在HDFS中。其中,每行代表視頻訪問的一次記錄,每條記錄以行分隔符(“ ”)分隔,每條記錄中的各個字段以逗號(“,”)分隔。Hive通過元數據存儲機制,將HDFS中的文件映射到數據表中,數據表的信息即元數據(metadata),元數據存儲在底層關系型數據庫MySQL中。

鑒于Hive外部表的安全性,能避免誤操作所帶來的損失。本文通過EXTERNAL關鍵字來指定創建外部表;通過LOCATION關鍵字來指定表數據存放在HDFS中的位置;通過STORED AS TEXTFILE指定加載的文件數據是純文本格式;ROW FORMAT DELIMITED關鍵字設置創建的表加載數據時支持列分隔符;COMMENT關鍵字給字段和表注釋。在Hive中創建名為Video的數據庫,并創建外部表VideoTable描述視頻節目識別模塊得到的校園網用戶視頻訪問記錄。

2.2.3 用戶偏好統計分析

對不同性別的校園網視頻用戶進行不同維度的偏好統計。具體包括:不同性別用戶對主流視頻網站、頻道和節目的統計。根據統計結果,給出Top-N視頻推薦列表,并分析校園網流量視頻用戶的偏好。

2.3 MapReduce并行運算模型

圖1是MapReduce提供的并行編程運算模型,通過分發任務,解析網絡視頻流量,完成校園網視頻用戶訪問偏好的統計和分析。

2.3.1 Job 1視頻服務提供商識別

從HDFS中讀取PcapIputFormat格式的Pcap數據包,同時,Map1的輸入為格式。其中,每個數據在文件中的偏移量為鍵,數據報文為值。通過視頻用戶HTTP請求內容,得到五元組相關信息,其中包括:源IP地址、目的IP地址、源端口號、目的端口號、傳輸協議類型,用于判定是否來自同一個視頻請求數據流。重組用戶HTTP請求,提取用戶請求URL。采用正則匹配得到GET請求中同時包含的用戶視頻請求時間、請求端口號、網站Host以及視頻ID。形成以用戶視頻請求時間和端口號為key、以用戶請求Host和視頻ID為value的Reduce1輸出,其中,Host字段完成對視頻服務提供商的識別。

圖1 MapReduce編程模型Fig.1 MapReduce programming model

2.3.2 Job2視頻文件確定

通過視頻Host和ID,與視頻網站爬蟲信息庫進行匹配,確定視頻文件,包括:視頻名字Name、視頻頻道和視頻類型等。依據校園網規劃,宿舍樓棟號與網絡端口號一一對應,從而獲悉用戶性別信息。最終得到以用戶性別為key、以視頻對應具體信息為value的Reduce2輸出。

2.3.3 統計與偏好分析

Hive將HQL轉化為對應MapReduce任務,查詢和統計HDFS中的數據,最終實現校園網視頻用戶不同維度下的偏好統計及視頻Top-N推薦列表。

3 實驗結果與分析

3.1 實驗環境與數據采集

Hadoop集群實驗平臺搭建在單位網絡中心,該集群硬件配置:普通雙核CPU的PC機,其中一個NameNode配備8 GB內存和500 GB硬盤,5個DataNode均配備4 GB內存和500 GB硬盤,交換機連接各節點;軟件配置:Hadoop 1.1.2、Hive 0.9.0,MySQL 5.1.73和 JDK1.7.0_45。數據采集配置Hcap-224F千兆采集卡。

實驗隨機抽取校園內5幢學生宿舍作為流量數據采集對象,對照校園網網管中心機房端口映射關系,將采集數據保存為pcap格式離線文件。數據采集時間從每天8:00—24:00,2013年12月9日至2013年12月12日,總計采集校園網流量數據2 020 GB。

3.2 實驗結果

3.2.1 校園網視頻訪問偏好分析

通過Hive統計不同維度下校園網視頻用戶的訪問偏好,與國內同期發布的權威報告相關數據和結論對比,分析了校園網用戶的視頻偏好特點。

圖2是校園網用戶對主流視頻網站的偏好統計。男生偏好優酷網,其次是土豆網、搜狐網和樂視網,最后是迅雷看看。女生同樣偏好優酷網,其次是搜狐網和樂視網,二者幾乎持平,接著是愛奇藝,訪問量明顯高于男生,最后是迅雷看看。

圖2 視頻網站偏好統計Fig.2 Video website preference statistics

圖3是校園網用戶對視頻頻道的偏好統計。男生視頻頻道Top-5:生活、新聞資訊、娛樂音樂、原創和動漫;女生視頻頻道Top-5:電視劇、綜藝、教育、電影和動漫。區別于文獻[6]中電影、電視劇、綜藝節目名列前三的結果,反映了校園網視頻用戶對頻道選擇的差異性。

表2是校園網用戶對視頻節目的偏好的Top-10排序。文獻顯示國內同期大眾視頻頻道偏好依次為:電視劇、電影、綜藝節目和動漫節目[1,5-6]。電視節目偏好依次為:劇情劇《大丈夫》、愛情劇《來自星星的你》和喜劇《天真遇到現實》。通過與校園網流量視頻用戶偏好分析對比,可以看出,由于受教育程度、文化水平、用戶年齡的不同,造成校園網用戶群體對視頻的偏好與需求的差異。校園網流量視頻用戶的偏好特征:首選優酷網,偏愛電視劇或綜藝節目,并且男女生反映出較大偏好差異。

圖3 視頻頻道偏好統計Fig.3 Video channels preference statistics

排序男生節目偏好女生節目偏好1永不磨滅的番號咱們結婚吧2萬萬沒想到爸爸去哪兒3最美的時光繼承者們4火影忍者妖精的尾巴5航海王女人幫妞兒6初代吸血鬼普通話朗讀作品7康熙來了最美的時光8My盛Lady極品女士9咱們結婚吧RunningMan10性愛大師聽見你的聲音

對群體用戶偏好和需求的分析,需要識別和統計群體內各個用戶的特征。面向群體的不同興趣或偏好分布,不僅為用戶提供個性化服務,還能為內容提供商提供定向策略的依據。通過以上分析,驗證了本文所提方案對于視頻用戶訪問偏好深度挖掘的可行性和有效性。

3.2.2 Hive和MySQL查詢效率對比

查詢效率受3個方面影響:①數據集大小(有多少行);②查詢語句;③查詢平均時間。為驗證Hive統計在本文實驗環境下的高效性,本文設計以下實驗:利用3個不同大小的數據集,在相同MapReduce編程模型下,分別在Hive和MySQL上執行相應的7條查詢語句,每條查詢語句執行5次并記錄平均執行時間,對比查詢效率。

MySQL平均查詢時間隨著數據量的增長驟然增加。存儲引擎結構以及查詢執行機制從根本上限制了MySQL的查詢效率。MySQL通過主鍵方式訪問數據,查詢語句執行需要所有數據節點參與數據檢索。當跨越數據節點訪問MySQL服務器和各表數據時,獲取所有數據節點數據會造成網絡接入延遲。

Hive查詢數據以分布式、cvs格式純文本文件存儲在HDFS中,不同于MySQL數據存儲于查詢機制,Hive只需對作為主鍵的元數據進行存儲調度,并指定文件存儲位置。查詢時僅讀取文件索引,而非整個文件,使Hive快速查詢得以實現。

圖4對比了MySQL和Hive的平均處理時間,數據量越大,MySQL占用內存越多,處理效率越低。在本實驗環境下,約在69.6 MB數據量時,二者查詢效率出現轉折點,Hive逐漸顯現出查詢優勢。驗證了在低成本硬件設備環境下,對于大數據的處理,Hive比MySQL的查詢效率更高、健壯性更好。

圖4 MySQL和Hive平均處理時間Fig.4 Mean processing time of MySQL and Hive

4 結束語

本文面向互聯網數據原始流量,提出了一個基于Hadoop的校園網視頻流量訪問偏好分析方案。它利用網絡爬蟲和深度包檢測技術,完成了主流視頻網站產品信息庫的建立、視頻訪問事件特征提取和識別,最后利用Hive數據庫完成了偏好統計分析,并對MySQL和Hive查詢效率進行對比。結果表明,由于文化層次的差異,不同用戶群體的視頻需求存在較大的差異性;在低成本硬件設備環境下,對于大數據的處理,Hive比MySQL查詢效率更高,隨著數據量的增大,Hive有更好的健壯性。本方案能穩定、可靠地實現校園網視頻流量訪問偏好分析,將有助于捕捉用戶網絡輿情、制定定向營銷方案以及提供個性推薦服務。

在未來實際應用工作中,還可對硬件環境進行改善,執行更復雜的查詢語句。對除MySQL外的關系型數據庫,如Oracle,聯合Hive,Pig等Hadoop統計模型,進行相關性能的測試,以便使分析結果更接近實際。

[1] 中國互聯網絡中心. 第36次中國互聯網絡發展狀況統計報告[EB/OL]. [2015-07-01]. http://www.cnnic.net.cn/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf. CNNIC.The 36th Report of China Internet Network Development State Statistic[EB/OL].[2015-07-01].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.

[2] WU Haitao,FENG Zhenqian, GUO Chuanxiong, et al. ICTCP: Incast congestion control for TCP in data-center networks [J]. IEEE/ACM Transactions on Networking (TON), 2013, 21(2): 345-358.

[3] ZHAO D, TRAORE I, SAYED B, et al. Botnet detection based on traffic behavior analysis and flow intervals[J]. Computers & Security, 2013, 39: 2-16.

[4] RICHARD S W. TCP/IP Illustrated Volume 3: TCP for Transactions, HTTP, NNTP and the UNIX Domain Protocols [M]. USA: Addison-Wesley, 2002:129-165.

[5] 中國互聯網絡中心. 2013年中國網民網絡視頻應用研究報告[EB/OL]. [2014-06-09]. http:// www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm. CNNIC. 2013 Study Report of Chinese Internet Video Network Users Applications[EB/OL]. [2014-06-09]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm.

[6] 艾瑞咨詢. iVideoTracker視頻媒體用戶行為分析報告[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml. I Research. IVideoTracker Video Media User Behavior Analysis Report[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml.

[7] LEE Yeonhee, LEE Youngseok. Toward scalable internet traffic measurement and analysis with hadoop [J]. ACM SIGCOMM Computer Communication Review,2013,43(1):5-13.

[8] FUKUMOTO Norihiro, ANO Shigehiro, GOTO Shigeki. A practical behavior analysis of video application users on smart phones[C]// Computer Software and Applications Conference (COMPSAC), 2013 IEEE 37th Annual. Kyoto: IEEE, 2013: 288-289.

[9] YAMAKAMI T. Mobile video user revisit analysis based on multi-day visiting patterns [C]// Advanced Communication Technology (ICACT), 2010 The 12th International Conference on. [s.L.]: IEEE, 2010, 2: 1435-1439.

[10] RODRIGUEZ D, ROSA R, ALFAIA Costa, et al. Video quality assessment in video streaming services considering user preference for video content [J]. Consumer Electronics, IEEE Transactions on, 2014, 60(3): 436-444.

[11] FUAD A, ERWIN A, IPUNGH H. Processing performance on Apache Pig, Apache Hive and MySQL cluster[C]// Information, Communication Technology and System (ICTS), 2014 International Conference on. Surabaya: IEEE, 2014: 297-302.

[12] LUO Jiangtao, LIANG Yan, GAO Wei, et al. Hadoop based Deep Packet Inspection system for traffic analysis of e-business websites[C]// Data Science and Advanced Analytics (DSAA), 2014 International Conference on. Shanghai:IEEE, 2014: 361-366.

[13] Apache. Hadoop[EB/OL]. [2015-09-30]. http://hadoop.apache.org.

[14] WHITE T. Hadoop: The definitive Guide. [M]. 2nd. USA: O’Reilly, 2012.

[15] LUO Yifeng, LUO Siqiang, GUAN Jihong, et al. A RAMCloud storage system based on HDFS: Architecture, implementation and evaluation [J]. The Journal of Systems and Software, 2013, 86(3): 744-750.

[16] Apache. Hive.[EB/OL]. [2015-10-01]. https://cwiki.apache.org/confluence/display/Hive/Home

[17] CAPRIOLO E, WAMPLER D, RUTBERGLEN J. Hive Programming [M]. USA: O’Reilly, 2013.

許聞秋(1990-),云南昆明人,女, 碩士研究生,主要研究方向網絡流量分類與識別、數據挖掘。E-mail:xuwenqiu_xenia@163.com。

雒江濤(1971-),男,教授/博導,主要研究方向為新一代網絡技術和移動互聯網數據挖掘。E-mail:luojt@cqupt.edu.cn。 楊軍超(1988-),男,博士研究生,主要研究方向大數據。E-mail: 262256660@qq.com。

(編輯:魏琴芳)

Hadoop based analysis of access preference for campus video traffic

XU Wenqiu, LUO Jiangtao, YANG Junchao

(Electronic Information and Networking Research Institute, Chongqing University of Posts and Telecommunications,Chongqing 400065,P.R. China)

There are poor objectivity of data and difficult association analysis in traditional user preference analysis approach with video access log. To solve this problem, the Hadoop based scheme of video user access preference analysis in campus network is proposed by using the original traffic from internet in this paper. The scheme was designed to refine identification of video access content by using the technology of web crawler and deep packet inspection. And the access preference for campus video traffic is analyzed in further. The query efficiency was compared between MySQL and Hive at the same time. The results demonstrate that the difference level of culture leads to the variation of video needs among user groups, and under the low cost hardware environment, Hive is robust for the processing of large data. The scheme is stable and reliable to realize the analysis of access preference for campus video traffic, capturing user network public opinions, working out customized marketing plans and providing service of personalized video recommendation. Through testing in current network environment, the scheme of video user preference analysis proposed in this paper works well as what is expected.

campus network video; preference analysis; Hadoop; web crawler; deep packet inspection

10.3979/j.issn.1673-825X.2016.06.024

2015-09-23

2016-08-31

許聞秋 xuwenqiu_xenia@163.com

重慶市應用開發計劃資助項目(cstc2013yykfA40006);2013重慶高校創新團隊建設計劃(KJTD201312)

Foundation Items:The Application Development Foundation Project of Chongqing (cstc2013yykfA40006); The Innovation Teams Building Program of Chongqing Universities in 2013 (KJTD201312)

TP391;TN929.5

A

1673-825X(2016)06-0897-06

猜你喜歡
校園網流量用戶
冰墩墩背后的流量密碼
張曉明:流量決定勝負!三大流量高地裂變無限可能!
尋找書業新流量
數字化校園網建設及運行的幾點思考
試論最大匹配算法在校園網信息提取中的應用
NAT技術在校園網中的應用
關注用戶
關注用戶
關注用戶
VPN在校園網中的集成應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合