?

徐州馬拉松大數據保障應用案例分析

2018-12-04 07:23李旭東蘇莎莎中國電信股份有限公司徐州分公司
江蘇通信 2018年4期
關鍵詞:扇區柵格客流

李旭東 蘇莎莎中國電信股份有限公司徐州分公司

0 引言

當前,全球范圍內掀起一股大數據研究熱潮,各種數據密集型行業都致力于挖掘其中隱藏的價值,以期提升自身的整體水平和行業競爭力。中國電信股份有限公司更是提出了戰略轉型3.0的戰略,著重推進網絡智能化、業務生態化、運營智慧化,為用戶提供綜合智能信息服務,引領數字生態,服務產業轉型升級和社會治理創新。大數據研究就是推進電信3.0戰略轉型的重要方法之一。聚焦電信領域,利用話單數據、套餐消費數據以及基本信息數據等內部和外部獲得的大數據進行系統性和戰略性的管理,可以在客流監控、精準營銷、智慧運維等方面起到十分重要的作用。

在馬拉松、龍舟賽等大型賽事舉辦期間,利用無線話單對用戶進行定位追蹤,可以實現對賽道周圍觀眾分布以及車站、地鐵口、起點終點等重點指定區域客流量的監控,幫助主辦方及時發現客流擁塞、人員擁堵等情況,以便及時做好人員疏散,保證賽場人員安全,防止人員踩踏事故。同時,結合用戶特征模型對現場運動員和觀眾進行分析,分析用戶年齡、性別、愛好、職業、家鄉、熱搜詞、外地用戶駐留天數、出行方式、游玩景區、居住賓館等信息,可以幫助主辦方分析賽事的社會影響力以及經濟效益,為進一步改進賽事舉辦過程中的不足打下堅實的基礎。

1 大數據平臺的需求

基于與賽事組委會的溝通,結合無線大數據的特點和能力,將平臺可以實現的用戶需求分為以下四點:

1.1 重點區域客流檢測

為了保障賽事安全有序舉行,及時疏散重點區域內的觀眾以及運動員,需要實時監控馬拉松比賽起點、迷你馬拉松終點、半程馬拉松終點、全程馬拉松終點附近的客流變化情況,保證在客流人數突然變多的情況下,能夠及時執行相關應急預案。

1.2 賽道沿線人流分析

在馬拉松賽事舉辦期間,賽道沿線會聚集大量的觀眾,隨著比賽的進行,觀眾也會隨著運動員的行進發生一定程度的位移,實時監控賽道沿線人流可以發現觀眾位置的變化情況,為電視直播提供一定的參考依據。

1.3 參賽運動員與觀眾特征分析

對馬拉松賽事的觀眾與參賽運動員的職業、愛好、年齡、性別、歸屬地、熱搜詞進行分析,可以了解賽事的參與者和關注者的特點,為之后賽事的定向精準營銷推廣提供支撐數據,幫助擴大賽事的影響力。同時,也可以根據運動員與觀眾的特征,吸引贊助商的投資。

1.4 外地用戶活動情況分析

馬拉松賽事會吸引周邊地市的觀眾和運動員參與到其中,對外地運動員和觀眾的歸屬地、在本地駐留時長、去過的商場和景點、住宿的賓館、出行的交通方式等進行分析,能夠為組委會分析馬拉松賽事帶來的輻射影響力、社會效益、經濟效益提供重要的依據。

2 大數據平臺開發工具

馬拉松大數據分析平臺利用網頁的形式對賽場當天的情況進行展示,主要分為后臺進行數據分析和前臺進行數據展示兩個方面。平臺后臺數據處理采用Hadoop平臺采集CDMA和LTE的話單數據,利用SQL SERVER結合用戶特征分析模型對采集到的話單數據進行數據分析處理。前臺展示用javascript對可視化展示頁面進行設計,采用Layout框架進行頁面布局,結合echarts中各種圖表和百度地圖中的熱力圖對分析出來的數據進行可視化展示。

3 大數據平臺功能實現原理

無線大數據平臺從用戶需求入手,按照需求分析——話單采集——數據清洗——挖掘分析——產品包裝的五步分析法進行設計。具體流程如圖1所示。

圖1 五步法平臺開發設計流程圖

基于賽事組委會的需求,利用五步法對相關功能予以實現,主要分為以下幾個方面的內容:

3.1 基礎數據確認

根據組委會確認的比賽賽道,利用打點測試的方法確定賽道周邊的無線環境,如圖2所示。

圖2 徐州馬拉松賽道沿線無線環境示意圖

根據賽道沿線的各個采樣點和CDMA以及LTE基站扇區一一對應的關系,得到每個賽道上每個經緯度對應的點覆蓋的基站扇區清單,確定話單采集的CDMA和LTE基站扇區范圍,如圖3所示。根據組委會對實時性的要求,按照5分鐘的時間粒度分別對用戶的1X話單、DO話單以及LTE話單進行采集,得到疑似用戶清單。

圖3 賽道采樣點與基站扇區對應關系

3.2 噪聲用戶清洗

根據基站取到的原始話單,有很多不屬于賽事觀眾和運動員,這些用戶就是噪聲用戶。噪聲用戶主要由以下2個部分組成:

(1)空間維度上的噪聲用戶。由于基站扇區覆蓋范圍較大,僅僅從基站扇區覆蓋范圍來提取的話單數量會遠遠超出賽道區域范圍內的話單數量。對于空間維度上的噪聲用戶,可以利用手機與基站扇區交互信息的三角定位算法,確定某用戶在某一時刻的位置,算法原理如圖4所示。

圖4 三角定位算法原理示意圖

根據定位的誤差在50-100米的范圍內,將賽道區域用50米×50米的柵格來表示,如圖5所示,將落在柵格內的話單提取出來,剔除區域外用戶。

圖5 馬拉松賽道沿線柵格示意圖

(2)時間維度上的噪聲用戶。由于柵格范圍是50米×50米,柵格范圍內會包含長期在這個柵格內的常駐用戶和比賽當天路過該柵格的過路用戶。常駐用戶和過路用戶不在目標用戶的范圍之內,也屬于噪聲用戶。為了清洗掉時間維度上的噪聲用戶,對于比賽當天話單只出現過一次或者首次出現和最后一次出現時間間隔不超過10分鐘的定義為過路用戶。另外,提取比賽開始前一周的扇區話單數據,將一周中有5天時間在某一特定柵格出現過,并且每天出現時間超過5個小時的用戶記錄為常駐用戶。對于常駐用戶,如果比賽當天只在常駐柵格內出現過,那么作為噪聲用戶進行剔除。

3.3 挖掘分析

經過噪聲用戶清洗后,得到目標用戶清單?;谀繕擞脩魵v史話單分析的位置信息、基站場景信息以及時間信息三個維度,結合用戶感知數據、套餐資費、上網行為等數據為用戶建立職業、興趣特征、理財消費、早晚常駐地以及基礎信息五個維度的用戶特征模型。用戶特征模型內容如圖6所示。

圖6 用戶五維標簽特征體系

用戶特征標簽模型的參數主要包括以下幾個部分:

(1)地理維度:覆蓋某一目標區域的室分扇區和有效覆蓋目標區域達到80%以上的室外扇區。

(2)時間維度:根據工作性質不同,判斷一天中在某個時間段中出現N小時以上則當天滿足,一周有M天及以上滿足則當值滿足。

(3)加權統計規范:最近P周加權統計(滿足的周給相應的加權分數),這P周按照時間等因素賦予不同的權重分數,若總分達到門限值要求,則符合特征標簽要求,為用戶添加相應特征標簽。

(4)附加信息來源:結合大客戶套餐信息、用戶感知數據、用戶上網行為、套餐消費數據以及用戶基本信息等進行分析。

(5)更新方式:特征標簽每周根據加權信息進行統計,對于用戶特征標簽進行更新。標簽權重門限值以及權重占比分值會根據屬于該標簽用戶的時間維度參數,作為訓練集,利用聚類算法結合浮動范圍更新N值和M值,同時對于加權統計門限值,也根據訓練集結果,利用聚類算法結合浮動范圍的方法對滿足的門限值進行更新。

(6)標簽數量:若標簽屬于互斥標簽,如職業、常駐地等信息,那么同一用戶取權重最大的標簽;若標簽不屬于互斥的,如愛好特征等,則取權重最大的TOP5標簽。

3.4 平臺設計包裝

信息安全:將涉及到的用戶標識信息進行加密,并在平臺展示中只展示統計性數據,不提供用戶詳單,保證用戶隱私不會泄露。

實時展示:根據組委會需求,需要對馬拉松賽事期間相關情況進行大屏展示。根據相關要求,利用網頁形式結合echarts圖表中的矢量地圖、柱狀圖、餅狀圖、堆積折線圖、字符云和熱力圖,對組委會關心的用戶歸屬地、性別、年齡、愛好、職業、重點區域客流監控、賽道人流分布、特征詞等進行可視化展示。

賽后分析:對賽事影響力的相關分析,包括賽事參與總人數、用戶特征分析,外地參與用戶分布、外地用戶的歸屬地、在本地駐留時長、去過的商場和景點、住宿的賓館、出行的交通方式等分析。

4 馬拉松大數據保障設計實現

4.1 馬拉松大數據監控平臺設計

平臺利用JAVA語言借助Myeclipse開發工具進行開發,采用了Layout架構進行設計。

主要展示功能實現如下:

整體布局:將展示頁面分為6個區域,分為標題欄、客流來源、客流特征、賽道實時人數監控、客流監控、客流喜好6個區域。

功能設計:標題欄展示中國電信LOGO、智慧無線LOGO、大數據智觀、平臺標題、時間以及天氣情況??梢缘谝粫r間讓用戶了解本平臺的用途、開發者和當時的天氣情況。

客流來源:利用矢量地圖展示當前賽場內用戶的歸屬地和柱狀圖,從大到小顯示所有省份人數的統計,人數多少直觀明了。如圖7所示。

圖7 客流來源模塊示意圖

客流特征:利用餅狀圖對賽道內用戶的職業、愛好、年齡、性別進行統計分析,并且兩組數據進行輪播,很直觀地可以看出各類特征所占比例。如圖8所示。

圖8 客流特征設計示意圖

賽道實時人數監控:利用賽道內的點和柵格對應關系,將柵格內的人數吸附到馬拉松賽道之上,根據人數多少用不同的顏色來表示人流密集情況,并實施顯示賽場內用戶總人數。如圖9所示。

圖9 賽道實時人數監控設計示意圖

客流監控:對賽事起點、迷你馬拉松終點、半程馬拉松終點、全程馬拉松終點四個區域的人流量進行監控,并用堆積折線圖對不同時間的人數進行展示,可以展示不同地點人數隨時間變化的趨勢。如圖10所示。

圖10 客流監控模塊設計示意圖

客流喜好:利用字符云的形式對賽場內用戶關注的熱搜詞進行展示,并根據權重大小用不同大小的字體進行展示??梢灾蕾悎鰞扔脩舻年P注熱點。如圖11所示。

創新與發展——大數據、云計算、網信安全及其他新技術

圖11 客流喜好模塊設計示意圖

將各個模塊組合在一起并且對頁面定時刷新,可以實現對賽道沿線用戶的實時監控分析。平臺如圖12所示。

圖12 2017年徐州國際馬拉松電信大數據智觀

4.2 馬拉松大數據分析報告

賽后分析報告是根據客戶需求,對賽事參與總人數、用戶特征分析、外地參與用戶分布、外地用戶的歸屬地、在本地駐留時長、去過的商場和景點、住宿的賓館、出行的交通方式等進行分析,并制作可以供微信,微博等網絡平臺分享傳播的宣傳文案。

5 總結與推廣

本次對徐州馬拉松的大數據分析保障,取得了重大的社會經濟效益,得到了組委會的認可,增強了電信與市政府在大數據方面的進一步合作與交流,打造了電信智能化的品牌效應。同時,本次馬拉松賽事的分析保障也為之后舉辦諸如龍舟賽等其他重大賽事提供了重要的示范參考。

猜你喜歡
扇區柵格客流
客流增多
分階段調整增加扇區通行能力策略
基于鄰域柵格篩選的點云邊緣點提取方法*
城市軌道交通節假日期間大客流行車組織思考與實踐
基于A*算法在蜂巢柵格地圖中的路徑規劃研究
空中交通管制扇區復雜網絡建模與特性分析
空域扇區網絡級聯失效抗毀性及優化策略
U盤故障排除經驗談
基于自學習補償的室內定位及在客流分析中的應用
人工免疫算法在電梯客流時段劃分的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合