?

淺析大數據技術并思考如何在廣播電視臺布局

2021-10-15 03:33
數字通信世界 2021年9期
關鍵詞:分布式計算廣電服務器

李 化

(四川廣播電視臺,四川 成都 610041)

0 引言

數據本質是資源,全球數據總量年增長50%。金融、醫療、互聯網等領域得到廣泛應用,大數據成為國家戰略?;ヂ摼W逐步變成數據源基礎設施,互聯網企業無一不是大數據企業[1]。大數據利用的關鍵現在是:價格、速度、模式;未來是:品質、耐力、技術。大數據的特質不是數據量多少,也不是異構數據種類多,而是異構數據是關聯的,這些數據可以流動起來,跨領域關聯流動才是大數據的精髓。

1 大數據概念

1.1 什么是數據

結構化、半結構化和非結構化數據包括:數字、文本、表格、圖形、圖像、語音、視頻等。

1.2 大數據的度量單位

常用的有:Byte、K B、M B、GB、T B、PB、EB、ZB、YB等。

1 KB=1024 Byte;1 MB=1024 KB;1 GB=1024 MB;1 TB=1024 GB;1 PB=1024 TB(PB級別是學術研究圖書館藏書總量);1 EB=1024 PB(EB級別是人類所講過的話語總和);1 ZB=1024 EB(ZB級別是海灘上的沙子數量總和);1 YB=1024 ZB(YB級別是千個人體內的微細胞總和)。

1.3 日常案例

我們經??梢钥吹桨丛?、季、半年、年度公布的經濟大數據、交通大數據、醫療大數據、消費大數據等。

1.4 思維變革

從小數據時代(隨機采樣、樣本模式),向大數據時代(大數據應用、全數據模式)轉變。

2 大數據平臺

解決大數據存儲和計算,利用大數據分析法即人工智能分析以及開源軟件框架來構建業務應用的大數據平臺。

圖1 業務應用的大數據平臺

2.1 分布式存儲

2.1.1 文件存儲系統(HDFS)

由客戶端、主服務器和數據塊服務器構成。主服務器負責分配存儲位置,數據塊服務器負責存儲數據??蛻舳藢⑽募蟹殖扇舾蓴祿K,每個數據塊為128 MB,客戶端提交數據請求,主服務器為每個數據塊分配三個數據塊服務器及三個數據副本,保證數據冗余。

2.1.2 分布式數據庫(HBASE)

支持大數據集(TB to PB);對HDFS低延時的隨機讀寫;應用廣泛:Facebook,Twitter,Adobe,Mozilla,Yahoo!

2.2 分布式計算

2.2.1 離線任務的分布式計算MapReduce

圖2 離線任務的分布式計算MapReduce方式圖

2.2.2 實時在線任務的分布式計算Spark

對于MAP計算模型,MAP處理的中間結果都存放在磁盤上,這樣磁盤IO開銷大、延時高,對實時性要求較高的場景顯然不理想。改進方案就是將中間結果和最終結果放入內存,計算效率會大大提高,Spark就是根據這樣的原理實現的。

3 大數據分析方法

人工智能分析法包括:計算智能、深度學習和機器學習,構建大數據分析系統最經濟實惠的是利用開源軟件框架進行構建。

3.1 機器學習

包括感知機、K緊鄰、決策樹、邏輯斯蒂回歸、支持向量機和貝葉斯等,要求的硬件環境不高,是進行大數據分析的最重要方法之一。圖3是基于機器學習的大數據分析。

圖3 機器學習的大數據分析方法

3.2 深度學習

有卷積神經網絡和人工神經網絡等方法。需要用相對昂貴的GPU硬件環境,GPU設備計算能力很強,特別適合進行大數據分析。圖4是基于深度學習的大數據分析。

圖4 深度學習的大數據分析方法

3.3 計算智能

計算智能是人工智能的一個重要分支,是一種具有全局優化性能、通用性強、非常適合于并行處理的計算。計算智能有:禁忌搜索算法、蟻群算法、模擬退火算法、粒子群算法和遺傳算法等。

3.4 開源軟件框架

Facebook、Microsoft、Google等巨頭都自己的算法框架;伯克利大學有Caffe、蒙特利爾大學有Theano;此外還有:TensorFlow、Torch、PyTorch等開源框架,都為搭建大數據分析系統作出了積極貢獻。

4 大數據在廣電行業的應用

4.1 國家大數據戰略和數字中國建設

圖5 數字中國建設

4.2 廣電行業大數據戰略發展現狀

國家廣電總局在《新聞出版廣播影視十三五科技發展計劃》(新廣發[2017]150號)中指出“大力推動廣電融合媒體服務云平臺建設”,并強調“針對云計算、大數據等技術在融合媒體網絡與業務的廣泛應用”[4]。

2018年9月,廣電總局發布《廣播電視行業大數據技術應用白皮書》,旨在加強頂層設計,為各級廣播電視臺利用大數據、建設大數據平臺指明了方向,為廣電行業大數據平臺建設和大數據應用開拓了思路[5]。

2018年12月,廣電總局收視綜合評價大數據系統上線,目前系統已匯聚全國超過1.6億用戶收視數據,定期向總局輸出各類節目數據分析周報、月報、重點節目專題報告10 400多份,為節目播出管理和調控提供依據。

2020年8月,廣電總局發布《廣播電視和網絡視聽大數據標準化白皮書》,《白皮書》梳理了國際和國家大數據標準體系的發展現狀,分析了廣電行業大數據的典型特征,結合數據中臺化的技術趨勢,從媒體融合出發,提出了廣電行業大數據標準體系的總體框架,旨在加強廣電行業大數據標準化工作的統籌規劃,指導各級廣播電視臺建立全數據鏈的大數據標準體系,促進媒體融合的進程,為媒體融合發展提供助力[6]。

4.3 廣電行業大數據分類[3]

表1 媒體內容大數據

表2 廣電用戶服務大數據

4.4 廣電行業大數據應用需求

圖6 廣電行業大數據應用需求

4.5 廣電大數據平臺構架[2](見圖7)

圖7 廣電大數據平臺構架

5 如何布局大數據

一要實現數據化。要把人、制作、經營、文化產品等數據保存下來,未來可能產生巨大價值。二要建設自己的大數據管理與應用平臺。從業務出發,量體裁衣,厘清自己的業務形態。三要自己培養大數據理念和數據挖掘的人才團隊。四要做好自己的外部數據儲備。學會通過公共渠道或者數據交換,收集外部數據和戰略數據。五要有數據偵測的能力。需要有創新思維的人隨時思考這些問題,能預估手中的數據價值。六要有開放共享的態度。七要做好數據方面的戰略投資。

6 結束語

研究證明,在媒體深度融合的背景下,5G、AI、VR、AR、4K/8K超高清、高新視頻等新技術在大小屏上的精彩呈現,都離不開大數據的支撐和進一步挖掘。大數據是一種理念的變化,它要求人們要以定量化的思維和方法來思考我們的眼界和文化產品,并用可追蹤的方法進行決策,比如內容生產和廣告投放,這將對省級廣播電視臺未來的發展指明正確方向。

猜你喜歡
分布式計算廣電服務器
同心守“滬”上海廣電人在戰“疫”一線
服務器組功能的使用
探討大數據在廣電新媒體中的應用
理解Horizon 連接服務器、安全服務器的配置
PowerTCP Server Tool
基于云計算的大數據處理與分析綜述
基于云計算的移動學習平臺設計與實現
云計算中MapReduce分布式并行處理框架的研究與搭建
計算機網絡安全服務器入侵與防御
廣電媒體產業化前景的三種期許
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合