?

基于機器學習的大數據平臺管理系統設計

2024-03-25 03:50袁帥臣
科技創新與應用 2024年8期
關鍵詞:大數據平臺時間序列監控系統

袁帥臣

摘? 要:伴隨互聯網技術的快速發展,網絡業務和互聯網流量數據呈現爆發式增長,進而影響互聯網大數據分析平臺,產生數據量和運維環境的變化,沖擊傳統的大數據平臺運維模式和數據技術方案。該文在總結機器學習在大數據分析平臺運維觀眾的應用的基礎上,分析聚類方法和回歸算法的特征,提出基于機器學習的大數據平臺智能化運維系統設計和監控系統設計方法,為平臺運維人員監控、排查和修復等問題提供便利。

關鍵詞:大數據平臺;機器學習;系統設計;監控系統;時間序列

中圖分類號:TP311.13? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)08-0110-04

Abstract: With the rapid development of Internet technology, the growth of network business and Internet traffic data is explosive, which affects the Internet big data analysis platform, resulting in changes in data volume and operation and maintenance environment and having impact on the traditional big data platform operation and maintenance mode and data technology scheme. On the basis of summarizing the application of machine learning in the operation and maintenance audience of big data analysis platform, this paper analyzes the characteristics of clustering method and regression algorithm, and puts forward the design method of intelligent operation and maintenance system and monitoring system of big data platform based on machine learning, so as to provide convenience for platform operation and maintenance personnel monitoring, troubleshooting and repair.

Keywords: big data platform; machine learning; system design; monitoring system; time series

在大數據背景時代,計算機技術及人們的學習方式發生了巨大變化,網絡系統及信息共享的擴展性和共享性不斷改進,也對網絡安全和傳統大數據平臺帶來挑戰。我國互聯網網民超過8億,其中網絡普及率也超過60%,網絡成為人們生活、工作及學習不可或缺的一部分。伴隨不斷升級和改造的互聯網基礎設施,使得人工智能、醫療健康及投資風控等應用場景出現在數據平臺中,網絡環境的安全問題越來越影響人們生活,網絡環境復雜多變,網絡犯罪也更加嚴重,可見,互聯網的發展也促進各國積極管理和應對網絡風險及安全策略,對傳統的大數據平臺及監控體系提出了巨大挑戰。

劉雷等[1]以云南省政協大數據平臺建設為例,介紹平臺的建設內容和實施方案,重點對大數據平臺在政協背景下的關鍵內容進行較為詳細的梳理。付鵬[2]闡述了大數據背景下計算機網絡安全防范的重要性,分析了大數據背景下計算機網絡安全存在的問題,并進一步針對加強計算機網絡安全防范提出了有效措施。文聰敏等[3]針對當前軟件需求變更日漸增多但管理效率低下的現狀,總結了大數據平臺的特點,針對大數據平臺的計算能力和成本,提出了基于需求自動同步更新的管理系統,并從總體設計、需求數據庫以及數據處理流程三個方面對其進行了闡述。白益洋等[4]通過二維碼及信息化大數據平臺精準錄入人員身份,進而實現住院醫師規范化培訓教學的體系化管理,同時依據實時生成的考核數據對教學質量進行監控和反饋,達到對住培教學活動的良性互動和閉環管理。蘇健淵等[5]通過使用人工智能、大數據等前沿信息技術,搭建實訓基地智能化管理系統,將實訓基地管理、維護、建設等多元信息集于一體,滿足實訓基地復雜化、多元化的管理要求,真正實現實訓基地的智能化管理,優化實訓基地運行機制,提升實訓基地的管理效率和水平。張燕[6]以消防防控為研究對象,提出了一種多網融合的消防大數據平臺。大數據平臺的建設促進人們的學習方式改變,以機器學習為代表的人工智能技術為電力系統安全穩定的發展提供新的思路[7]。徐楚原[8]分析了大數據技術的應用現狀,提出了環保智慧時代背景下機器學習的未來發展方向,旨在推動數據處理算法在生態環境領域的研究和應用,提高各類環境數據的處理效率。黃穎祺[9]針對最為關鍵的電能數據異常診斷難題,提出負荷回歸分析預測、基于神經網絡的負荷預測、聚類分析和基于投影方法4種異常檢測方法,并對4種方法的準確性和有效性進行計算。王照翻等[10]以萬寧海域為例,研究了多光譜遙感數據與多類型機器學習算法的淺海水深反演方法,把機器學習算法應用海浪效應的評價。

綜上所述,大數據技術平臺、機器學習及信息技術在網絡安全、人員身份識別及生態環境領域應用較多,大數據的發展促進了人工智能技術的發展,基于機器學習及互聯網技術應用大數據平臺建設,為運維人員提供便利。

1? 時間序列聚集理論

時間序列是基于數理統計學和隨機過程理論,進一步研究隨機數據序列所遵循的統計規律,因此,時間序列分析被認為是一種動態數據處理的統計分析方法?;趧討B數據處理可以解決實際問題,目前時間序列分析的方法一般包括自相關分析和譜分析方法,模式識別是時間序列聚集應用的主要模式之一,常被用于發現數據集頻繁出現的規律,比如在金融領域進行時間序列聚集分析,可以提供分析股票走勢,通過股票走勢可以得出相似金融企業的股票趨勢,不同股票趨勢的對比進而發掘企業之間的相互聯系。時間序列聚集最為常用的是相似性度量,基于特定的時間序列和原始數據表示特征計算。

2條時間序列之間的距離為

dist(Fi,Fj)=∑dist(fit,fjt),

式中:T為時間,f為各時間點之間的距離,F表示長度為T的時間序列。時間序列聚集包括基于時間相似性的聚類、基于形狀相似性的聚類、基于結構相似性的聚類和基于時間序列長度的聚類4種類型。其中,時間序列的表示特征、長度特征影響著時間序列的距離計算,另外噪聲、振幅平移、振幅伸縮、時間軸伸縮、線性漂移及不連續也影響時間序列距離,距離具體的計算方法,如圖1所示。

由圖1可知 ,時間序列距離的計算與目標、長度層面和類型有關。其中類型從3個方面展開,即基于時間類型、形狀類型和模型,基于模型的方法計算,把相似的時間序列定義為產生相似的模型,因此在大數據平臺構建過程中,通過比較模型之間的相似性可以達到時間序列聚類的目的。目標方面基于時間相似性、形狀相似性和結構相似性,時間相似性是強調每一個時刻點開始計算的,在具體的應用中歐式距離更加適合大數據平臺中的時間序列聚類,但缺點是計算非常耗時,采用的原始序列,一般采取小波變換或傅里葉變換,最后對變換后的序列聚類;而形狀相似性的聚類在序列時間點上模式對于形狀相似性不重要,往往運用彈性方法中的動態時間規整進行相似計算,其中形狀特征包括全局特征和局部特征。

長度層面從形狀層面和結構層面進行計算。經典的統計分析是基于假定數據序列具有獨立性開展的,但是時間序列分析更加側重研究對象和研究數據序列的互相依賴關系。其中,形狀層面計算采用相似性計算,通常是基于短時間序列聚類,另一方面結構層面是基于高級結構和全局的相似性為出發點,主要采用長時間序列數據計算,時間序列聚類算法如圖2所示。

2? 大數據平臺原始數據采集分析系統設計

基于統計學原理方法,對大數據平臺原始數據采集分析系統進行研究,深入分析網絡設備,進一步找出異常設備,及時反饋設備運維人員。大數據平臺原始數據采集分析系統基于時間序列聚類算法,充分利用相似性流量的網絡設備進行聚類,采取時間序列聚集理論,在進行決策依據時,通過增加的負載均衡器及數據之間的傳遞,降低數據負荷。從而為大數據采集服務器入口增加與之對應的負載均衡器。

目前現有的平臺網絡流量采集系統的架構如圖3所示。主要由3個模塊組成,即不同用戶采集模塊、網絡中間采集模塊和存儲分析數據模塊。

由圖3可知,不同用戶單元模塊為大數據平臺的原始數據輸入模塊,主要作用是采集各企業用戶的日常真實網絡流量,每日只要有流量訪問,設備就會產生日志信息;而中間的采集設備相當于大數據信息中轉站,負責不同單元用戶信息的處理,然后將處理后的信息轉發平臺,在不同城市區域都分布采集服務器,現有的網絡流量采集系統缺乏對用戶網絡設備的監控和進一步的分析,另一方面網絡設備模式相同的情況下使得用戶在同一時刻處于波峰狀態或波谷狀態,產生較大的流量,導致采集服務器出現性能瓶頸問題,產生資源浪費現象,降低了采集服務器的使用狀態。針對以上出現的問題,在傳統的架構中增加設備流量分析模塊和設備負載均衡模塊,進而提升設備的運行狀態,提升網絡設備的效率,如圖4所示。

由圖4可知,通過一定的聚類,也可以發現異常數據網絡流量,一旦個別用戶設備的流量曲線與其他用戶有較大的差異,大數據平臺則認為設備有異常情況,后臺立刻將異常的信息反饋給運維人員,運維人員通過采集服務及相關幫助即可查明異常原因,從而進行有針對性的維修,運維人員可以針對設備的歷史流量數據進行深入分析,進一步挖掘其網絡流量的模式。

3? 大數據平臺智能化運維系統的設計

3.1? 大數據分析平臺監控指標

大數據網絡流量監控指標主要包含大數據平臺指標和業務指標兩大塊。大數據網絡服務器監控指標和集群指標構成了大數據平臺指標;大數據業務指標類型較多,主要按設備數量、設備類型劃分的網絡流量大小及城市區域劃分的總網絡流量等,其檢測的時間間隔為10 min。大數據服務器的監控指標見表1。

由表1可知,集群檢測監測指標包括CPU、內存、磁盤讀寫等基本指標,還有HDFS、HBASE等大數據相關的監測指標。不同的監測指標,其檢測時間間隔不同,對于監控指標變化較快的,采取間隔時間較短的辦法,監測時間間隔對整個大數據集群有不同程度影響,因此要及時發現和處理不同的監測指標。

3.2? 監控系統設計

周期性監控指標和非周期性監控指標構成了大數據平臺網絡的監控指標。對于含有趨勢性的指標或周期性監控指標要預測指標走勢,對于指標的走勢要實時觀測,探尋規律,發現持續升高的現象要預測指標的設定閾值,及時通知網絡流量運維人員,盡早調查原因,并采取解決措施。

對于特別重要的監控指標,監控人員要收集或查看相關知識,可以采取監督學習的方式進行,依托LIGHTGBM模型,實施實時異常檢測,提升監控的效率,同樣,可以通過時間序列聚類算法進行聚類,對周期性監控指標進行檢測,對于相同類簇的周期性監控指標,訓練一個模型進行檢測,不斷滾動更新每一條監控數據,進而保存歷史監控數據,發現異常數據,及時通知運維人員;而針對非周期性監控指標僅通過設置網絡流量上下限閾值就可以完成本次監控的任務,如圖5所示。

4? 結束語

企業大數據平臺的快速發展離不開互聯網技術,搭建有利于公司運營的大數據辦公平臺對大數據智能化運維至關重要,因此,有效的管理系統對大數據平臺的智能化運維至關重要,從根源上進行數據分析,及時發現大數據平臺設備的異常情況,保證平臺數據采集模塊的平穩運行是關鍵。

通過時間序列模型聚類算法,提取相關模型參數及有用信息,進一步發現不同網絡流量采集設備的行為模式,在網絡流量設備監控中采取波峰波谷錯峰的措施實施采集平臺的負載均衡,提出了基于大數據平臺監控系統設計和大數據平臺原始數據采集分析系統,利用機器學習回歸和分析算法,采取自動分析的模式,能夠快速識別網絡流量中絕大多數相關指標或異常數據,及時告知運維人員,減少網絡流量設備的差錯,進一步滿足大數據管理平臺的指標監控需求,以提高數據處理效率。

參考文獻:

[1] 劉雷,孫賢,朱靖.云南省“數字政協”及大數據平臺探索與實踐[J].科技創新與應用,2022,12(26):32-36.

[2] 付鵬.大數據背景下計算機網絡安全及防范措施分析[J].科技創新與應用,2022,12(2):124-126.

[3] 文聰敏,劉乃新.基于大數據平臺的需求自動同步更新管理系統設計與研究[J].現代信息科技,2023,7(14):7-11.

[4] 白益洋,董晉.基于信息大數據平臺的住培管理系統應用研究[J].現代信息科技,2023,7(11):156-159.

[5] 蘇健淵,梁曉昀,黃民聰.基于大數據平臺的實訓基地智能化管理系統建設[J].石河子科技,2023(2):75-76.

[6] 張燕.基于多網融合的消防大數據平臺系統設計[J].數字技術與應用,2022,40(8):200-202.

[7] 田芳,王曉茹.基于機器學習的電力系統安全評估及控制技術[J].供用電,2023,40(7):3.

[8] 徐楚原.機器學習在生態環境大數據中的應用[J].化工設計通訊,2023,49(8):177-179.

[9] 黃穎祺.基于機器學習的用戶側異常數據診斷研究[J].制造業自動化,2023,45(8):49-55.

[10] 王照翻,馬梓程,熊忠招,等.多光譜遙感數據與多類型機器學習算法的淺海水深反演方法評價[J].熱帶地理2023,43(9):1689-1700.

猜你喜歡
大數據平臺時間序列監控系統
基于大數據的智能停車場管理系統設計
基于大數據分析的智慧倉儲運營支撐平臺設計
基于時間序列的我國人均GDP分析與預測
無線廣播電視安全優質播出的技術分析
中央電視臺高端島3后期制作網絡監控系統的實現
縣級區域雨量站觀測設備監控系統的研究與設計
基于線性散列索引的時間序列查詢方法研究
襪業行業大數據平臺的應用研究
基于Zigbee技術的煤礦井下通風機監控系統設計
基于組合模型的能源需求預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合