?

基于AI的網絡智能監控研究與應用

2023-12-31 14:16萬宏謀蔡林峰
江西通信科技 2023年4期
關鍵詞:網絡故障網絡流量工單

萬宏謀 劉 兵 蔡林峰 王 榮

1中國電信股份有限公司江西分公司云網運營部 南昌市 330029

2中國電信股份有限公司江西分公司云網發展部 南昌市 330029

3中國電信股份有限公司江西分公司云網支撐事業部 南昌市 330029

0 引言

本文探討研究的主要內容是:應用AI和大數據技術,對網絡告警、性能、故障等網絡運營數據進行實時分析,實現網絡群障及片障的智能攔截。針對寬帶的無源接入段的故障定位和用戶申告攔截,基于AI的網絡故障處理工單的自動識別、校驗、轉派以及故障自動預處理,減少網絡工單的人工處理量;針對光纜纖芯中斷、重要網絡中繼故障,研究實現自動生成應急調度光纜路由,推送給現場維護人員,加快重大網絡故障的處理,縮短故障時長。主要技術研究內容:

(1)基于RNN多層遞歸神經網絡算法,實現網絡故障源定位和關聯分析;研究并實現了寬帶無源接入網絡的故障判斷和定位,解決了無源設備在無告警、無性能檢測條件下的故障定位及故障診斷問題。

(2)基于DNN深度神經網絡框架算法對網絡故障單處理進行學習和訓練,實現網絡故障工單的智能質檢、轉派,減少人工處理工單。

(3)基于DNN深度神經網絡,對歷史流量進行訓練學習、刷新模型,實現網絡流量、性能、告警、故障的AI預測、研判及異常分析,提升網絡運營維護的智能性和主動性。

(4)基于RRT路徑規劃算法,自動生成應急調度光纜路由方案,推送給現場人員,加快光纜故障的處理速度,縮短故障處理時長。

1 相關工作

1.1 基于大數據分析的寬帶無源網絡故障定位

關于寬帶的無源故障定位,武漢郵科院提出了一種部署OBD以下的光分支檢測信號,進行物理檢測的方法,其專利《一種無源光接入網絡中支路故障定位的裝置和方法》2018年—CN105577458A,通過部署物理探針,變無源為有源,硬件成本高;華為提出一種終端設備掉電或者正常關電時,檢測設備下電、光功率信息,判斷PON網絡是設備故障還是線路故障的方法,其專利《一種無源光網絡的故障定位方法及系統》2011 年CN101345581A,可實現PON 口級別的寬帶故障定位,不能進行PON口以下的二級OBD級別無源故障定位,精確度是32個用戶顆粒。

本文所研究的方法是,通過實時分析PON網管中掉線ONU,解析用戶投訴、申告的號碼,采用大數據技術實時計算單一寬帶賬號是否聚類到了同一PON 口和OBD,再結合資源準確率,依據二項分布模型,計算出概率大于90%的故障點,實現主動發現片障,攔截的精度達到了3個用戶顆粒,大幅提升了故障主動發現率,監控數據如圖1所示。顯著減少了客服10000號的寬帶、ITV用戶申告和投訴次數(由每月23.5萬次減少為12.3萬次,下降50%),如圖1所示。該算法已申報發明專利《用于寬帶網絡的無源接入設備的故障定位的方法和裝置》2021年CN114640576A,已公開。

圖1 無源智能片障監控效果統計圖

1.2 基于AI的網絡流量預警監控

AI實現網絡流量的預警、預測,是通信領域的研究熱點。本文提出了一種基于網絡流量歷史數據機器學習和網絡流量周期性變化特征參數進行疊加分析的混合神經網絡預測算法,實現5分鐘周期的網絡流量預測平均準確率95%,如圖2所示。該算法申報發明專利《通信網絡的流量預測方法、裝置、電子設備及存儲介質》2021年,CN113660176A已授權。

圖2 網絡流量預警監控視圖

1.3 基于AI的告警故障工單智能化調度

論文《基于AI告警分析系統的IPRAN網絡智能運維和應用》(通信世界2019 年05 期)主要針對傳輸、IPRAN的網絡故障。

中國臺灣地區運營商“中華電信”Chunghwa Telecom 2020 年提出并實現了《基于機器學習的移動網絡基站故障預測》(https://ieeexplore.ieee.org/document/8802836),針對的是無線基站故障預測。

1.4 網絡智慧調度

故障調度模塊根據IP、IP RAN網絡拓撲圖,如何實現中繼應急預案的生成,本文基于GIS地圖呈現機房光纜連接及光纜承載業務信息、人員調度定位處理人員位置,進行透明化故障調度的實現方式。如圖3所示。

圖3 故障處理人員定位調度

2 主要實現方法

2.1 寬帶無源網絡故障智能定位

針對PON設備的無源接入故障,研究實現了故障定位的精度達到3個用戶的精度。

實現步驟:

(1)按實時監控PON 網管中所有ONU 離線告警,排除網絡割、PON口告警的情形(主光路中斷)。

(2)如存在同一個二級分光器內,有3個ONU同時斷線,則查詢這些ONU的離線原因代碼,如果都是斷纖(收無光:關鍵字LOS),則確認為是該二級分光器光纖斷;生成“二級分光斷”告警,并關聯資源系統該二級分光OBDid,進行定位,派故障單給電子運維系統進行故障處理。如圖4所示。

圖4 寬帶PON無源故障定位的實現流程

實現依據:在隨機事例中,有一類現象,只產生兩種互斥的結果,如對病人治療結果的有效與無效,某種化驗結果的陽性與陰性等。這種隨機事件是只具有兩種互斥結果的離散型隨機事件,它的發生概率,可以由二項分布(binomial distribution)對這類隨機事件的規律性進行描述。

寬帶接入網的二級無源分光器、ONU也只有兩種隨機狀態,要么是中斷,要么不中斷??鄢罱?、電源故障引起的中斷情況,線路中斷、分光器老化等故障因素的影響后,滿足二項分布。概率分布函數為:

計算結果:如OBD上用戶占用的準確性為60%,那么1個用戶發生故障定位到OBD的準確率為60%。經過計算,2個用戶準確率83.5%,3個用戶的準確率93.5%;即根據目前OBD資源與客戶關聯60%準確率,無源片障精確到3個用戶的屬于同一故障的準確率為93.5%。

2.2 告警故障自動處理

應用“人工智能-機器學習模型”來進行故障定位,提升網絡故障定位的智能性和準確性。系統可針對目前已經持有的障礙分析及歸并規則進行分析結果的發布,依托目前的障礙處理流程以及數據,針對規則的命中概率、障礙影響面的攔截效果,對故障關聯信息的一致性進行模型匹配。通過對于分析規則的成效驗證以及發布,輔助故障處理人員以及網絡資深運維專家進行故障處理規則的修正,對于處理成效較低的規則修正后進行再次發布并跟蹤,建立網絡故障機器學習的監督模型。如圖5所示。

圖5 故障隨機森林診斷算法

2.3 工單智能轉派

基于開源深度學習框架BERT模型對現場的故障處理回單內容進行NLP分類學習建模,識別回單是否符合規范。

如圖6所示,為了進一步提升模型的準確率,通過回譯和同近義詞替換的方式對正樣本進行擴充,平衡了正負樣本量,通過數據增強的方式使得模型準確率提升了5個百分點,最后通過K折交叉驗證和Voting的方式進行模型融合,訓練集上的準確率達到了98%,實際上線后應用的準確率約為93%。

圖6 工單內容識別模型的準確率

◎訓練情況:通過爬蟲獲取工單回單反饋數據70多萬條,由于轉派、退單等數據量和銷障的數據量嚴重不均衡,銷障的量占比99%以上,不能用來全部進行學習訓練,最終選取了5515張銷障數據、全部轉派數據5249張、全部退單數據268張,進行訓練,細分場景還是存在不均衡,通過上采樣擴充較少的數據樣本。

◎應用效果:月度覆蓋工單3萬余張,判斷耗時十幾秒左右。對于識別出的處理場景,結合后續的自動處理動作,實現工單的自動結單、智能轉派或自動退單等自動流轉調度。

2.4 流量智能預測預警

傳統的網絡流量監控采用告警基線為固定閾值,這種方式效率低,漏報誤告率高,無法為維護人員提供可靠的流量信息。

基于AI的流量基線分析利用每五分鐘建立的流量基線,將網絡流量與相同時段的基線值進行分析與比較,便可篩選出網絡中的異常流量。

如圖7所示,采用DNN深度神經網絡,針對流量類的輸入訓練與測試,經過超參數訓練時間評估以及準確率平衡考慮,網絡采用17層神經網絡(包含全連接層、隨機丟棄層、激活層),實現數據快速訓練和高速預測。

圖7 網絡流量的神經網絡預測訓練

以IP流量最近3個月每5分鐘歷史流量進行訓練為例,通過EarlyStopping設置,經過30次訓練,在安裝有英偉達2060Ti單GPU卡工作站上即可在10分鐘內完成訓練,達到準確度超過95%的良好效果。

根據以上訓練模型,可以通過選擇電路開始和截止時間,即可對流量等數據進行預測。該算法實現了新數據的及時在線后臺訓練更新模型以提高準確率,同時實現流量波形差異大于指定閾值進行預警。在相同工作站上,可以實現10秒以內的高速流量類數據的預測。

基于AI的網絡流量智能預警,降低了漏報率和誤報率,提高了網絡流量監控的有效性、敏銳度和智能性,能有效評估網絡運行質量,使流量運行維護由被動型向預防型轉變。

2.5 光纜故障智能調度

基于GIS和監控的故障光纜調度。

針對設備節點之間的光纜路由,分兩種方式實現自動調度:①對于有應急纖芯調度方案的,按方案制定備用光纜路由,提供調度方案,并推送給維護人員;②沒有預制定光纜備用路由的,系統根據起始點機房位置,通過資源的自動搜索,生成調度路由?;贕IS和光纜資源數據,搜索最短距離或最少跳接數路由,推送給維護人員,如圖8所示。

圖8 端到端光路調度

3 實施效果

基于AI的通信網絡智能監控研究與應用,主要效果有:

(1)基于RNN多層遞歸神經網絡的群障故障源定位和關聯算法,實現無源寬帶故障定位達到3個用戶的精度,解決了寬帶無源接入故障的定位問題。

(2)應用AI技術,實現網絡故障工單的智能分析、轉派,減少了人工故障處理的工作量,縮短了故障處理時間,提升了網絡維護效率。

(3)應用AI技術,對歷史流量進行訓練學習,實現了網絡流量的預測,并應用于網絡性能、告警、故障的預測及異常分析,提升了網絡維護的主動性。

(4)對重大云網絡節點故障,研究實現自動生成應急調度光纜路由和設備割接方案,推送給現場維護人員,加快重大網絡故障的處理,縮短故障處理時間。

4 結束語

隨著通信網絡由傳統設備組網向虛擬化的SDN、NFV演進,網絡本身的智能化、自動化程度進一步提升,對網絡故障調度提出更為敏捷、靈活的調度要求。同時,隨著AI大模型的迅速發展,AI技術將進一步提升云網智能化運營水平。

猜你喜歡
網絡故障網絡流量工單
基于多元高斯分布的網絡流量異常識別方法
基于量化考核的基層班組管理系統的設計與應用
基于transformer的工單智能判責方法研究
基于神經網絡的P2P流量識別方法
VxWorks網絡存儲池分析在網絡故障排查中的應用
基于信息流的RBC系統外部通信網絡故障分析
AVB網絡流量整形幀模型端到端延遲計算
基于HANA的工單備件采購聯合報表的研究與實現
Wireshark協議解析在網絡故障排查中的應用
電力95598熱線全業務集中后的工單預警機制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合