?

基于GAN 的異構無線網絡故障檢測與診斷算法

2020-09-08 11:57朱曉榮張佩佩
通信學報 2020年8期
關鍵詞:網絡故障故障診斷準確率

朱曉榮,張佩佩

(南京郵電大學江蘇省無線通信重點實驗室,江蘇 南京 210003)

1 引言

未來移動網絡的發展不再是某一技術或某一網絡的單一存在,而是各種無線接入技術的共存、互補和共同發展,從而更好地滿足用戶的需求。在這種網絡異構化、密集化的發展趨勢下,如何對網絡故障進行高效的診斷和預測成為一個巨大挑戰[1],很多學者對這一方面進行了研究。

Szilagyi 等[2]提出了一個完整的故障診斷框架,故障檢測過程主要是監視無線電測量數據,并與配置文件捕獲的正常行為進行比較。該框架對根本原因的診斷依賴于先前記錄的故障案例,并了解其對關鍵性能指標(KPI,key performance indicator)的影響,考慮了信道質量、通話中斷和切換時間提前3 個KPI。在監督學習的背景下,文獻[3-5]考慮貝葉斯分類,建立了GSM(global system for mobile communication)和UMTS(universal mobile telecommunication system)網絡故障和根本原因之間的關系。Barco 等[3]通過對故障診斷的關鍵性能指標的連續分析,確定在故障歷史數據和故障根源充足的情況下,采用連續的KPI 進行故障診斷是有益的。事實上,只有當訓練數據集足夠大時,才可以獲得更好的性能。Khanafer 等[4]和Barco 等[5]使用離散的KPI,文獻[4]綜合使用了模擬數據和實際數據進行驗證,但錯誤小區的識別僅依賴于一個KPI,即掉話率;文獻[5]側重于數據驅動的模型參數學習,避免了典型的依賴專家意見的貝葉斯方法。Khatib 等[6]提出了一種基于監督遺傳模糊算法的診斷方法,基于一個模擬數據集和一個包含72 條記錄的真實數據集,故障診斷過程中考慮了4 個KPI 和4 個故障原因,利用遺傳算法學習模糊規則庫,其準確率依賴于標記訓練集。

目前,很多專家對5G 異構無線網絡中網絡故障的診斷和預測進行了研究。網絡切片技術被認為是電信運營商即將采用的5G 中的一項關鍵技術,大多數網絡切片方法都遵循下一代移動網絡(NGMN,next generation mobile network)[7]所描述的概念,ETSI(European telecommunications standard institute)網絡功能虛擬化(NFV,network function virtualization)框架[8]是網絡切片的關鍵推動者。Kukliński 等[9]針對與網絡切片技術相關的KPI 仍然沒有定義的問題,定義了5G 網絡切片的KPI,為后續的5G 網絡的研究提供了參考。Mfula 等[10]針對5G 復雜的網絡環境,提出了一種自適應根源分析(ARCA,adaptive root cause analysis)自動故障檢測和診斷解決方案,該方案使用測量數據和其他網絡數據,并結合貝葉斯網絡理論進行自適應根源分析,只需要更少人力或不需要人工操作,并通過自適應學習期間的知識來提高效率。

由上述對網絡故障診斷方法的研究可知,傳統的網絡故障診斷方法需要大量的人工標注的訓練數據集,十分耗時耗力。另外,上述文獻僅考慮了幾類故障,并且故障識別過程僅依賴少量KPI 指標,但在復雜的異構無線網絡環境下,一方面,網絡故障更加多樣化,網絡故障的識別也會依賴更多的KPI;另一方面,需要考慮在這種復雜的網絡環境下,如何獲得大量可靠的數據集,該數據集可通過監督學習獲得故障診斷策略。目前常見做法是從已令人滿意地解決的且已知故障的已存儲案例(即標記案例)中提取信息。然而,由于專家不傾向于收集KPI 和與它們解決的故障相關的標簽,所以可用的歷史記錄很少。特別是,實際網絡中沒有太多的故障,對于每個特定的故障,沒有很多標記的案例。因此,從真實網絡獲得的歷史數據不夠豐富,利用監督技術來構建診斷系統所達到的效果并不理想。而利用生成對抗網絡(GAN,generative adversarial network)的思想可以解決歷史數據不豐富的問題。

近幾年來,GAN 作為實現人工智能的典型方法,在計算機視覺、圖像識別和自然語言處理領域取得了廣泛的成功,在處理復雜問題方面表現出很好的能力。GAN 包括2 個獨立的深層網絡[11],即生成器和判別器。生成器接收一個服從gp分布的隨機變量,用來捕捉數據的分布。判別器分別輸出1和0 來區分真實樣本和生成的樣本。GAN 在訓練過程中,利用生成器和判別器分別對樣本進行生成和分類,對抗性地提高樣本的性能。文獻[11]利用GAN方法對minist 手寫數據集進行識別,實驗結果證明了GAN 方法的潛力。但文獻[11]在實際訓練過程中還存在一些問題,如訓練困難、生成樣本缺乏多樣性等。文獻[12-13]針對文獻[11]存在的問題,提出了WGAN(Wasserstein GAN),仿真結果表明,其能夠解決GAN 訓練不穩定的問題,而且確保了生成樣本的多樣性。Arjovsky 等[12]從理論上解釋了GAN 訓練不穩定的原因。文獻[13]引入Wasserstein距離代替 JS(Jensen-Shannon)散度和 KL(Kullback-Leibler)散度,并將其作為優化目標。與原始GAN 中的KL 散度與JS 散度相比,WGAN 解決了原始GAN 存在的梯度消失問題。

本文創新性地提出了將GAN 思想應用到網絡故障診斷與預測領域中,將GAN 思想與典型的網絡故障診斷方法結合。利用GAN 思想,基于少量帶有標簽的數據集,獲得了大量可靠的帶有標簽的數據集用于網絡故障診斷模型的訓練,這樣做不僅大大節省了人工標注訓練數據的時間,而且提高了故障診斷模型的精度。仿真結果表明,所提方法能夠達到準確和高效的網絡故障診斷與預測效果。

2 系統模型

本文考慮圖1 所示的宏小區、微小區和毫微微小區交叉重疊覆蓋的4G 異構無線網絡場景。在這種場景下,由于網絡的多樣性,系統更加復雜,網絡管理也更加困難。本文考慮此場景下的網絡故障診斷與預測,首先分析衡量網絡性能的KPI 以及常見的網絡故障,并對其進行簡單的關聯,這部分是構建網絡故障診斷模型的前期工作。

2.1 關鍵性能指標

本文所選KPI涵蓋了4G 異構網絡的主要方面,與移動網絡中的主要類別相關聯,主要如下:質量指標,如參考信號接收功率、參考信號接收質量、分組丟失率;接入性指標,如無線資源控制連接建立成功率、演進的無線接入承載建立成功率;保持性指標,如掉話率;移動性指標,如切換成功率、切換時延;業務量指標,如平均吞吐量。本文所選KPI 具體如表1 所示。

圖1 4G 異構無線網絡場景

表1 本文所選KPI

1) 參考信號接收功率,描述下行鏈路中接收的導頻信號的強度。其定義為在考慮的帶寬內承載來自服務小區的小區特定參考信號的資源元素上的平均下行鏈路接收功率。

2) 參考信號接收質量,描述下行鏈路中接收的導頻信號的質量,以dB 為單位。其定義為RSRP與載波帶寬加上熱噪聲時所有基站的寬帶接收信號之間的比例。

3) 分組丟失率,指丟失分組的數量與發送的分組總數的比例。這個度量對于確定網絡的狀態非常重要。本文分別考慮上行鏈路分組丟失率(PD_UL)和下行鏈路分組丟失率(PD_DL)。

4) 信噪比,是衡量網絡性能好壞的重要指標,信噪比越高,信號中雜波越少,網絡性能越好;反之,網絡性能越差。本文分別考慮上行鏈路的信噪比(SNR_UL)和下行鏈路的信噪比(SNR_DL)。

5) 無線資源控制連接建立成功率,RRC 連接建立成功次數與RRC 連接建立嘗試次數的比值。只有當RRC 連接建立成功,才可以進行通信業務,若連接建立失敗,則用戶與網絡不能建立正常連接,網絡業務中斷。

6) 演進無線接入承載建立成功率,指E-RAB連接建立成功次數與E-RAB 連接建立嘗試次數的比值。如果連接建立失敗,則用戶與網絡不能正常連接,影響網絡服務的質量。

7) 掉話率,是衡量網絡性能的重要指標,也稱通話中斷率,是指移動通信過程中通信意外中斷的概率。小區存在弱覆蓋區域或者網絡間存在干擾等原因都會導致呼叫掉線。

8) 切換成功率,是指成功切換次數與切換嘗試總數的比值,描述了網絡使用戶能夠繼續接收服務并在移動過程中保持連接的能力。

9) 平均吞吐量,指單位時間下載或者上傳的數據量。平均吞吐量=,對于運營商而言是重要的性能指標。本文考慮上行、下行平均吞吐量Throughput_UL、Throughput_DL,以及節點傳出、傳入平均吞吐量LT(out)、LT(in)。

10) 時延,通常指發送到接收之間的時間間隔,網絡出現時延的情況時,可以從網絡拓撲、網絡中的業務模型、傳輸資源等方面考慮問題出現的原因。本文考慮切換時延HO_d。

11) 誤碼率,在一段特定時間內數據傳輸的準確率的度量,如果有誤碼就會有誤碼率。誤碼的產生是由于網絡傳輸質量低導致的。本文考慮鏈路誤碼率LER。

2.2 網絡故障

訓練網絡故障診斷模型所需要的數據集由不同的網絡故障組成,每個故障代表一個單元小區出現的問題,鄰居小區也會受到這個問題的影響。本文分析了網絡運營過程中的常見網絡故障[14-15],具體如下。

1) 干擾,一般指進入信道或通信系統影響合法信道正常運行的信號,移動通信系統的干擾是影響無線網絡出現掉線、接通失敗等原因的重要因素之一,嚴重影響了網絡正常運行和服務質量。本文從頻段角度考慮,將干擾分為上行干擾和下行干擾。當上行鏈路出現干擾時,所需的用戶信號必須比干擾信號強,這樣基站才能與用戶通信,因此,用戶必須更靠近基站,從而減少了基站的覆蓋范圍。下行干擾是指干擾源在移動網絡下行頻段內所發出的干擾信號。當用戶接收到干擾信號時,無法分辨正常的基站信號,使用戶與基站的聯系中斷,導致通話掉線或無法注冊。

2) 覆蓋,常見的故障為覆蓋漏洞,表示服務單元與鄰近單元的信號電平平均低于維持服務所需的強制電平區域,常由物體障礙造成,例如城市地區的新建筑和農村地區的丘陵等。在某些情況下,不合適的天線參數和無線電頻率規劃也可能造成覆蓋漏洞。該故障的典型表現包括服務區域某部分用戶的RSRP 較低,導致頻繁掉線和無線鏈路故障。

3) 硬件故障,通常指基站設備部件故障,比如基站中部分組件反應不靈敏。硬件出現較為嚴重的故障時會導致小區服務中斷,掉話率急劇上升。

4) 鏈路故障,通常指網絡運行中鏈路出現堵塞或者由于其他原因導致鏈路不能正常傳輸數據,網絡無法正常運行。

5) 配置參數故障,在無線接入端,若僅考慮基站,其自身有很多參數調整,如果某些重要的參數配置錯誤或者更新時出現問題,可能會導致網絡性能下降。

針對上述的KPI 以及網絡故障,依照故障排除專家經驗進行關聯,如表2 所示。

3 網絡故障檢測與診斷

本文提出了基于GAN 的網絡故障診斷與預測模型,如圖2 所示。首先,從異構無線網絡環境中采集不同網絡狀態下的少量KPI 數據,將不同網絡狀態與KPI 數據相關聯。為方便分析,本文將收集到的小樣本數據進行歸一化處理,輸入GAN 進行不同網絡狀態下的數據擬合,從而得到不同網絡狀態下大量帶有標記的模擬數據。然后,對GAN 產生的模擬數據集與原始數據集同時進行數據處理。本文選擇極端梯度提升(XGBoost,extreme gradient boosting)算法首先對數據進行降維,去除冗余數據,選擇故障檢測階段輸入參數的最優特征組合。最后,把處理后的數據分為訓練集和測試集,進行XGBoost故障檢測模型的訓練,從而得到最優的診斷結果。

表2 故障原因與KPI 的關聯

3.1 輸入階段

不同的網絡狀態有不同的特征,網絡故障診斷與預測模型必須確定不同的網絡狀態對應的癥狀,以便對多個故障進行識別。本文定義S=[KPI1,KPI2,KPI3,…,KPIm]表示不同網絡狀態的輸入向量,S是含有m個KPI 的向量;定義C={FC1,FC2,FC3,…,FCn}表示網絡的狀態,如網絡正常工作或者出現某種故障。

從異構無線網絡環境中采集的小樣本數據組成的輸入數據向量由被研究小區的所有相關的KPI 組成。根據診斷流程所需的粒度,可以使用不同的時間聚合級別(如小時、日、周、月等)收集KPI。

若在某段時間T出現網絡故障FCi,則這段時間的網絡狀態表示為

其中,KPIi指歸一化的第i個KPI,max(KPIi)指收集的數據中第i個KPI 出現的最大值。式(2)用于轉換特定指標KPIi的動態范圍,僅考慮不在區間[0,1]的KPIi,其目標是確保所有的變量都在期望的區間內。

歸一化后的網絡狀態為

3.2 GAN 框架

GAN 框架如圖3 所示,主要基于博弈論中的零和博弈。該框架必須具有2 個相互競爭的網絡,并同時優化其目標。第一個網絡為生成器G,它在給定高斯噪聲或均勻噪聲的情況下輸出模擬樣本。第二個網絡為判別器D,將來自真實分布的樣本或由G生成的樣本輸入判別器D,D嘗試將給定樣本標記為0(樣本來自生成器分布)或1(樣本來自真實數據分布)。迭代后,這種競爭將使2 個網絡都更好地完成任務。特別是生成器G,能夠產生可以欺騙人類的真實樣本。優化的目標函數為

圖2 基于GAN 的網絡故障診斷與預測模型

其中,pr表示異構無線網絡收集的歸一化的真實數據的分布;pz表示輸入噪聲服從的分布;G(Z) 表示數據空間的映射;G表示一個由多層感知機表示的可微函數;為標量,表示來自真實數據分布而不是pz的概率。

圖3 GAN 框架

通過上述分析可知,GAN 中的G作為生成模型,不像傳統模型那樣需要十分嚴格的生成數據的表達式,避免了數據非常復雜導致的不可計算;同時,G本身也不需要進行計算量龐大的求和計算。GAN 僅需要輸入一個服從一定規律的噪聲、一些真實數據、2 個可以逼近函數的網絡。通過生成器與判別器之間的不斷博弈,當判別器趨于穩定時,生成器獲得趨于真實數據分布的不同網絡狀態。

經典的GAN 算法使真實分布和近似分布之間的JS 散度最小化。然而,JS 散度是不連續的,梯度在某些地方不可用。為了克服這個缺點,Liu 等[13]提出用Wasserstein 距離代替JS 散度,WGAN 保證了梯度的可用性。鑒于Wasserstein 距離方程求解十分困難,WGAN 利用Kantorovich-Rubinstein 對偶性來簡化計算,同時為判別器引入一個基本約束來尋找1-Lipschitz 函數。在超參數控制的范圍內對判別器的權值進行裁剪以滿足約束條件。此外,Gulrajani 等[16]提出具有梯度懲罰的WGAN 算法,即WGAN-GP(WGAN with gradient penalty),它采用梯度懲罰來執行1-Lipschitz 約束,而不是采用權值裁剪。本文采用WGAN-GP 產生模擬數據。優化目標如下

3.3 XGBoost

XGBoost[17]是基于梯度增強決策樹(GBDT,gradient boosting decision tree)[18]的改進算法,在計算速度、泛化性能和可擴展性等方面都得到了提升。GBDT 算法在訓練的每次迭代中,都會在先前模型損失函數的梯度下降方向上建立新的決策樹模型,在構造決策樹后對其進行修剪。XGBoost在決策樹的構造階段將正則化項加入損失函數,如式(7)所示。

Ij定義為樣本的索引集,其值與葉節點j相關聯。

假設決策樹的結構已經確定,每個葉節點上的預測值可以通過使損失函數的導數為零得到,即

本文使用XGBoost 框架訓練數據,然后用訓練后的模型預測某時間段的網絡狀態,即為收集到的其他未知數據打上標簽。此外,使用XGBoost 的另一個好處是,創建提升樹之后,可以為每個屬性獲得一個重要性評分。一般情況下,重要性評分衡量模型中某屬性的價值,以增強決策樹的構建。屬性在模型中用于構建決策樹的次數越多,就越重要。本文利用XGBoost 框架的特征重要性排序功能進行數據的預處理,選出影響衡量網絡狀態的最相關的性能指標。利用此算法可以對測試集的準確性和模型復雜度進行權衡,從而實現高效而可靠的網絡故障的檢測。

4 性能分析

4.1 模擬數據集

為了說明本文所提方法的有效性,采用OPNET 18.6 搭建仿真實驗環境,其網絡仿真參數設置如表3 所示。

仿真中主要設置了11 種網絡狀態類別,具體可分為為正常、干擾、覆蓋故障、硬件故障和傳輸故障五大類,其中,正常為{FC1};干擾分為上行干擾和下行干擾,即{FC2,FC3};覆蓋故障為{FC4};硬件故障分為4種不同基站故障,即{FC5,FC6,FC7,FC8};傳輸故障分為 3 種不同的鏈路故障,即{FC9,FC10,FC11} 。網絡狀態類別組成的集合C={FC1,FC2,FC3,…,FC11}。然后預先設置這些網絡狀態的發生時間以便人工產生數據標簽,每次仿真時間設置為2 h,每種網絡狀態發生的時間為20 min。

表3 網絡仿真參數

4.2 基于生成對抗網絡的故障檢測與診斷

利用本文提出的基于生成對抗網絡進行網絡故障檢測與診斷的思想,在進行數據處理以及故障檢測之前,利用WGAN-GP 算法對從異構無線網絡環境中收集的各個網絡狀態下服從一定規律的小樣本數據進行學習,從而得到各個網絡狀態下大量帶有標記的模擬數據。對生成對抗網絡產生的模擬數據集與原始數據集同時進行數據的處理,本文選擇XGBoost 算法首先對數據進行降維,去除冗余數據,把處理后的數據分為訓練集和測試集,進行XGBoost 故障檢測模型的訓練。

實驗中分別基于原始小樣本數據和擴充后數據集,利用XGBoost 算法進行網絡故障的檢測與診斷,準確率如圖4 所示。由圖4 可知,本文方法很大程度上提高了網絡故障診斷的準確率,隨著迭代次數的增加,準確率可達98.48%。

考慮節省網絡故障診斷時間,本文利用XGBoost 模型進行特征的篩選,在保證正確率的基礎上,降低數據的維度,達到縮短網絡故障檢測時間的目的。利用XGBoost 模型對16 個KPI 進行重要性排序,結果如圖5 所示。圖5 反映了16 個KPI在網絡故障診斷過程中所占的比重。

圖4 網絡故障診斷準確率

圖5 特征重要性排序

基于特征重要性的排序進行數據篩選,故障診斷準確率如圖6 和表4 所示。結果表明,訓練200次后,若特征全部保留,得到的診斷準確率最高,為98.48%。對應特征分別選取15 個和13 個時,診斷準確率分別為98.22%和98.18%。這是由于特征選取個數的減少對診斷準確率造成了影響,但是節省了網絡故障診斷時間,并且診斷準確率并未隨特征的減少而大幅度降低。對測試集的診斷準確率和模型復雜度進行權衡,選取13 個特征時性能最好,根據圖5 的特征重要性的排序,最終從所有特征里選取RSRP、RSRQ、PD_UL、PD_DL、SNR_UL、SNR_DL、RRC、DCR、HO、HO_d、Throughput_UL、LER、Throughput_DL 進行故障檢測與診斷,準確率為98.18%。

從網絡故障診斷時間考慮,經特征篩選后,訓練模型的輸入參數的維度減少,模型的訓練時間也相應減少。故障診斷時間如圖7 所示,本文提出的經特征篩選后進行網絡故障診斷方法的診斷時間比未經特征篩選的故障診斷方法短。

圖6 不同特征組合的故障診斷準確率

表4 訓練200 次時故障診斷準確率

圖7 故障診斷時間

另外,本文基于樸素貝葉斯分類器、K 最近鄰(KNN,K-nearest neighbor)、決策樹、隨機森林等算法對異構無線網絡環境下的網絡故障進行診斷,當訓練穩定時,與本文算法進行比較,從而驗證本文算法的優越性。仿真結果如表5 所示。當訓練穩定時,與其他算法相比,本文算法由于原始小樣本數據集得到擴充,網絡故障診斷的準確率得到提高,而且診斷時間并沒有因為數據量的增加而增加過多,與有些算法相比診斷時間更短。

表5 仿真結果對比

5 結束語

本文提出了一種適用于異構無線網絡的基于生成對抗網絡的網絡故障檢測與診斷算法,利用生成對抗網絡思想,基于小樣本數據獲得大量可靠數據用于算法的訓練,節省了人工標注訓練數據的時間。仿真結果表明,本文算法能夠實現高效而可靠的網絡故障診斷,但是需要生成對抗網絡模型訓練得非常好才能實現上述效果,而在訓練過程中,誤差不可避免。因此,如何獲得準確的生成對抗網絡模型值得進一步探究。

猜你喜歡
網絡故障故障診斷準確率
基于包絡解調原理的低轉速滾動軸承故障診斷
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
數控機床電氣系統的故障診斷與維修
計算機網絡幾種典型故障的處理及維護方法
基于量子萬有引力搜索的SVM自駕故障診斷
江淮同悅純電動汽車無倒檔故障診斷與排除
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合