?

一種基于超級基站的故障檢測機制*

2019-02-26 00:59
廣東通信技術 2019年1期
關鍵詞:測試點知識庫檢測器

1 引言

近年來,隨著移動通信技術的快速發展,出現了在線語音、視頻、實時手游、手機購物等業務,使得基站業務數據流量指數增長。傳統蜂窩移動通信系統在未來無法滿足業務和能耗上的要求,中科院計算技術研究所提出了超級基站的概念。

超級基站[1-3]是一種物理集中、邏輯分布的多模異構新型接入網平臺,支持資源水平共享、統計復用。超級基站通過統一和開放接口在集中式大規模資源池中按需創建大量虛擬基站,多個虛擬基站共享資源池中的資源,資源池中某部分資源出現問題,可能導致與之關聯的多個基站故障,從而影響大范圍接入用戶業務,嚴重的話會造成整個網絡崩潰。因此,超級基站平臺要求一個更加安全、可靠網絡環境以及一個更加高效的故障檢測機制。

然而集中式接入網的設備復雜性越來越高,業務種類的增多,使得超級基站的數據規模呈爆發式的增長,其故障檢測效率越來越低,故障管理變得越來越困難。目前,領域內出現了一些故障檢測方法,文獻[4]提出一種探針機制,周期性的向網絡發送探測數據,判斷網絡的狀態。此方式需要不斷的向網絡中發送探測包,這會給本來數據量就十分龐大的超級基站增加難以估計的開銷,降低故障管理效率。文獻[5]提出利用數據挖掘技術對故障數據進行訓練,生成一套規則用于故障檢測。此方法學習能力強,但是需要訓練故障樣本,并且故障樣本越大,訓練出來的規則可靠性越高,而對于大多數設備而言,一次獲得大量故障樣本比較困難。文獻[6]提出了一種否定選擇算法,此方法實現簡單,只需要訓練正常的數據就可檢測出異常,但是異常并不一定是故障。而文獻[7]提出的專家系統,存儲了大量領域相關的知識給系統決策提供依據。于是,本文結合否定選擇算法和專家系統,給超級基站設計了一個綜合的故障檢測機制—NEFDM(Negative selection algorithm and Expert system Fault Detection Mechanism)?;趦煞N方式的結合,所提出的NEFDM應用在超級基站上可有效提升故障檢測率,使得故障管理變得簡單并能提升網絡的自適應能力。NEFDM分為兩步:1、異常檢測:采用人工免疫系統的否定選擇算法生成超級基站異常檢測器,進行超級基站的異常檢測,發現系統的異常情況。2、故障判定:對步驟1中檢測出的異常進行故障判定?;诔壔緦<蚁到y規則庫對異常狀況進行篩選,如果該異常是已知的并且造成了故障,采用專家規則庫的方法解決;如果是未知異常狀況,則通知系統故障管理模塊進行故障定位,并將解決后的方案擴充到專家系統。

2 技術介紹

2.1 否定選擇算法

否定選擇算法屬于人工免疫領域一種常用算法,又稱陰性選擇算法,由美國學者Forrest等在研究免疫系統時提出并成功應用于計算機安全領域。其原理借鑒了免疫細胞成熟時的“否定選擇”過程,通過學習“自體”數據訓練出的異常檢測器并用于檢測“非己”情況,其中“自體”數據指正常數據,“非己”指異常狀況,該算法包括離線訓練階段和在線檢測檢測[8]兩個階段。

2.1.1 離線訓練階段

離線訓練階段的目的是生成異常檢測器,用于異常檢測,如下圖1。

生成的成熟異常檢測器集合用于下一階的異常檢測。

圖1 離線訓練階段流程圖

2.1.2 在線檢測階段

異常檢測階段是將成熟的異常檢測器集合與待測數據中匹配,篩選出異常數據,如下圖2。

2.2 專家系統

圖2 異常檢測階段流程圖

專家系統主要由知識庫、推理機、人機交互接口等組件構成,如下圖3。

知識庫存儲了大量的專業知識和經驗。在構建知識庫時,知識的表達是一個核心問題。知識表達的要求不僅適用于人類的自然表達,而且易于翻譯成機器易于使用的格式。專家系統中規則知識的表達形式一般為:

IF<條件>或者<前提>,THEN<結論>或者<操作>,SOLUTION<方法>。

如果前提成立,則結論成立,解決方法如下。中間使用AND、OR等連接符。連接符之間是規則元,是告警信息、故障類型、解決方法等參數的詳細描述。

推理機是專家系統的組織控制機構,它根據輸入信息,運知識庫中的知識,參考一定的策略進行推理,完成故障判定。

人機接口是專家系統和用戶之間進行信息交互的媒介,通過定制的接口,可以方便地添加、刪除和修改專家知識,瀏覽各種對象和屬性,賦予初始值,調整對象的相對關系,從而高效地建立、擴展和維護專家系統的知識庫。

3 NEFDM的設計

3.1 總體思路

NEFDM分為異常檢測和故障判定兩個步驟,如下圖4。首先對基站的正常運行數據進行訓練,生成異常檢測器集合,接著使用異常檢測器進行異常檢測,如果檢測到了異常,然后由專家系統進行篩選,若為已知的異常,及時通知故障管理系統參考知識庫進行故障修復;如果檢測到了無法分析的異常,通知故障管理系統進行故障定位,并將解決后的故障知識添加到專家系統。

接著介紹異常檢測與故障判定在超級基站的具體設計。

3.2 異常檢測

超級基站的異常檢測將進行3個階段工作:數據預處理、異常檢測器生成、異常檢測器檢測。

3.2.1 數據預處理

圖4 超級基站故障檢測

超級基站的有關性能運行參數有小區負載、丟包率、切換成功率、小區干擾門限等,有關設備的運行參數有內存利用率,溫度、電壓等等,這些參數均不是一個量綱級別,在異常檢測前需要將參數歸一化為同一量綱的數據,文獻[9]提出將不同種類的數據歸一化為實值向量序列,歸一化的公式(3-1)給出,生成的異常檢測器也是由實值向量序列表示。如下圖表1,從超級基站取5個正常運行參數然后歸一化成0-1區間內的實值,2個實值向量之間的距離表示二者之間的親和度,親和度越小就越匹配。例如向量x=[0.2, 0.3, 0.3, 0.1, 0.4]表示待測數據,同時向量y=[0.1, 0.4, 0.5, 0.2, 0.3]表示檢測器,當兩個向量之間的距離小于某個閾值時,就表示樣本與檢測器匹配。此例中向量x與向量y之間的親和度用歐式(Euclidean)距離(3-2)計算。

3.2.2 生成異常檢測器

超級基站歷史數據庫中取出足夠的正常運行參數,歸一化處理為實值向量集合,我們稱為自體樣本。自體樣本親和半徑為,若待測點與自體樣本的最小距離大于,則待測點屬于異常數據;反之,待測點屬于正常數據。異常檢測器的生成過程就是一種否定選擇過程:隨機生成檢測器序列,比較檢測器與自體樣本的最小距離由公式(3-2)計算,若,該檢測器被否定;若,該檢測器可作為候選檢測器,對應的檢測半徑為。已有的異常檢測器的檢測半徑集合為為異常檢測器的編號,為了減小檢測器之間的重合率,需要判斷L與所有的大小,若存在,則將丟棄候選檢測器;若不存在,則將候選檢測器加入到成熟檢測器集合;下圖5為異常檢測器生成階段的流程圖。

表1 超級基站自體樣本案例

圖5 異常檢測器生成

生成檢測器集的停止條件是檢測器達到預定覆蓋率的值。文獻[10]提出使用樣本估計是否達到了覆蓋率,進行樣本估計的時候暫時停止生成檢測器。選取n個測試樣本,設x為測試樣本被檢測器覆蓋的數量,如公式(3-3),為估計的覆蓋率。

p為預定覆蓋率,σ為標準差,根據中心極限定理,當測試樣本n足夠大時,測試樣本估計的覆蓋率的誤差z值可近似認為服從標準正態分布,由式(3-4)表示。

根據(3-3)和(3-4)可推出(3-5)。然而估計存在誤差,文獻[11]給出,當時,可認為已達到覆蓋率,停止訓練;當時,沒有達到預定的覆蓋率范圍,繼續產生檢測器。其中α為顯著水平,α越小,說明達到預定覆蓋率的結果越準確,通常顯著水平選為α=0.05,則置信水平為1-α=0.95,為此置信水平對應的值,可以通過查表得出。下圖6為檢測器覆蓋率檢驗流程圖。

超級基站異常檢測器生成步驟如下:

圖6 檢測器覆蓋率檢驗

(1)選取3.2.1節歸一化的實值自體樣本,設置自體樣本半徑。

(5)接著判斷成熟的檢測器是否足夠(如圖6),此時停止生成檢測器。

(6)選擇顯著性水平α,預定覆蓋率p,需要檢測的樣本數為n。

(7)隨機生成測試點,判斷測試點是否屬于自體,若屬于則重新生成測試點;若不屬于,統計生成的測試點數;

(8)接著判斷測試點是否被覆蓋,即判斷測試點與檢測器集合的距離L,若L大于,則該測試點未被覆蓋;若L小于等于,則給測試點被覆蓋,。

3.2.3 異常檢測器檢測

接下來,將上一小節生成的成熟檢測器集合用于超級基站的異常檢測,步驟如下:

(1)從超級基站操作維護中心選取待測數據,根據3.2.1節進行數據預處理。

(4)判斷是否是最后一個檢測器,若不是,返回(2)接著去下一個異常檢測器,直到取完為止;若是,超級基站此時沒有異常,接著監督下一個狀態,返回(1)。

3.3 故障判定

異常檢測器檢測出了異常,接著進行故障判定。故障判定前需要先建立專家系統。

3.3.1 建立專家系統

首先獲取知識庫。知識獲取來源:(1)通常是通信設備廠商或者移動通信協議制定者提出的通用標準、指標。(2)超級基站運維專家結合前幾代產品的實際故障案例歸納總結出的知識。(3)超級基站故障檢測機制挖掘出來的潛在知識,也就是此次檢測之前收集的新知識。

接著是知識的表達。比如說掉話率偏高或小區切換失敗,原因是切換參數設置不合理造成的,解決方法有調整切換門限、時延、天線傾斜角等等。超級基站專家知識庫按如下形式表達。

然后設計推理機,設計成2個步驟:

(1)模型匹配:將當前檢測出的異常情況與規則庫進行條件匹配。如果完全匹配或大致匹配,則觸發步驟(2)。

(2)競爭解決:從解決策略中依次選擇最符合條件的方法,提供給管理端。

最后設計人機交互接口,做成可調用的API形式,進行推理機和知識庫的數據均通過此API實現。

超級基站的專家系統只需建立一次,以后每次都是對專家知識庫的擴充,給下一次的故障判定提供參考依據。

3.3.2 故障判定

專家系統建立完成后接著進行故障判定,如下圖7,步驟如下:

(1)異常檢測器檢測出異常,啟動專家系統;

(2)找到異常情況的原始數據,通過人機交互接口進入推理機實行模型匹配,若匹配成功,說明超級基站的異常是已知的,觸發競爭解決機制,選擇最合適的解決方法;若匹配失敗,說明檢測出了未知異常,上報故障定位模塊進行故障定位。

圖7 超級基站故障判定

(3)將已解決的故障案例以指定的格式添加到超級基站專家知識庫,供下一次的故障檢測使用。

4 結束語

本文給超級基站設計的采用否定選擇算法和專家系統相結合的故障檢測機制(NEDFM)能給超級基站帶來如下好處:

(1)NEDFM能及時發現超級基站潛在的異常狀況,并上報給故障管理系統,能從整體減小故障發生的概率、提升故障管理的效率,進而增強網絡的可靠性和穩定性。

(2)否定選擇算法在進行異常檢測模型訓練時只需提供正常運行參數樣本,而不需提供大量的故障樣本,實現較為容易。

(3)NEFDM結合了專家系統,每次新發現的異常案例能被專家系統收錄,當下次再發生相同的異常能及時處理,提高了系統的自動化程度。

猜你喜歡
測試點知識庫檢測器
礦山長距離膠帶機動力特性測試及運行分析
基于信息熵可信度的測試點選擇方法研究
邏輯內建自測試雙重過濾測試點選取策略
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
基于二次否定剪切選擇的入侵檢測方法*
車道微波車輛檢測器的應用
一種柱狀金屬物質量檢測器的研究
高速公路信息系統維護知識庫的建立和應用
一種霧霾檢測器的研究與設計
基于Drupal發布學者知識庫關聯數據的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合