?

考慮樣本類別不平衡的電網故障事件智能識別方法

2021-11-20 08:33衛志農石東明孫國強臧海祥沈培鋒
電力自動化設備 2021年11期
關鍵詞:代價類別準確率

衛志農,石東明,張 明,孫國強,臧海祥,沈培鋒

(1. 河海大學 能源與電氣學院,江蘇 南京 211100;2. 國網江蘇省電力有限公司南京供電分公司,江蘇 南京 210019)

0 引言

電網運行狀態異?;虬l生故障時,監控系統將產生大量中文文本形式的告警信息。調度人員難以快速準確判別對應的事件類型,而基于人工智能的故障診斷技術能通過對監控信息的推理分析實現故障事件的自主識別[1],有效縮短異常事件判別時間,并提升后續事件處理效率,提高電網運行管理水平。

自然語言處理技術和機器學習的深入應用使計算機能夠學習數字化表達后的告警信息,并挖掘海量數據中的特征,從而使電網智能告警逐漸擺脫對人工經驗的依賴[2]。同時,深度學習作為機器學習的重要分支,通過擴展神經元層的方式構建更為深層的神經網絡,可以深入挖掘輸入的電力數據中的隱含關鍵特征。文獻[3]構建了基于卷積神經網絡CNN(Convolution Neural Network)的電網假數據注入攻擊檢測模型;文獻[4]利用雙向長短期記憶網絡Bi-LSTM(Bidirectional Long-Short-Term Memory network)建立了底層量測數據與電力系統暫態穩定類別之間的非線性映射關系。上述深度學習模型具有較好的泛化能力,但需要足量樣本支撐模型訓練。電網中不同設備故障發生率存在差異,導致部分故障樣本量偏少,因此歷史故障樣本中存在類別不均衡現象,不利于智能診斷系統的模型訓練與參數學習過程,影響事件識別結果。

目前,關于不平衡數據集的處理方法主要分為數據預處理法和分類法2 種。數據預處理法通過合成或丟棄一定數量樣本,降低各類別樣本量的差距,如單一的欠采樣、過采樣[5-6],以及結合2種方法的混合采樣[7],該類方法改變了數據分布,一定程度上破壞了樣本特征信息。分類法能夠保留樣本全部初始信息,包括代價敏感學習和集成學習。代價敏感學習通過引入代價敏感因子,增大模型訓練過程中對少類別樣本的錯分代價,從而提高該類別樣本的分類可靠性。文獻[8]直接將錯分代價嵌入神經網絡,以降低各類別樣本的平均錯分代價;文獻[9]提出了一種基于代價敏感學習的決策樹剪枝方法,在剪枝階段引入代價敏感的思想,使模型總損失值達到最??;文獻[10]通過對不同類別設置不同的代價因子,得到總代價最小的支持向量機SVM(Support Vector Machine)分類器,文獻[11]在此基礎上,將SVM 核函數作為選取特征的標準,進一步提高了SVM算法對不平衡數據的分類準確率。上述方法在改善對少類別樣本分類效果的同時,會影響多類別樣本的判別結果,不能有效提升模型的整體性能。集成學習可以將多個子分類模型(下文簡稱子模型)進行融合,從而得到一個整體性能較好的分類器。Boosting、Bagging 和Stacking 算法[12-13]通過不同方式實現模型融合,但只適用于弱分類器。模型融合是一種整合多個強分類器的集成學習方法,目前常用的有最大值法、均值法、求和法等[14],此類方法根據子模型計算出的各類別后驗概率或結果標簽,采用特定公式進行模型融合。但這種對各類別樣本分類結果進行無差別融合的方法,原理較為簡單,無法整合子模型的優勢。

針對上述方法的特點、局限性,本文以Bi-LSTM為基礎分類器,提出一種基于代價敏感學習和模型自適應選擇融合的多分類問題處理方法,在提高少類別樣本的分類精度的同時,保持對多類別樣本的準確分類。針對某市電網公司調度中心的告警信息的測試結果表明,本文方法對于各類故障均具有良好的判別結果,進一步驗證了其在電網故障事件識別中的優越性和可靠性。

1 Bi-LSTM原理

CNN 和循環神經網絡RNN(Recurrent Neural Network)是目前應用最為成熟、廣泛的2種深度學習模型。RNN 考慮輸入信息中的序列特征,擅長處理時序信息,Bi-LSTM 通過改進RNN,解決了RNN 模型訓練中梯度消失與梯度爆炸的問題,并結合當前輸入前、后時刻的隱含信息,進一步提高了RNN 對時序信息的挖掘能力。因此本文采用Bi-LSTM 作為基礎分類器,完成對內部具有自然時序關系的電網告警信息的處理。

Bi-LSTM 的結構單元包含輸入、長短期記憶網絡LSTM(Long Short Term Memory network)鏈、輸出3 個部分,其中LSTM 鏈由2 個反向LSTM 拼接而成,該網絡結構包括輸入門、遺忘門、記憶單元和輸出門,具體結構見附錄A圖A1。

輸入門對當前時刻的網絡輸入信息進行控制,通過Sigmoid 神經網絡層和tanh 層計算當前輸入中保存到記憶單元的信息,如式(1)、(2)所示。

式中:it、C?t分別為t時刻(當前時刻)輸入門、臨時記憶單元的狀態;Wi、Wc分別為輸入門、臨時記憶單元的權值矩陣;ht-1、xt分別為t-1 時刻(前一時刻)隱含層的輸入、t時刻的輸入;bi、bc分別為輸入門、臨時記憶單元的偏置;σ(?)為Sigmoid激活函數。

遺忘門保存長期重要信息,按式(3)計算t-1 時刻隱含層中能夠保留在當前時刻記憶單元的信息。

式中:ft為t時刻遺忘門的狀態;Wf、bf分別為遺忘門的權值矩陣和偏置。

遺忘門保留序列數據的長期重要信息,輸入門臨時記憶單元使得當前時刻的無用信息不進入記憶單元,兩者按式(4)共同決定記憶單元保存的信息。

式中:Ct、Ct-1分別為t時刻和t-1 時刻記憶單元的輸出值;⊙表示按元素相乘。

輸出門由當前時刻的輸入、記憶單元和前一時刻的隱含層確定。

式中:Ot、ht分別為t時刻輸出門、LSTM 的輸出;Wo、bo分別為輸出門的權值矩陣和偏置。

Bi-LSTM 結合2 個時序相反的LSTM,構成了結構單元中的LSTM 鏈,能夠同時獲取當前輸入前、后時刻的特征信息,其單元結構見附錄A圖A2。

Ht經過激活函數運算后即可得到樣本屬于各類別的概率,默認取概率最大的類別作為計算結果。

2 基于代價敏感學習和模型自適應選擇融合的電網故障識別方法

電網告警信息為中文文本形式,此類非結構化的文本數據需要轉化為結構化的數字表達,才能輸入Bi-LSTM 模型訓練學習。本文采用Word2vec 模型訓練得到告警數據的分布式向量。Word2vec 是一款由谷歌于2013 年公開開源的詞向量計算工具[15],其基本思想是通過神經網絡將每個詞映射成固定維數的實數向量,所有向量構成蘊含語義信息的詞向量空間,不同詞向量在該空間中的距離可以表征詞語之間的語義相似性。詞向量訓練完成后,計算單條告警信息中所有詞向量的平均值,得到固定維數的故障樣本句向量。

2.1 方法流程

傳統Bi-LSTM 模型更趨向于將樣本判為訓練集數量多的類別,以減小損失值。本節提出一種基于代價敏感學習和模型自適應選擇融合的電網故障事件識別方法,其能夠顯著降低樣本類別不均衡對電網故障事件識別結果的影響。電網故障事件識別的流程如附錄A圖A3所示,具體步驟如下:

1)利用Word2vec 模型將分詞后的電網告警信息轉化為高維向量,并求均值得到告警數據句向量,向量維度設置為300,向量化過程如圖1所示;

圖1 電網告警信息向量化過程Fig.1 Vectorization process of power grid warning information

2)構建傳統深度學習模型,即采用交叉熵損失函數的Bi-LSTM,輸入故障樣本進行監督訓練并調參,得到對大樣本故障類別具有較好識別率的子模型1;

3)自定義一個多分類代價敏感損失函數,代替模型1 中的交叉熵損失函數,增大模型訓練過程中對小樣本的錯分代價,其余過程同步驟2),得到能夠準確識別小樣本故障的子模型2;

4)將每例故障樣本輸入子模型1、2 進行判別后,采用模型自適應選擇融合方法對判別結果進行融合,得到最終的故障事件識別結果并輸出。

2.2 多分類代價敏感損失函數

傳統的損失函數對所有類別的樣本設置相同的錯分權重,因此少類別樣本的損失易被淹沒。本文基于Lin Tsung-yi 等人提出的焦點損失函數[16],構建適用于多分類問題的代價敏感損失函數γFL,如式(8)所示。

式中:m和n分別為樣本類別數和樣本總數;yij和pij分別為樣本i屬于類別j的真實概率和預測概率;β∈[0,1],為 調 制 因 子;L為 交 叉 熵 損 失 函 數;αj∈[0,1],為權重因子,能夠區分不同類別樣本的錯分代價,樣本量越大,該類別樣本的錯分代價越小,否則錯分代價越大;Nj為屬于類別j的樣本的數量。

γFL由兩部分組成,第一部分為傳統交叉熵損失函數L,第二部分為考慮類別不平衡影響的代價敏感損失值計算。通過調制因子β調節兩者權重,β越小,第二部分占比越大,γFL對各類別樣本的區分程度越高。作為一種代價敏感損失函數,γFL通過對各類別樣本設置不同的權重因子,提高對少類別樣本的錯分代價,從而提高該類樣本的分類準確性。

2.3 模型自適應選擇融合方法

訓練樣本不平衡度較大時,γFL中少類別樣本的錯分代價過大,破壞了模型對多類別樣本的分類效果。本節提出一種綜合考慮召回率與準確率的模型自適應選擇融合方法,在代價敏感學習的基礎上進一步改善模型的整體分類性能。該方法首先以樣本類別為出發點,選擇召回率大的子模型代表該類別樣本的分類標準,使得模型融合后能夠盡可能全面地識別出此類別樣本;再結合子模型對各類別樣本的分類準確率,推理得到最終的判別結果,從而降低模型融合后的整體誤判率。該方法的流程圖見附錄B 圖B1。以樣本總數為n、樣本類別為m、子模型個數為2為例,模型融合的具體過程如下。

1)計算子模型k(k=1,2)對類別j(j=1,2,…,m)樣本的分類召回率Rkj,如式(11)所示。對于每個樣本類別,選擇分類召回率大的子模型作為分類基準,由此設定各類別的融合標簽σj,如式(12)所示。

式中:fk(xi)為子模型k對樣本xi的預測標簽;yi為樣本xi的真實標簽;I(·)為邏輯判斷,括號內表達式成立時取1,否則取0。

2)對于類別j樣本,結合σj取該類別樣本分類召回率較大的子模型,按照式(13)計算類別j樣本的分類準確率,將其作為準確率矩陣Δ的第j個元素,由此得到按分類召回率大小篩選出的準確率矩陣Δ如式(14)所示。

式中:Pkj為子模型k對類別j樣本的分類準確率;Pσj j為結合σj選取的召回率較大的子模型對類別j樣本的分類準確率。

3)根據子模型分類結果,按照式(15)設置各樣本的融合標簽。

式中:ωij為樣本xi對類別j的融合標簽;fσj(xi)為結合σj選取的召回率較大的子模型對樣本xi的分類結果。

σj由式(15)計算得到,反映了能夠代表類別j樣本分類結果的子模型標簽,若該標簽對應的子模型對樣本xi的分類結果與類別j一致,則將xi對類別j的融合標簽設置為1,否則為0。在此基礎上按照式(16)計算融合后樣本xi屬于各類別的后驗概率。

式中:Πi為由后驗概率組成的矩陣,其第j列表示樣本xi屬于類別j的概率。Πi中最大值對應的列索引即模型融合的輸出類別標簽。Πi=0 時,取分類效果較好的子模型的分類標簽作為輸出結果(默認為子模型1)。模型融合后的輸出結果表達式為:

式中:max(Πi)為Πi中的最大值。

模型自適應選擇融合方法依次考察子模型的召回率與準確率指標,在分析子模型分類性能的基礎上進行決策,整合各子模型的分類優勢,得到最終的輸出結果,實現了模型的選擇性融合與信息互補,同時可推廣應用于2個以上子模型參與融合的場景。

3 算例分析

為驗證本文方法有效性,選取某市電網調度中心2016、2017 年的歷史告警信息進行算例分析。首先根據工程需要,確定了若干種需要調控人員第一時間重點關注的異常跳閘類事件,然后以帶關鍵詞“分閘”的告警信息為標志,提取該信息前后一段時間窗內的離散告警信息集合,當滿足一定規則時,構成各類標簽化事件樣本。從中提取9 種重要故障事件對應的樣本,共得到13 554 例故障事件樣本。從每類故障事件樣本中隨機選取25 例作為測試集,其余作為訓練集,并在訓練過程中隨機抽取訓練集中5%的樣本作為驗證樣本,以優化模型參數。每組實驗取10 次測試結果的平均值作為參考標準。故障事件樣本分布情況如表1所示。

表1 故障事件樣本數量統計Table 1 Number statistics of fault event samples

分類模型常用的評價指標有召回率、準確率、F1值。召回率、準確率計算公式分別見式(11)、(13),子模型k屬于類別j樣本的F1值的計算公式為:

F1 值是一種綜合考量準確率與召回率的綜合評價指標,通常F1 值越大,模型的分類性能越好。對于多分類模型,取所有類別的F1 值的期望作為該模型的整體F1值指標。經過測試對比,Word2vec 模型和Bi-LSTM 模型的參數設置情況分別見附錄C表C1、C2。

3.1 基礎分類器性能驗證

為了驗證Bi-LSTM 在電網故障事件識別中的優越性,設置3組對比實驗,分別采用以CNN、LSTM以及結合CNN 與注意力(Attention)機制的組合深度學習模型Attention-CNN 作為基礎分類器。其中CNN 設置3 種卷積窗口,尺寸分別為3、4、5,每種窗口的卷積核數目為100,采用ReLU 激活函數,其他所需參數同附錄C 表C2;LSTM 的參數同附錄C 表C2。以不同深度學習模型作為基礎分類器,對算例進行實驗對比,得到準確率、召回率、F1值3種評價指標,結果如圖2所示。

圖2 深度學習模型的評價指標對比Fig.2 Comparison of evaluation indexes among deep learning models

由圖2 可以看出:CNN 雖然具有局部感知能力強的特點,能夠很好地處理圖像信息,但在處理時序信息時效果欠佳;Attention-CNN 在CNN 的基礎上引入注意力機制,能夠強化局部告警信息中蘊含的關鍵特征權重,以優化模型對不同的告警事件的特征提取,但依然無法捕捉時序關聯特征,導致模型總體性能提升不大;LSTM 擅長處理時序信息,電網告警信息屬于時間相關的數據,因此分類效果比CNN 更好;Bi-LSTM 模型的準確率、召回率與F1 值均最大,進一步體現了Bi-LSTM 基于LSTM 進行的改進能夠考慮當前輸入的前、后時刻的信息,優化分類效果,作為基礎分類器的性能優于其他3 種對比模型。后續實驗均以Bi-LSTM模型作為基礎分類器。

3.2 模型融合方法性能驗證

子模型1采用交叉熵損失函數,子模型2采用由式(8)構建的代價敏感損失函數(β=0.1)。為對比本文的模型自適應選擇融合方法(簡稱選擇法)的實用性,分別利用最值法、求和法對子模型進行融合。對于每個樣本,最值法取各子模型中最大后驗概率對應的類別標簽作為融合結果;均值法計算所有子模型后驗概率的均值,得到融合后的后驗概率,并將最大概率對應的類別標簽作為最終輸出結果。子模型與不同模型融合方法的分類召回率如表2 所示,整體評價指標對比如圖3所示。

圖3 子模型與模型融合方法的評價指標對比Fig.3 Comparison of evaluation indexes among submodels and model fusion methods

表2 子模型與融合算法的分類召回率Table 2 Classification recall rate of submodels and fusion methods

對表2、圖3進行分析后可得到如下結論。

1)由表2 可見:由于訓練樣本類別的不平衡,子模型1 對樣本量較大的故障事件的識別效果更好,而對樣本量小的故障事件的識別效果較差,其中對類別9 樣本的分類召回率僅為69.74%;由于樣本類別不平衡度極大,子模型2 中樣本量大的故障事件的權重因子很小,因此對多類別樣本的召回率顯著降低,其中對類別1—3 樣本的分類召回率分別為53.87%、69.21%、52.34%;而對少類別樣本的召回率明顯提高,對類別9樣本的分類召回率增至95.68%。

2)結合表2 和圖3 可以看出:最值法、求和法單純從子模型預測的后驗概率出發,不能對子模型的性能進行分析,因此無法有效結合各子模型學習到的信息,導致整體分類結果無明顯改善;模型自適應選擇融合方法,綜合考慮了子模型的召回率與準確率指標,對于每個樣本均能夠靈活地選擇子模型的預測結果,從而保留子模型的優勢性能,實現信息互補,在保證多類別樣本的分類效果的同時,有效增強了對少類別樣本的識別能力,準確率、召回率、F1 值相比子模型均有進一步的提升,分別達到了95.97%、95.78%、95.74%。

3.3 整體性能驗證

使用基于Python 的imblearn 工具包設置4 組實驗,對比分析本文方法在整體性能上的優越性與可靠性。在進行模型訓練前,4 組實驗分別采用少數類別樣本合成技術SMOTE(Synthetic Minority Oversampling TEchnique)[17]、Borderline-SMOTE方法(kind=‘borderline-1’)[18]、SMOTE 與編輯最近鄰混合采樣方法(SMOTE-ENN)[19]和SMOTE-Tomek[20]混合采樣方法按默認參數處理訓練樣本,依次記為方法1—4。4種對比方法與本文算法的分類召回率見表3,整體評價指標對比見圖4。

表3 對比方法和本文方法的分類召回率Table 3 Classification recall rate of comparison methods and proposed method

圖4 對比方法和本文方法的評價指標對比Fig.4 Comparison of evaluation indexes among comparison methods and proposed method

綜合表3和圖4可以看出:

1)與其他考慮樣本類別不平衡的對比方法相比,本文方法的3種評價指標均為最大,達到了95%以上,對各類故障事件的分類召回率也均在90%以上;

2)對于樣本類別不平衡度較大的數據集,過采樣算法易合成噪點數據,破壞樣本分布信息;混合采樣算法中欠采樣的引入會丟失部分樣本特征,破壞模型對多數類樣本的識別效果;

3)本文方法不改變樣本初始分布,保留全部特征信息,在提高少數類樣本的分類召回率的同時,有效維持了多數類樣本的分類召回率并提高了其分類準確率,因此整體故障識別效果得到了顯著提高。

4 工程實際應用

以2018 年8 月17 日“溫比亞”臺風過境當天所截取的某信息密集時段內監控信息作為對象,驗證本文方法的實際應用效果。

當天13:27—13:31 時段共產生了4 146 條告警信息,系統從告警信息中提取出7 項事故跳閘事件,并通過本文方法在0.5 s 內得到故障事件識別結果,包括線路單相瞬時故障、單相永久故障、相間故障以及一項歷史樣本極少的母線故障實例,經過驗證,識別結果均正確,其中母線故障事件識別結果如表4所示。雖然在線應用樣本量少,但是本文方法表現出較高的識別準確率,并正確識別出一項發生概率極低的母線故障事件,具有良好的工程應用價值。

表4 母線故障實例識別結果Table 4 Recognition result of instance of bus fault

5 結論

本文針對電網故障事件中的樣本類別不平衡現象,提出一種基于代價敏感學習和模型自適應選擇融合的多分類問題處理方法,實現了電網告警事件的智能識別?;趯δ呈须娋W公司調度中心告警歷史信息的實驗測試,所得結論如下:

1)通過本文構建的多分類代價敏感損失函數,在損失函數中引入代價敏感因子,增大了少數類電網故障事件的錯分代價,優化模型對該類樣本的特征學習能力,從而改善模型對少數類電網故障事件的識別性能;

2)綜合考慮召回率與準確率的模型自適應選擇融合方法,對2 個具有不同性能特點的模型進行融合,結合子模型的優勢,實現了模型的信息集成與優勢互補,在保留對多數類故障事件識別能力的基礎上,提高了少數類故障事件的識別率,得到整體效果更好的電網故障識別模型。

后續可考慮將規則推理方法與深度學習進行深度結合,提高電網中人工智能模塊的可靠性,同時進一步擴展可識別事件的類型。

附錄見本刊網絡版(http://www.epae.cn)。

猜你喜歡
代價類別準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
高速公路車牌識別標識站準確率驗證法
愛的代價
代價
服務類別
成熟的代價
多類別復合資源的空間匹配
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合