?

基于孤立森林法的電能計量數據異常檢測方法

2023-06-03 08:47賈旭超劉安磊
河北電力技術 2023年2期
關鍵詞:鳥巢適應度電能

賈旭超,馬 迅,劉安磊,魏 濤,王 勇

(國網河北省電力有限公司營銷服務中心,河北 石家莊 050000)

0 引言

電能的準確計量是電力企業生產管理過程必不可少的一個重要環節,也是電力系統能夠得以安全穩定運行的重要保障[1]。但是在實際電力工作中,采集到的用電數據常常存在一些異常數據,嚴重影響了電能的準確計量,長此以往對我國電力事業發展以及電網服務質量的提高也會產生不利影響。因此,研究一種可靠有效的電能計量數據異常檢測方法非常必要[2]。

國內外學者研究了諸多有效的電能計量數據異常檢測方法,肖勇等在基于深度信念網絡與數據聚合模型的電能計量數據異常檢測方法的研究中,利用一種新的異常模式檢測框架對電能計量數據進行異常檢測,在獲得電能計量數據后,分別應用分布式數據模型與深度信念網絡對電能計量數據執行聚合以及期望數據對比、標記等操作,最終完成電能計量數據異常檢測[3];姜丹等在對基于大數據分析的電能計量數據異常檢測方法的研究中,充分利用大數據技術的分析功能估計電能計量數據的最大似然值等信息,對不同時窗內的電能計量數據執行數據特征向量提取操作,并通過轉移概率序列等一系列操作完成電能計量數據異常檢測[4]。

上述方法均可實現電能計量數據異常檢測,但是在對電能計量數據進行異常檢測時,與其他傳統的異常檢測方法類似,過多關注正常電能計量數據的優化,忽略了對異常數據樣本的描述優化,使電能計量數據異常檢測時的誤報率大大增加,降低數據異常檢測的準確性與效率。孤立森林算法彌補了傳統異常檢測方法中的不足,在進行電能計量數據異常檢測時,采取孤立異常點的方式完成。為此,本文提出基于孤立森林法的電能計量數據異常檢測方法,可更高效、更準確完成電能計量數據異常檢測,更好滿足實際電能計量數據異常檢測工作需要。

1 電能計量數據采集

準確采集用電信息和電能計量數據是實現電能計量數據異常檢測的基礎,對智能電網的建設也具有重要的意義[5]。本文利用一種智能化的電能計量數據采集系統實現電能計量數據采集,該系統可實時、安全、準確采集包括用電客戶電量、用電負荷以及電流等在內的用戶電能計量數據。電能計量數據采集邏輯架構見圖1。

圖1 電能計量數據采集邏輯架構

電能計量數據采集系統由數據采集設備層、網絡通信層及主站層三部分組成。數據采集設備層的主要作用是為整個電能計量數據采集系統搜集與提供最原始的用戶用電信息,采集終端可對各個電能表實行個性化設置。采集器的主要功能就是抄表,但它不同于傳統的抄表行為,可實現電能表數據的動態性抄讀。網絡通信層是連接數據采集設備層與主站層的紐帶,為數據采集設備層與主站層之間信息的交互提供可靠支撐[6]。一般來說,現場采集終端與表計之間的連接操作由本地信道負責執行,現場終端與主站系統間的連接以及數據傳輸操作由遠程信道負責執行。主站層主要負責各種采集終端收集的用電信息的邏輯分析、協議解析,以及通信管理與控制等工作。

2 ACS-Kmeans電能計量數據聚類

電能計量數據采集系統采集到的數據中,會有諸多的重復冗余數據出現,增加電能計量數據分析與處理的復雜度與運算量[7-8],為了盡可能地降低電能計量數據分析與處理的復雜度與運算量,在電能計量數據采集完畢后,應用自適應布谷鳥搜索的并行K-means(ACS-Kmeans)聚類算法聚類電能計量數據。

若將電能計量數據樣本向量的維數用e表示,將電能計量數據通過ACS-Kmeans數據聚類算法聚類成k種電能計量數據。那么在應用ACS-Kmeans聚類算法聚類電能計量數據的過程中,編碼算法實際上就是對l組電能計量數據向量的坐標執行向量求解操作。編碼算法中鳥巢的位置用電能計量數據的l個數據聚類中心表示,可表示成l×e矩陣。用公式可將此編碼方式表述為

式中:t11t12…t1e為第1個電能計量數據聚類中心;t21t22…t2e為第2個電能計量數據聚類中心;t k1t k2…t ke為第k個電能計量數據聚類中心的e維向量。

電能計量數據樣本類別的確認操作是通過歐幾里得距離完成的[9]。將2個電能計量數據分別用x與y表示,則x、y的歐幾里得距離可表述為

式中:t xi-t yi為電能計量數據x、y在第i個聚類內做差所得的數值;電能計量數據x滿足1≤x≤l;電能計量數據y滿足1≤y≤l。

在對電能計量數據進行數據聚類時,個體的優劣程度可以通過適應度值的大小反映出來。一般情況下,如果個體的適應度值比較高,那么個體性能也會呈現出比較優秀的狀態[1011]。適應度函數一般通過聚類內距離以及聚類點的個數來反映,這樣做對于適應度函數的求解有一定的優勢,卻也存在一定的不足,如在對適應度函數求解過程中可能會發生迭代次數以及個體的好壞程度不夠理想的狀況。針對這一問題,在利用ACSKmeans聚類算法對電能計量數據進行聚類時,將以往聚類算法中的適應度函數加以改進,將適應度調整為

式中:WN i為第i個聚類中電能計量數據樣本點的個數;OSi為各個電能計量數據點與聚類中心之間距離,OSi=∑x∈y O xy(x=1,2,…,WN i;x≠y);當WN i以樣本聚集的方式獲得時,用F it( i)表示所有電能計量數據點到類中心的平均距離,也就是ACS-Kmeans聚類算法的適應度函數,對l個數據聚類的適應度值做求和操作,可以得到總適應度的值

式中:k為用電信息和電能計量數據種類。

根據以上對編程算法與適應度函數的表述,可將應用ACS-Kmeans聚類算法聚類電能計量數據的過程歸結如下。

1)將應用ACS-Kmeans算法聚類電能計量數據時的最大迭代次數用Imax表示;發現概率用Pa表示;最大與最小步長分別用pmax與pmin表示;依次輸入待聚類電能計量數據樣本集與聚類數量、Imax、Pa、pmax與pmin并初始化鳥巢位置。

2)通過K-means聚類算法完成聚類劃分,求解所有電能計量數據的最優鳥巢位置。

3)通過公式(3)與公式(4)求解全部鳥巢適應度與總適應度。

4)留取前次迭代鳥巢位置并對剩余鳥窩位置執行更新操作。

5)執行剩余鳥巢更新操作后,得到發現概率與隨機數r,且滿足r∈[0,1]。將r的值與Pa的值進行比較。當Pa

6)新鳥巢構建完成后,執行步驟2)、3)操作,比較新鳥巢與上代鳥巢的總適應度,若新鳥巢擁有更大的總適應度,則視該鳥巢組合為更新后鳥巢組合,否則執行步驟5)操作。

7)迭代次數達到最大,電能計量數據聚類結束,否則執行步驟4)。

3 孤立森林算法的數據異常檢測

孤立森林算法因其在處理大數據問題時,具有高精度、高計算率以及低運算復雜度等優點,被廣泛應用于各領域的數據異常檢測工作中[1214]。在本文中應用孤立森林算法完成電能計量數據的異常檢測,實質上是通過對電能計量數據中的異常數據點執行孤立操作的過程。

3.1 孤立森林構建

孤立森林算法適用于解決那些數據樣本中異常數據很少,并且與正常數據樣本區別顯著的異常數據檢測問題。在孤立森林算法中,正常數據與異常數據的分離是通過隨機超平面完成的,對數據進行連續不斷地分離操作,直到完成最后一個數據點的分離。通常來講,在電能計量數據集中,正常與異常電能計量數據分別存在于高密度區域與低密度區域[15-16]。因此,正常的電能計量數據會被執行多次數據隔離分離操作,而異常數據會被執行較少次數數據隔離分離操作。具體的孤立森林構建步驟為。

1)隨機選取φ個聚類獲取的電能計量數據當作子樣本集,視這些選取的電能計量數據為樹的根節點。

2)任意設定一個閾值并把當前電能計量數據點當作基準,設定閾值允許范圍內的隨機值當作步長對電能計量數據執行相關地切割操作。

3)執行步驟2)中的切割操作后,形成的超平面將電能計量數據分離為2個子空間,以維度p為分節點,將大于該維度與小于該維度的電能計量數據分別放置于節點右側與左側。

4)重復執行步驟2)與步驟3),不斷產生新的節點,直到電能計量數據無法再分割或者滿足分割次數≥log2φ時,分割結束。

3.2 異常數據檢測

用X表示電能計量訓練數據,使其遍歷所有隨機二叉樹iTree,分別對電能計量數據的最終深度、平均深度進行求解,將平均深度表示為z( x)。

歸一化處理iTree深度,在各個iTree上執行電能計量數據檢索操作,獲得平均深度z(x)。被檢電能計量數據樣本x的異常分值用公式表示為

式中:F (x)為異常分值;ξ為歐拉常數。

式中:Z為φ-1個聚類獲取的電信息電能計量數據的最終深度;c(φ)為φ個點二分搜索數的長度,則各節點深度取值約束條件為

式中:z (x)為電能計量數據x在iTree中的節點平均深度;E g[ ]為t個iTree中的節點深度均值。

用s表示電能計量數據的異常分值,當異常分值越靠近1,說明該電能計量數據越有可能是電能計量異常數據;當異常分值越靠近0,說明該電能計量數據越可能是正常電能計量數據;當幾乎所有的電能計量數據異常數值均為0.5,則表示該電能計量數據無異常值。

4 實例分析

以2022年1月12日D 市某區1 028戶居民用電過程中產生的電能計量數據為實驗對象,應用本文方法對其進行異常檢測,驗證本文方法的有效性。實驗中設置iTree的采樣棵樹為150。

表1是應用本文方法進行電能計量數據異常檢測的結果。

表1 數據異常檢測結果

從表1可以看出,應用本文方法可實現電能計量數據的異常檢測,檢測出的異常數據量與實際異常數據量完全相符合,并且根據所獲異常數據能夠診斷出出現異常數據的原因,可更好滿足實際電力工作需要。

AUC(Area Under Curve)為不同類別的區分度,是反映電能計量數據異常檢測效果的一個重要指標。通常情況下,AUC 的值越高,證明電能計量數據異常檢測的效果就越好。因此,為驗證本文方法在電能計量數據異常檢測方面的優勢,繪制在不同信噪比環境下,應用本文方法進行電能計量數據異常檢測獲得的AUC曲線,具體如圖2所示。

圖2 不同信噪比環境下AUC曲線

由圖2可知,隨著數據樣本點數量的增加,應用本文方法進行電能計量數據異常檢測時獲得的AUC值也呈現出下降的趨勢,但是下降趨勢不明顯,即使在數據樣本點數量為500時,AUC的值也很高,并且在不同信噪比環境下的AUC曲線也非常接近。實驗證明即使在數據樣本點數量較多與噪聲較大的環境下,應用本文方法對電能計量數據進行異常檢測也可獲得較好的異常檢測效果。

異常分數值是判斷電能計量數據是否為異常數據的重要依據。圖3是分別應用本文方法與基于深度信念網絡與數據聚合模型的電能計量數據異常檢測方法[3]、基于大數據分析的電能計量數據異常檢測方法[4]對采集到的電能計量數據進行異常檢測獲得的平均異常分數分布圖。

圖3 不同方法平均異常分數分布

由圖3可知,應用本文方法對電能計量數據進行異常檢測時,平均異常分數值在0.9 附近波動;而應用文獻[3]與文獻[4]方法在進行電能計量數據異常檢測時,平均異常分數值在0.7 左右波動。實驗證明本文方法對異常電能計量數據的檢測能力要強于其他2種方法,可更好滿足實際工作需要。

AUC方差的大小可以反映孤立森林算法的穩定性。圖4是應用本文方法在不同AUC 方差下對電能計量數據進行異常數據檢測,每秒鐘檢測的電能計量數據量。

圖4 每秒鐘檢測數據量

由圖4可知,隨著AUC方差的不斷增大,不同實驗次數下每秒檢測的電能計量數據量有所下降,但是下降幅度十分小。說明:應用本文方法對電能計量數據進行異常檢測時,即使在孤立森林性能不是十分穩定的情況下,也具有較高的檢測效率,在實際的電能計量數據異常檢測工作中更具優勢。

5 結論

本文提出基于孤立森林法的電能計量數據異常檢測方法,使用自適應布谷鳥搜索的并行Kmeans數據聚類算法獲取有價值電能計量數據,構造包含若干隨機二叉樹的孤立森林,遍歷所有隨機二叉樹的電能計量數據后,依次執行平均深度計算、異常分值求解以及異常分值比較等操作,完成電能計量數據異常檢測。采用本文方法對電能計量數據進行異常檢測時,平均異常分數值在0.9附近波動,優于文獻[3]、文獻[4]方法平均異常分數值;隨著AUC方差的不斷增大,不同實驗次數下每秒檢測的電能計量數據量下降幅度十分小。本文方法可有效檢測電能計量數據的異常狀況,滿足實際電能計量數據異常檢測工作需要,在對電能計量數據進行異常檢測時可實現電能計量數據的異常檢測,檢測出的異常數據量與實際異常數據量完全符合,并根據所獲異常數據能夠診斷出出現異常數據的原因,提升電能計量數據異常檢測的效率與準確性,可更好滿足實際電力工作需要。

猜你喜歡
鳥巢適應度電能
改進的自適應復制、交叉和突變遺傳算法
蘋果皮可以產生電能
鳥巢
電能的生產和運輸
海風吹來的電能
重回鳥巢
鳥巢大作戰
澎湃電能 助力“四大攻堅”
基于空調導風板成型工藝的Kriging模型適應度研究
少數民族大學生文化適應度調查
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合