?

基于改進Wasserstein生成式對抗網絡的電力系統不良數據辨識

2022-09-14 08:52臧海祥郭鏡瑋黃蔓云衛志農孫國強趙佳偉
電力自動化設備 2022年9期
關鍵詞:測數據決策樹殘差

臧海祥,郭鏡瑋,黃蔓云,衛志農,孫國強,趙佳偉

(河海大學 能源與電氣學院,江蘇 南京 211100)

0 引言

隨著“雙碳”目標的提出,大量新能源并網導致電力系統需處理的數據量呈指數級增長,使得電力系統的數據結構越來越復雜[1],因此對系統運行的可靠性、安全性和穩定性提出了更高的要求。由于在實際量測信息中除了含有正常的數據噪聲外,各信息采集單元所獲取的量測信息中還會出現一定比例的不良數據,不良數據的存在不僅使電力系統的狀態估計結果難以反映系統的真實狀態,降低電力系統狀態估計的收斂性能,還會對電力系統的調度造成困擾[2]。不良數據檢測和辨識是電力系統狀態估計的重要一環,其功能是在獲取系統狀態量的基礎上依靠采集系統提供的冗余信息,發現和排除采集數據中偶然出現的少量不良數據,以提高狀態估計的可靠性[3]。因此,不良數據辨識對狀態估計以及電網狀態分析具有重要的意義。

傳統的不良數據辨識方法包括殘差搜索法、非二次準則法、零殘差法、估計辨識法[4-5]。文獻[6-7]采用線性化殘差方程辨識量測中的不良數據。在出現多個不良數據的情況下,上述方法經常會發生誤檢現象,影響辨識效果,且傳統方法普遍采用估計-檢測及辨識-再估計的迭代原理,計算量極大,導致在大規模系統中的計算效率很低。為此,有學者將人工智能方法引入不良數據辨識中。文獻[8]利用小波系數能反映曲線突兀程度的特點,結合RGB 數值判斷不良數據的位置,但該方法對偏差較小的不良數據的辨識性能較差,且在大規模系統中的計算效率較低。為了提高計算效率,文獻[9]提出基于Spark 和并行K-means 算法的不良數據辨識方法,克服了易陷入局部收斂和計算時間過長的問題;文獻[10]提出將雙饋深度學習方法用于線性狀態估計中的不良數據辨識,具有更高的辨識精度且減少了線性狀態估計的迭代負擔;文獻[11]提取監測數據的特征量,并基于預先設置的時序變化量矩陣和時序數值矩陣進行模式匹配,實現了不良數據的實時辨識。上述方法雖然能提高辨識效率,但對關聯不良數據的辨識精度較低。為此,文獻[12]基于分析數據之間的加權關系,提出了可以檢測偏差較小的不良數據的方法;文獻[13]運用證據融合理論確定量測關聯度,反映了量測數據出現殘差污染和殘差淹沒的可能性。雖然上述辨識方法對單個不良數據具有良好的辨識效果,但是針對被殘差污染的相關量測數據的檢測存在一定的漏檢率和誤檢率[14]。鑒于此,本文提出采用數據驅動方法重構實時量測數據,分析當前斷面的重構誤差并進行不良數據辨識。

數據驅動的基本思想是:基于試驗或歷史數據建立數據特征與待研究問題之間的聯系。與物理建模不同,數據驅動方法避免了對研究對象內部機理的嚴格分析,通過大量的測試積累來反映數據特征,挖掘特征集合和目標集合之間的潛在聯系,實現電力系統特征量x到代求變量y的映射。本文的數據驅動方法采用生成式對抗網絡GAN(Generative Adversarial Network),利用深度學習方法對實時量測數據進行重構,進而辨識不良數據位置。

GAN[15]是一種無監督的深度學習網絡,其基于無監督學習獲取數據間的潛在特征聯系,并生成符合相應分布規律的“偽數據”。目前已有研究將GAN 模型應用于電力系統分析中:文獻[16]采用Wasserstein 生成式對抗網絡WGAN(Wasserstein Generative Adversarial Network)模型和二值掩碼對缺失量測數據進行有效重建;文獻[17]考慮到風光資源的不確定性,提出了一種基于WGAN 的風光資源場景模擬和改進時序生產模擬的新能源電源容量配置模型。

為了提高在大電網下不良數據的辨識性能和效率,本文提出了一種基于改進Wasserstein 生成式對抗網絡WGAN-GP(Wasserstein Generative Adversarial Network with Gradient Penalty)的電力系統不良數據辨識方法,主要包括以下2 個階段:①利用歷史數據庫中的狀態量得到多斷面正常量測數據并訓練WGAN-GP 模型,將量測數據輸入已訓練完成的WGAN-GP 模型得到對應的量測重構數據和重構誤差;②基于上述得到的量測重構誤差訓練決策樹模型以確定不良數據閾值,將實時重構誤差輸入已訓練完成的決策樹模型即可辨識1 組量測信息中的不良數據。值得說明的是,若考慮電網拓撲的時變性,則可利用文獻[18]中的遷移學習方法,以解決拓撲變化后本文模型出現辨識性能下降的問題。

1 基于WGAN-GP的不良數據辨識

1.1 GAN模型

GAN 是一種深度生成模型,由判別模塊和生成模塊構成,其結構示意圖見附錄A 圖A1。在訓練過程中,生成器G輸入與目標數據同維度的高斯噪聲,判別器D 輸入正常量測信息和生成器輸出的偽數據,二者交替迭代訓練形成博弈對抗,最終生成器和判別器達到納什均衡,此時生成器輸出重構量測數據。

1.2 WGAN-GP模型的基本原理

傳統的GAN 模型采用JS(Jensen-Shannon)散度優化訓練參數,其生成器的輸入數據為高斯噪聲,損失函數可以表示為:

式中:LG為生成器的損失函數;E[·]為期望函數;G(·)為生成器函數;D(·)為判別器函數;Pg(·)為噪聲數據分布;z為輸入的噪聲數據向量。

判別器的輸入數據為生成的偽數據以及目標數

然而,在實際應用中WGAN 經常會出現梯度爆炸和不收斂的情況,因此本文在原網絡損失函數的基礎上加入懲罰項,實現Lipschitz 約束,以彌補WGAN 的缺陷。WGAN-GP 模型的損失函數L(G,D)可表示為:

在模型的訓練過程中,選用Adam 優化器通過分別迭代L(G,D)和LG以優化判別器和生成器的參數。

在WGAN-GP 模型的訓練過程中,生成器輸入與量測信息同維度的高斯噪聲,以正常量測信息作為目標數據,判別器和生成器基于式(5)所示損失函數進行博弈對抗訓練。最終所得訓練充分的模型可以反映正常量測數據的本質特征,在線應用時可以重構實時量測,重構后的數據分布與正常量測數據相似。

2 基于決策樹的不良數據閾值確定

2.1 數據預處理

在構建決策樹模型的數據集時,本文基于已獲得的重構數據計算多斷面重構誤差,見式(7)。

2.2 C4.5決策樹模型的基本流程

C4.5 決策樹模型的基本原理見附錄B,整體流程圖如圖1所示[21-22]。

圖1 決策樹模型的流程圖Fig.1 Flowchart of decision tree model

3 基于改進WGAN的不良數據辨識方法

大規模電力系統的運行工況復雜,現有不良數據辨識方法難以應對龐大的數據量和復雜的數據結構,容易出現較高的漏檢率和誤檢率。為此,本文在WGAN-GP模型的基礎上,加入決策樹模型確定不良數據閾值。具體的不良數據辨識流程圖如圖2 所示,具體步驟見附錄C。

圖2 不良數據辨識流程圖Fig.2 Flowchart of identifying bad data

4 算例分析

為了驗證本文所提方法在大規模電力系統中的優越性,基于Pytorch 搭建WGAN-GP 模型和決策樹模型,模型的基本結構和參數設置見附錄D 表D1和表D2。本文測試環境為PC 機,處理器為Intel?CoreTMi7-8700K CPU@3.70 GHz,內存為16.0 GB。

4.1 數據集生成

基于IEEE 118 節點系統測試本文所提方法的性能。為了能更適應系統的真實運行情況,首先利用某省網連續800 h的實際運行數據獲取負荷曲線,以此模擬IEEE 118 節點系統中各節點的負荷變化,然后通過傳統潮流計算方法得到多斷面潮流真值,最后在潮流計算值的基礎上添加高斯白噪聲,生成歷史多斷面的量測數據,從而形成歷史量測數據庫。其中量測信息包括節點電壓幅值及支路首/末端功率。將量測數據集按照6∶4 的比例分配為訓練集、測試集,并在測試集中選擇3%~10%的量測數據加入混合噪聲以模擬量測不良數據。其中不良數據的模擬方式為:將正常功率量測增大或減小50%~200%,將正常電壓量測增大或減小15%~25%。為了提高模型的訓練效率,分別對電壓幅值和支路功率進行建模,在保證模型性能的同時提高模型的訓練效率。

不良數據的分布圖見附錄D 圖D1。不良數據的位置見附錄D 圖D2。利用測試集數據與模型重構數據得到多斷面重構誤差,將重構誤差按照7∶3的比例劃分決策樹模型的訓練集和測試集,并按該比例劃分歷史量測數據庫并進行模型訓練。

4.2 WGAN-GP模型的性能測試

本文所提方法的關鍵是WGAN-GP 模型的重構性能,為了更直觀地體現模型的性能,本文利用t-SNE 可視化算法將生成的高維數據映射到低維空間中并保留數據集的局部特征。

IEEE 118節點系統實時量測、潮流真值、重構數據基于t-SNE 可視化算法的數據分布結果見附錄D圖D3。由圖可以看出,基于WGAN-GP 模型得到的重構數據分布與潮流真值分布接近,由于實時量測數據中包含一定比例的不良數據,在降維處理后,其數據分布與潮流真值分布差距過大,但是在訓練WGAN-GP模型時,選取正常量測數據作為判別器的輸入,使判別器學習得到目標數據樣本的分布規律,在狀態空間中生成全新有效的重構數據。為了驗證WGAN-GP模型在實際電網中的性能,將其用于測試某省級電網的數據,測試結果見附錄D圖D4。

為了定量測試WGAN-GP 模型的性能,本文采用2-范數誤差γTNE對重構數據和量測數據進行分析,其計算公式為:

不同測試系統的2-范數誤差(標幺值)如表1 所示。由表可知,將測試集的量測數據輸入WGAN-GP模型后,重構數據更加接近潮流真值。訓練完成的WGAN-GP模型可以重構實時量測數據,得到的數據與原數據相比更接近正常量測信息,可實現量測信息的特征提取,以便后續準確辨識不良數據的位置。以某省級電網和IEEE 2 383 節點系統為例,與實時量測相比,重構數據的2-范數誤差分別降低了94.67%和93.11%。

表1 不同測試系統的2-范數誤差Table 1 Two-norm error of different test systems

4.3 不良數據辨識性能測試

為了更直觀地體現本文所提方法的優越性,將殘差搜索法、模糊C 均值FCM(Fuzzy C-means)算法、支持向量機SVM(Support Vector Machine)算法作為對比方法。由于僅靠不良數據的漏檢率和誤檢率無法有效地評估模型的性能,本文采用查全率和查準率衡量不良數據辨識模型的性能,其計算公式分別為:

式中:μTPR為查全率,其值表示辨識為正常數據的正確結果在正常數據樣本中所占的比例;μTFR為查準率,其值表示辨識為不良數據的正確結果在所有不良數據樣本中所占的比例;μAcc為總體準確率;φTP為實際為正常數據且辨識結果為正常數據的樣本數量;φFN為實際為正常數據但辨識結果為不良數據的樣本數量;φTN為實際為不良數據且辨識結果為不良數據的樣本數量;φFP為實際為不良數據但辨識結果為正常數據的樣本數量。

當不良數據比例不同時,本文所提方法的辨識性能結果如表2 所示。由表可以看出,本文所提方法的查全率、查準率、總體準確率指標均在95%以上,且不良數據比例對整體模型辨識性能的影響較小,當不良數據比例達到20%時,本文所提方法依然有較高的準確性。

表2 本文所提方法的辨識性能結果Table 2 Identification performance results of proposed method

為了體現本文所提方法的優越性,比較各方法在不同不良數據比例下的總體準確率,如圖3 所示。由圖可看出:隨著不良數據比例的增大,殘差搜索法的總體準確率下降較為明顯;FCM 算法采用相似度大小劃分數據類別,隨著不良數據比例的增大,會將正常數據誤判為不良數據;SVM 算法無法學習所有不良數據的特征,因此在實際應用中會出現較大的漏檢率;而隨著不良數據比例的增大,本文所提方法的總體準確率均在95%以上。以不良數據比例為20%為例:相較于殘差搜索法,本文所提方法的總體準確率提升了20.9%;相較于SVM 算法和FCM 算法,本文所提方法的總體準確率分別提升了7.67%和4.73%。

圖3 不同辨識方法的總體準確率Fig.3 Overall accuracy rate of different identification methods

上述不良數據設置并沒有包含由量測殘差污染引起的關聯不良數據。為此,人為設置多個單個不良數據和關聯不良數據,不同不良數據設置下IEEE 118 節點系統的辨識結果如圖4 所示。圖中,節點電壓幅值、支路首端有功功率、支路首端無功功率均為標幺值。

由圖4 可以看出,當實時量測數據偏離正常量測區域較大時,對比方法和本文所提方法均可有效識別不良數據,但SVM 算法和殘差搜索法無法識別接近正常值的不良數據,當不良數據的偏差較小時,其與正常數據密切相關,因此不良數據很容易被視為正常數據。由于FCM 算法基于相似度大小劃分數據類型,當出現連續不良數據且中間數據的振幅與前后數據相似時,FCM 算法會將該數據誤判為正常數據。而本文所提方法通過提取數據本質對數據類型進行劃分,當出現量測殘差污染時,仍具有較好的辨識性能。本文所提方法對實時量測進行重構,重構后的數據更接近不含不良數據時的量測信息,因此訓練好的WGAN-GP 模型可以學習到數據特征,當量測信息中含有杠桿量測時,本文所提方法仍具有較好的辨識性能。

圖4 IEEE 118節點系統在不同不良數據設置下的辨識結果Fig.4 Identification results of IEEE 118-bus system under different settings of bad data

為了更直觀地展現本文所提方法在不同不良數據設置下的辨識精度,對IEEE 118 節點系統設置單個離群值、由量測殘差污染導致的關聯不良數據、杠桿量測等不良數據。不同不良數據設置下的辨識結果如表3 所示。由表可知,本文所提方法在經過數據特征提取和學習后,能夠適應不同類型的不良數據,因此當含有關聯不良數據和杠桿量測時,本文所提方法仍具有較高的總體準確率,避免在存在多個杠桿量測時出現漏檢和誤檢。

表3 不同不良數據設置下的辨識結果Table 3 Identification results under different settings of bad data

為了能更直觀地體現不同方法的辨識性能,圖5 給出了不同辨識方法在不同不良數據設置下的查準率。由圖可看出:殘差搜索法在3 種不良數據設置下的查準率均低于70%,且當出現杠桿量測時,殘差搜索法只能識別部分與正常數據偏差較大的量測數據;FCM算法利用模糊隸屬度判別不良數據,因此FCM 算法對離群值有較好的辨識性能,但是容易將關聯不良數據辨識為正常數據,且當量測信息為杠桿量測時,FCM 算法也會對部分杠桿量測造成誤判;SVM算法不能學習所有不良數據特征,經常出現漏判現象;本文所提方法在3 種不良數據設置下的查準率均在80%以上,驗證了在不同的不良數據情形下本文所提方法的優越性。

圖5 不同辨識方法的查準率Fig.5 Precision ratio of different identification methods

為了驗證本文所提方法在不同測試系統下的辨識性能,表4 給出了不同測試系統的不良數據辨識結果,其中不良數據比例為15%,節點電壓幅值與支路功率按照3∶7 的比例進行分配。由表可以看出:本文所提方法在不同測試系統中的總體準確率均在95%以上;以某省級電網為例,相較于殘差搜索法、FCM 算法、SVM 算法,本文所提方法的總體準確率分別提高了14.99%、11.26%、10.58%??梢?,將本文所提方法應用于大規模電力系統具有較高的辨識精度。

表4 不同辨識方法的總體準確率Table 4 Overall accuracy rate of different identification methods

4.4 不良數據辨識效率測試

傳統不良數據辨識方法的基本原理是基于狀態估計、檢測及辨識、再估計的迭代過程,受系統規模和不良數據比例的影響較大,尤其是在大電網下的計算效率明顯下降。但數據驅動方法僅在離線訓練時受系統規模的影響較大,在線應用時受系統規模是影響較小,因此,本文所提基于改進WGAN 的不良數據辨識方法不僅能提高在大電網下的辨識性能,也能提升其辨識效率。

表5 給出了不同辨識方法在各測試系統下的辨識耗時。由于殘差搜索法在大規模系統中耗時過長,將不良數據設置為2 個節點電壓幅值不良數據和8個支路功率不良數據。由表5可以看出:隨著系統規模增大,殘差搜索法的耗時明顯增長,尤其是在IEEE 13 659 節點系統中,殘差搜索法的辨識效率已經超出適用范圍;以某省級電網為例,本文所提方法的辨識效率相較于殘差搜索法有很大的提升,與已有數據驅動算法的耗時相近,但本文所提方法可以在提升辨識性能的同時兼顧辨識效率。

表5 不同辨識方法的辨識耗時Table 5 Identification time-consuming of different identification methods

5 結論

本文構建了改進WGAN 模型,將實時量測數據輸入訓練完成的WGAN-GP 模型,重構量測數據,并采用C4.5 決策樹模型確定不良數據閾值?;跍y試算例結果可得如下結論:

1)采用改進WGAN 模型重構量測信息,實現對正常量測信息的特征提取,基于對重構誤差的辨識提高了不良數據辨識結果的查全率和查準率;

2)為了避免人為設置不良數據閾值導致的高漏檢率和誤檢率,提出了基于C4.5 決策樹模型的機器學習方法,提高了辨識精度;

3)本文所提方法在大規模電力系統中有較好的辨識性能和辨識效率。

后續工作中將考慮拓撲變化對數據驅動模型的影響,將遷移學習技術引入不良數據辨識領域,考慮拓撲信息并重構數據集,提高數據驅動模型的泛化性能。

附錄見本刊網絡版(http://www.epae.cn)。

猜你喜歡
測數據決策樹殘差
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于Hadoop生態系統的電網量測數據共享技術研究
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
決策樹和隨機森林方法在管理決策中的應用
決策樹多元分類模型預測森林植被覆蓋
初中生體質健康測試分析——以2015年湖州市第四中學教育集團西山漾校區體測數據為例
基于決策樹的出租車乘客出行目的識別
一種新的外測數據隨機誤差分離方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合