?

Stacking相異模型融合的實驗室異常用電行為檢測

2024-04-18 03:49王銘海繆希仁鄭垂錠
實驗室研究與探索 2024年1期
關鍵詞:分類器用電實驗室

陳 靜, 王銘海, 江 灝, 繆希仁, 陳 熙, 鄭垂錠

(福州大學電氣工程與自動化學院,福州 350108)

0 引 言

隨著“碳達峰、碳中和”戰略的提出,綠色低碳、節能減排將成為常態和主流[1]。高校實驗室用電設備種類復雜且開、關頻繁,在實驗室使用過程中,往往存在一些因設備未關閉所導致的異常用電行為,例如夜間未關閉照明設備、空調等。這些異常用電行為不僅導致實驗室電能浪費,同時還增加了用電安全的風險,增加實驗室的運行管理成本?,F有人工排查方法難以識別用戶的異常用電行為,容易導致誤判且效率較低[2]。根據電力計量數據實現對實驗室異常用電行為精確檢測,規范實驗室用電行為,對于實驗室用電安全管理和節能降損具有重要意義。

隨著智能電網的發展,高級量測體系(Advanced Metering Infrastructure,AMI)逐漸建立,智能電表的普及率不斷上升,采集大量蘊含用戶用電行為規律的電力計量數據,使得基于數據驅動的異常用電行為檢測成為可能[3]。目前基于數據驅動的異常用電行為檢測方法可分為無監督學習和有監督學習。無監督學習[4-6]并不依賴帶標簽樣本,而是學習用電行為蘊含的潛在規律,劃分出偏離正常用電行為規律,將其標記為異常用電,沒有訓練過程,因此受數據類別不平衡的影響也較小。由于電力用戶用電行為的不確定性,無監督模型的準確性和可靠性較低,同時算法的復雜度高。有監督學習則需要帶標簽的數據,即需要已知部分用戶用電行為的類型,往往具有更好的準確性和可靠性,但是會受到數據類別不平衡的影響[7]。文獻[8]中采用決策樹優化支持向量機轉換為多級分類器,改進蟻獅優化算法優化參數對用戶異常用電行為進行檢測。文獻[9]中提出一種基于貝葉斯優化和改進XGBoost 模型的竊電檢測方法,達到了92.78%的檢出率。許剛等[10]利用稀疏編碼對隨機森林進行稀疏化,并設置閾值來判斷用電異常行為。文獻[11]中提出一種基于寬和深的卷積神經網絡模型,將一維用電數據轉化為二維用電數據,具有較好的檢測效果,但在用電數據二維化處理上只是以周為單位進行數據堆疊。文獻[12]中引入基于格拉姆角和場(Gramian Angular Field,GAF)的圖轉換方法,使用混合卷積神經網絡進行竊電檢測,檢測效果有了進一步的提升。以上文獻均使用單一學習器通過改進算法結構和對用電數據進行特征選擇與變換來提升算法的檢測效果,對模型計算成本有很高的要求。并且單一學習器只能通過單個維度挖掘用戶用電數據的內在規律,異常檢測模型性能的提升空間有限。針對單一學習器局限性,文獻[13]中采用時間卷積網絡(Temporal Convolutional Network,TCN)、文獻[14]中采用Adaboost對多個弱學習器進行集成,結果表明,集成學習方法能提升弱學習器的檢測效果。Stacking 集成學習能利用一種元學習器融合多個相異基學習器的分類結果,從多個模型多角度挖掘用電數據的內在規律,取長補短,提高模型泛化能力與分類效果[15]。

綜上,本文針對實驗室異常用電行為檢測問題,提出一種基于Stacking 相異模型融合的集成學習方法,利用元學習器融合基學習器的優勢和差異,精確識別實驗室異常用電行為。讓相異基學習器從不同角度對實驗室異常用電行為進行研判,綜合考慮相異基學習器分類性能并進行優選;選取充分融合相異基學習器優勢的元學習器;使用實驗室用電量數據驗證模型有效性與靈敏性。

1 基于Stacking 相異模型融合的實驗室異常用電行為檢測

針對實驗室異常用電行為的檢測問題,單一學習器無法從多個維度去學習實驗室歷史用電數據中蘊含的內在規律,面對實驗室用電行為的多樣性,容易導致誤判、漏判等現象,本文提出一種基于Stacking 相異模型融合的異常用電行為檢測方法。該方法利用相異基學習器,從不同角度不同方式觀測實驗室用電數據,挖掘用電規律,通過元學習器融合相異基學習器的學習結果,實現對實驗室異常用電行為的精確檢測?;赟tacking相異模型融合的實驗室異常用電行為檢測流程如圖1 所示。

圖1 實驗室異常用電行為檢測流程

具體步驟如下:

步驟1 數據清洗。剔除原始用電數據中缺失數據過多的用電量記錄,采用3-sigma 準則判斷每日用電量曲線的異常值并進行處理,采用線性插值填補空缺值,獲得正常用電數據,并按8∶2的比例劃分訓練集與測試集。

步驟2 構造異常數據。分析實驗室異常用電行為規律,模擬實驗室異常用電行為,構造實驗室異常用電數據。

步驟3 構建Stacking 集成學習。對常見的SVM、KNN、LR、DT、NB、RF、XGBOOST 和GBDT 等基學習器進行5 折交叉驗證,通過綜合考慮多個維度,選取最好的基學習器;在選取基學習的基礎上,以XGBoost、RF、GBDT分別作為元學習器進行對比分析,選擇能夠最大限度優化融合基學習器學習效果的元學習器。

步驟4 用電行為研判。在訓練好的模型中,輸入測試集中實驗室用電量記錄,對實驗室用電行為進行研判,輸出最終的分類結果。

2 相異模型下的Stacking集成學習

2.1 Stacking集成學習原理

集成學習是將多個不同機器學習算法通過不同的方式結合,以獲得優于單一學習器的泛化能力和性能。對于二分類問題,集成學習對分類器的常用結合策略可以分為投票法和學習法。投票法僅對學習器的分類結果進行多數投票或加權投票,并未充分利用初級學習器分類結果進行學習。學習法是用另一個學習器來學習初級學習器的分類結果,以提升整個集成模型的性能。Stacking集成學習是學習法的典型代表[16]。

如圖2 所示,Stacking 模型通常由3 個部分組成。將訓練集均勻分成不交叉的K份,取其中K-1 份作為基學習器的訓練集,1 份作為驗證集;其次選取M個相異的基學習器并行學習,從不同角度不同方式挖掘實驗室用電行為特征,對實驗室用電數據進行研判;將基學習器的分類結果作為元學習器的輸入,由元學習器在基學習器的分類結果上進行學習,得到最終的分類結果。

圖2 Stacking集成學習原理

由于實驗室用電行為具有多樣性,單一分類器難以對用電行為進行精確研判,本文選擇Stacking 集成學習模型作為實驗室異常用電行為的檢測模型,通過元學習器對不同基學習器的結果進行學習,從多個模型不同的角度挖掘用電數據特征,提高模型的泛化能力與識別效果,減少漏判、誤判。

2.2 相異模型的選擇

在集成學習中除了結合策略外,學習器的選擇也十分重要,使用不同的學習器也會導致不同的分類效果。為使Stacking 集成學習模型獲得最佳分類性能,既要分析每個基學習器的單獨分類能力,同時也要考慮元學習器對基學習器的融合效果。

2.2.1 基學習器模型

不同類型的分類算法能從不同角度不同方式挖掘時序數據所蘊含用電行為規律,具有不同的優缺點,同種算法設置不同參數,則有不同的性能。

支持向量機(Support Vector Machine,SVM)將數據映射到高維空間,通過劃分超平面來對高維數據與非線性數據進行分類,具有良好的泛化能力;邏輯回歸(Logistic Regression,LR)是一種基于概率模型的分類算法,具有可解釋性強、易于實現和計算量小等優勢;K最鄰近分類算法(k-Nearest Neighbor,KNN)無需訓練過程,僅以多個最近鄰樣本進行研判分類;樸素貝葉斯(Naive Bayes,NB)假設所有特征之間是相互獨立的,避免維度災難的問題,可很好地處理高維數據;決策樹(Decision Tree,DT)根據遞歸的方式將用電數據劃分到對應的類別,決策樹的結構非常直觀,易于理解和解釋,計算復雜度低;隨機森林(Random Forest,RF)由多個決策樹構成,相比于單一決策樹,隨機森林可更好地處理高維數據,引入隨機采樣的方式使隨機森林不易過擬合;梯度提升決策樹(Gradient Boosted Decision tree,GBDT)通過迭代的方式逐步提高模型的準確性,具有較好的分類效果;極限梯度提升樹(eXtreme Gradient Boosting,XGBoost)引入二階損失函數模型,具有高準確性,并在損失函數中加入正則化項防止過擬合,并行方式能夠處理大規模、高維度的數據。不同模型的原理不同,各有其優缺點和適用性。

實驗室用電數據表征實驗室的用電行為。時序數據具備長期周期性趨勢與短期非線性變化特點[17],實驗室用電行為也具有周期性和多樣性。不同分類器可通過數據的空間角度和結構角度,通過不同的方式對用電數據進行特征挖掘[18]。對于基學習器的選擇,要分析每個基學習器的單獨分類能力,選擇能對各模型優缺點進行互補,提高模型泛化能力的基學習器。

2.2.2 元分類器模型

在Stacking 模型中,元學習器的選擇十分重要。元學習器是用于組合基學習器分類結果的模型,其輸入是基學習器的分類結果,輸出是最終的集成分類結果。元學習器的主要作用是對基學習器的分類結果進行加權或組合,以進一步提高模型的分類性能。相比選擇基分類器需要考慮從不同維度、不同類型算法的優缺點進行互補,元分類器模型的選擇更偏向于考慮其分類過程中全方位的優化。XGBoost、RF 和GBDT模型具有很強的泛化能力和抗噪能力并可處理高維度和稀疏數據,具有廣泛的應用場景,被認為是Stacking中較為可靠的候選元學習器。

2.3 評價指標

實驗室異常用電行為檢測本質上是對正常用電數據與異常用電數據進行二元分類。如表1 所示,本文通過混淆矩陣中的真正例(True Positive,TP)、真負例(True Negative,TN)、假正例(False Positive,FP)和假負例(False Negative,FN)4 個參數,定義準確率δACC、誤檢率δFPR、F1分數δF1,ROC 曲線下面積δAUC4 個評價指標,對實驗室異常用電行為檢測模型的檢測效果進行全方位量化分析。

表1 混淆矩陣

準確率是指分類模型正確分類的樣本數與總樣本數之比,直接反映模型的分類準確性,即

誤檢率描述的是在所有實際為負例的樣本中,被模型錯誤預測為正例的樣本比例,可以評估模型的錯誤分類情況,即

F1分數是一種綜合評估分類模型性能的指標(它結合了精確率δPRE和召回率δREC兩個指標),即

δAUC是指受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積。ROC 曲線可綜合描述精確率δPRE和誤檢率δFPR變化的相對關系,δAUC則可以同時衡量模型的δTPR和δFPR。

上述指標中,δACC、δFPR、δF1、δAUC的輸出值范圍均為[0,1]。其中δACC、δF1、δAUC越接近1 越好,模型的檢測效果越好;δFPR越接近0 越好,模型越不容易將異常用電行為標記為正常用電行為。

對實驗室異常用電行為檢測,既要保證盡可能準確識別出異常用電行為,又要盡可能減少正常用電行為被誤判為異常用電行為的情況。需綜合考慮各個指標,采用合適的算法和技術,對異常用電行為進行準確的識別,同時對正常用電行為進行充分分析,以降低誤檢率,提高異常用電行為檢測的效果和可靠性。

3 算例分析

3.1 數據集

為獲得更具有普適性的實驗室用電規律和特征,使用某校電氣學院各實驗室用電量之和來表征實驗室用電行為,并使用歸一化,去除量級的影響。該數據記錄了從2016-01-01 ~2018-04-18 共839 d用電記錄,詳細記錄期間實驗室每天24 h 的用電量。去除含大量空缺值的數據,還剩791 d用電數據,默認這些用電記錄均為正常用電行為,并按8∶2分割訓練集和測試集。

不同類型的用電設備具有不同的用電負荷特性。實驗室中的負荷有如照明、風扇等功率恒定負荷,也有空調、冰箱等功率變動負荷。按照表2 模擬實驗室夜間設備未關閉的異常用電行為。在訓練集中隨機選擇20%的樣本,在測試集中隨機選擇50%的樣本作為異常用電樣本。這些異常樣本中隨機混合3 種異常用電行為。

表2 異常負荷序列變換公式

給定正常用電樣本X={x0,x1,…,x23},mean(X)指的是用電樣本X的平均值;并定義時間段T={t0,t1,…,t7,t22,t23}用于表征0 ~7 h、22 ~23 h 的夜間時段,幾種異常用電樣本分別按照表2 生成。

h1(xt)為模擬夜間未關閉功率恒定負荷,即在樣本夜間時刻用電量的基礎上增加0.1 ~0.5 之間相同隨機數乘以用電量的平均值。h2(xt)為模擬夜間未關閉功率變動負荷,即在樣本夜間時刻用電量的基礎上增加0.1 ~0.5 倍不同隨機數乘以用電量平均值。h3(xt)為模擬夜間功率恒定負荷和功率變動負荷均未關閉。生成的3 種異常行為曲線如圖3 所示。

圖3 正常用電行為與3種異常用電行為的區別

3.2 基學習器的選取

為構建基于Stacking相異模型融合的實驗室異常用電行為檢測模型,需利用評價指標篩選不同基學習器,從中選出最終用于模型融合,能充分挖掘實驗室用電行為規律,優勢互補的基學習器。因此考慮上述8個常見分類器在實驗室異常用電行為數據集的δACC、δFPR、δF1和δAUC4 個評價指標,仿真結果見表3。

表3 各基學習器的結果對比 %

實驗室出現異常用電行為,需人工介入規范實驗室的用電行為。在異常用電行為檢測中,高誤檢率將會導致大量實驗室正常用電行為被錯誤識別為異常用電行為,這會增加人工干預成本。實驗室異常用電行為檢測既要保證盡可能高的準確率和盡可能低的誤報率。

NB和DT的δFPR均大于10%,難以符合實際應用的需求應首先排除。而KNN的δFPR雖然比較低,但是δACC和δF1是所有模型中最差的、δAUC值也比較差,綜合性能與RF、SVM、GBDT、XGBoost有明顯的差距。

在Stacking集成學習方法中,基學習器的差異越大,元學習器就有越多的優化提升空間。LR雖然δACC不高,但是其δFPR很低,有助于與SVM、RF、GBDT、XGBoost的優勢和缺陷進行互補,且LR觀測數據的角度與4 種模型差異較大,有助于模型的多樣性。

3.3 元學習器的選取

元學習器的選擇和設計對模型的性能有著重要的影響。元學習器是用于組合基學習器分類結果的模型,其輸入是基模型的分類結果,輸出是最終的集成分類結果。一個合適的元學習器能更好地組合基模型的分類結果,改善各基學習器的偏差,提高模型的泛化性能,防止過擬合,本文選定RF、XGBoost 和GBDT 3 種類學習器作為元學習器進行訓練,結果如圖4 所示。

圖4 不同元學習器的Stacking集成學習結果對比

融合基學習器學習效果最差的元學習器是XGBoost,δACC、δAUC、δF1和δFPR分別為91.82%、95.93%、91.61%和5.06%,除δFPR外,其他效果均優于最好的基學習器SVM。而RF和GBDT作為元學習器,對基學習器具有更好的融合效果,各評價指標均高于SVM。這說明Stacking集成學習中元學習器能學習相異模型的分類結果,在基學習器的基礎上進一步提高對實驗室異常用電行為的檢測效果與性能。

以RF 為元學習器的Stacking 集成學習模型的δACC、δAUC和δF1均為3 種元學習器中最好的,分別為95.60%、97.08%和95.48%,δFPR僅為1.27%。RF 通過并行方式減少方差,有效地融合不同學習器的優勢,互補基學習器的缺陷,使得在Stacking 集成模型表現最好。

為驗證本文所選基學習器組合具有更優的分類性能,在保持元學習器為RF的情況下,用以下幾種基學習器的組合與本文選取的組合進行對比,對各種組合進行編號,編號見表4。仿真結果見表5。本文選取的SVM、RF、GBDT、XGBoost和LR 作為基學習器組合在δACC、δAUC、δF1和δFPR均優于其他基學習器組合。這5 種基學習模型觀測數據的角度不同,分類原理不同,能進行優勢互補,提升模型的分類效果。

表4 不同基學習器組合編號表

表5 不同基學習器的結果對比

3.4 Stacking的有效性驗證

為驗證Stacking 集成學習方法的有效性,使用最優的單一分類器SVM、集成最優單一分類器SVM 的AdaBoost和Bagging集成學習模型、融合本文選取的5種最優相異基學習器Voting 的集成學習方法進行對比,其結果如圖5、6 所示。

圖5 5種算法的檢測效果對比

圖6 5種算法的誤檢率對比

Stacking 的δACC、δAUC和δF1均達到最優,表明Stacking集成學習優于其他集成學習方法,能充分融合多個基學習器,從不同方式和角度觀測實驗室的用電行為,取長補短,能有效識別實驗室正常用電行為與異常用電行為。

在這5 種算法中,Stacking 和Voting 通過集成不同基學習器,可有效降低δFPR,防止將實驗室正常用電誤判為異常用電行為。

3.5 靈敏性驗證

實際生活中實驗室異常用電行為較于正常用電行為是少數,存在樣本不均衡的情況。為驗證Stacking相異模型融合在樣本不均衡的情況下的檢測效果,分別設置訓練集中異常用電樣本占比為10%、20%、30%、40%和50% 5 種情況,得到δACC、δAUC、δF1、δFPR如圖7 ~10 所示。

圖7 5種算法下不同異常樣本比例的δACC對比

圖8 5種算法下不同異常樣本比例的δAUC對比

圖9 5種算法下不同異常樣本比例的δF1對比

圖10 5種算法下不同異常樣本比例的δFPR對比

隨著訓練集中異常樣本所占比例的減少,δACC、δAUC和δF1均受到影響,檢測效果變差。Stacking的δACC和δF1在5 種情況下均為最優;δAUC在50%異常樣本占比下,略低于Voting和Bagging-SVM,其余情況均最優;Stacking 在δFPR的表現上與Voting 相差不多,Stacking的δFPR最大為3.80%,最小為1.27%,較其他模型在各個異常樣本比例中的δFPR較為穩定。仿真結果表明,基于Stacking 相異模型融合的集成學習方法具有良好的靈敏性,可適應樣本不均衡的情況。

4 結 語

本文主要針對實驗室異常用電行為提出一種基于Stacking相異模型融合的集成學習檢測算法。采用SVM、RF、GBDT、XGBoost 和LR 作為基學習器,以RF為元學習器,實現對實驗室異常用電行為的有效辨識。在某校電氣學院實驗室的數據上進行測試,準確率達到95.60%,誤檢率僅有1.27%。通過對比實驗及有效性可知:Stacking能夠融合不同基學習的優勢,從不同角度挖掘實驗室異常用電行為的內在規律,并能較好適用于樣本的不平衡情況,對實驗室異常用電行為具有良好的檢測效果,有助于規范實驗室用電行為,防止電能浪費和避免用電安全隱患。

猜你喜歡
分類器用電實驗室
用電安全
用煤用電用氣保障工作的通知
安全用電知識多
電競實驗室
電競實驗室
電競實驗室
電競實驗室
用電安全要注意
BP-GA光照分類器在車道線識別中的應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合