?

基于多維負荷特性挖掘的電力特殊用戶用電行為分析

2024-03-11 01:20吳昀烔趙健宣羿孫智卿徐港軍
電力建設 2024年3期
關鍵詞:級聯特征提取用電

吳昀烔,趙健,宣羿,孫智卿,徐港軍

(1. 上海電力大學電氣工程學院,上海市 200090;2. 國網杭州供電公司,杭州市310014)

0 引 言

隨著智能電網建設的飛速發展,海量多元的電力數據得以實時獲取,深入挖掘數據間蘊含的用電特征信息有助于分析用戶用電行為,掌握用戶類別,促進社會發展與相關政策的制定,從而為政府科學治理社會問題提供理論支撐[1-3]。由于我國人口老齡化程度不斷加深,以獨居老人為代表的電力特殊用戶數量激增,深度挖掘獨居老人典型用電行為特征,有助于實現獨居老人的辨識,為電力公司開展個性化服務提供輔助決策,成為電力公司服務社會,促進政企間友好互通的重要途徑[4-5]。目前,通過分析電力用戶用電行為辨識用戶類型方法主要可以分為無監督學習與有監督學習法[6],這些方法為辨識獨居老人提供了參考。無監督學習主要依賴于聚類算法對用戶進行分類[7],主要包括K-means算法[8-10]、譜聚類分析法[11-12]、模糊C均值聚類法[13]等。但利用聚類算法把用電行為相似的用戶劃分為同一簇,卻不能對簇進行標識,無法適用于識別某一特定群體[14-15]。

有監督學習法是通過構建分類器學習特征與類別標簽間的對映關系,實現對用戶的分類[16-17],主要包括用電特征提取與分類模型構建。典型用電特征提取方法有人工特征提取法[18-19]、降維算法[20-22]等。而人工特征提取受人為主觀因素影響,難以客觀描述用戶的用電特性,降維算法雖具有較強的特征提取能力,卻無法自主增強對重要特征的學習。因此僅從單一角度對用戶用電特征進行提取,容易造成有效信息的丟失。在構建分類模型方面,文獻[23-24]分別基于支持向量機(support vector machines, SVM)、決策樹設計分類模型對特征進行學習。以上分類器均為淺層學習模型,識別效果有待提高。文獻[25-29]利用深度學習網絡對用電特征向量進行識別,其識別效果相較于淺層學習模型得到提高。由于在實際識別獨居老人過程中,其數量遠少于其他類型用戶,且不同類型用戶的用電特征多樣,均對分類模型學習其用電特征造成干擾,導致獨居老人識別困難[30-31]。

針對以上問題,本文提出一種基于多維負荷特性挖掘的電力特殊用戶用電行為分析方法。首先,通過分析獨居與非獨居老人典型負荷曲線,分別構建負荷特性指標與消費特征指標,并基于互信息值對指標增添權重以降低主觀因素對特征指標的影響,提高特征指標的可靠性;同時利用卷積塊注意力機制對卷積神經網絡(convolutional neural network, CNN)架構進行優化,得到能自主選擇重要信息的卷積塊注意神經網絡特征提取模型(convolutional neural network convolutional block attention module, CNN-CBAM)。通過特征指標與CNN-CBAM的構建,獲取可表征兩類居民用電行為的多維負荷特征向量。其次,構建β-級聯森林識別模型對上述特征向量進行自適應表征學習,有效避免因樣本數量不足導致模型過擬合問題,并針對樣本不平衡問題,引入敏感因子β以修正識別模型對獨居老人樣本的誤判,該模型在樣本規模較小且存在樣本不平衡的數據上具有良好的識別性能。最后,在實現獨居老人識別后,針對其可能存在離家、突發疾病等狀況進行用電行為監測,并在浙江省某小區中驗證本文方法的可行性。

1 居民負荷特性分析

1.1 初始用電行為特征指標建立

受生活習慣、家庭情況等因素影響,不同居民群體呈現出差異化用電行為特征,故對獨居和非獨居老人2類居民典型負荷曲線進行分析,有助于掌握2類居民不同的用電行為習慣,為構建用電行為特征指標提供依據。2類居民典型日負荷曲線如圖1所示。

圖1 2類居民典型日負荷曲線Fig.1 Typical daily load curves for two types of residents

由圖1可知,2類居民具有相似的日負荷曲線,但相較于獨居老人,非獨居老人的夜晚用電高峰出現較晚,存在時間差Δt,且其用電量遠高于白天用電量,晝夜波動較大。

2類居民周用電分布如圖2所示??紤]休息日對居民用電水平的影響,對2類居民的周用電分布情況進行分析可知,非獨居老人居民休息日用電量遠大于工作日的用電量,受休息日影響較大,而獨居老人生活習慣較為規律且用電量水平較低。

基于以上對2類居民典型負荷曲線分析,本文建立用電行為特征指標集T0={T1,T2,T3,T4,T5},其中各特征指標如表1所示。

表1 用電行為特征指標Table 1 Characteristic index of electricity use behavior

表1中:Eac表示第a周星期c的用電量;Eiday、Einight分別表示第i天白天與夜晚用電量;Eimax、Eimin、Eiav分別表示第i天用電量最大、最小與平均用電量;W、D分別表示總周數與總天數;N1和N0分別表示通過線上、線下方式繳納電費的次數。

1.2 動態特征指標集建立

為降低特征指標受主觀因素的影響,利用互信息值分別對特征指標與類別標簽的貢獻度進行計算。首先對特征進行歸一化,均勻離散各變量區間,得到第u個特征Tu與類別標簽y間的互信息值為:

(1)

式中:n、nv、nw、nvw分別表示居民用戶總樣本數、特征Tu落在第v個區間的樣本數、樣本中屬于第w個類別的數量以及Tu落在第v個區間且屬于類別w的樣本數;Nu為特征Tu被劃分的區間個數;Ny表示居民總類別數,由于本文屬于二分類問題,僅存在獨居與非獨居老人居民2種類別,故在本文中Ny取2。

然后,根據式(1)求解T0中各特征指標與類別標簽y間的互信息值,得到總互信息值M(T,y)?;诨バ畔⒅荡_定各特征指標對應的動態權重γu。

(2)

(3)

對用電行為特征指標集T0添加動態權重,得到動態特征指標集T={γ1T1,γ2T2,γ3T3,γ4T4,γ5T5}。

2 基于多維負荷特征提取模型

2.1 CBAM基本原理

CBAM是一種簡單高效,能夠嵌入任一CNN網絡架構中進行端到端訓練的注意力機制模塊。該模塊由通道注意力與空間注意力兩部分組成,具體結構如圖3所示。

圖3 CBAM結構Fig.3 CBAM structure

當給定輸入數據F∈RG×K×C時,通道注意力模塊根據式(4)聚合輸入數據的空間信息,得到通道注意力特征F1,然后再次經過空間注意力模塊,以特征的關鍵位置為目標對F1的通道進行壓縮,得到最終特征F2,計算方法如式(5)所示。

F1={α{MLP[AvgPool(F)]+
MLP[MaxPool(F)]}}?F

(4)

F2={α{f3×3[AvgPool(F1);
MaxPool(F1)]}}?F1

(5)

式中:α代表激活函數sigmoid;MLP代表多層感知器;AvgPool(·)與MaxPool(·)分別表示平均池化與最大池化操作;為逐個元素相乘;f3×3表示卷積核為3×3的卷積操作。

特征F2相較于輸入數據F,在保持特征維度的同時,強調了F中的重要特征。故在CNN添加CBAM模塊,可以實現對輸入數據重要特征的自主學習。

2.2 CNN-CBAN特征提取模型

CNN-CBAM學習目標是獲取能表征2類居民用電行為的時序特征向量,選取4個卷積層、2個CBAM層、3個池化層以及全連接層構建CNN-CBAM特征提取模型。

1)模型的輸入數據。將居民的負荷數據集X=[X1,X2,…,Xn]T與對應的類別標簽向量Y=[y1,y2,…,yn]T作為模型的輸入數據。其中每位居民負荷數據矩陣為:

(6)

式中:p表示采樣時間;q表示每個時間點對應的特征值;Xs表示第s個居民樣本。

2)進行特征提取。特征提取部分由卷積層、CBAM層與池化層交替堆疊組成。以樣本Xs為例,首先根據式(7)對Xs進行卷積操作,形成初始用電特征F∈RG×K×C;其次為增強模型對重要特征的學習,根據式(4)、(5)對用電特征F∈RG×K×C進行空間與通道的改造,得到最終特征F2∈RG×K×C;并通過最大池化操作壓縮特征圖,降低模型復雜度。

(7)

式中:Fmj表示卷積操作后提取的特征圖中第m行、第j列的特征值;kbd表示卷積核;xm+b-1,j+d-1表示Xs第m+b-1行、第j+d-1列元素;f代表激活函數ReLU。

3)獲取深層負荷特征向量。在完成多層特征提取后,通過全連接層輸出提取的負荷特征向量Q。

本文利用Adam優化算法對CNN-CBAM特征提取模型進行有監督訓練,其中損失函數為:

(8)

2.3 建立多維負荷特征集

將動態特征指標集T與深層用電特征向量Q進行拼接,得到多維負荷特征集。

Fx=[(T1,y1),(T2,y2),…,(Tn,yn)]T

(9)

Tn=[Q1,Q2,…,Qr,T]

(10)

式中:Tn表示居民n的用電特征向量;Q1,…,Qr表示隱特征向量。

3 基于β-級聯森林的獨居老人識別模型

本節首先基于β-級聯森林構建獨居老人識別模型,其具體結構如圖4所示。其次,通過構建用電異常指標對獨居老人的日常用電行為進行監測,若發現存在用電異??杉皶r通知人員上門排查。

圖4 獨居老人識別模型結構Fig.4 Structure of identification model for elderly living alone

3.1 基于β-級聯森林的識別模型

基于β-級聯森林的識別模型在借鑒深度神經網絡超強特征表征能力的同時,摒棄復雜繁瑣的網絡架構,通過逐層串聯集成決策樹森林實現對輸入數據的多層表征學習。

決策樹森林由多個決策樹組成,在識別獨居老人過程中,每個決策樹森林均對應得到一個是/否為獨居老人的二維概率向量P=[P0,P1]??紤]到獨居老人樣本遠少于非獨居老人樣本數量,本文基于樣本不平衡度設定了敏感因子。假設輸入數據集Fx中包含F0個獨居老人樣本、F1個非獨居老人樣本,依據式(11)構建敏感因子,則每個基分類器生成的概率向量如式(12)、(13)所示。

(11)

(12)

(13)

式中:β0、β1表示敏感因子;P0、P1分別表示是、否為獨居老人的概率;t0、t1分別表示分類結果是、否為獨居老人的決策樹個數。

本文選擇2個隨機森林與2個完全隨機森林作為每級聯層的基分類器,故每級聯層得到4×2維增強特征向量U={P1,P2,P3,P4}。為了避免出現梯度消失或梯度爆炸的問題,本文在傳遞用電特征信息時添加了跳躍連接,即本級聯層輸出的增強特征向量不僅作為下一級聯層的輸入,還要輸入到下下級聯層,故每級聯層的輸入數據為Glx={Ul-2,Ul-1,Fx} (l=1,2,…)。其中,l表示級聯層數。在訓練過程中,每擴展一個級聯層均根據式(14)在驗證集上計算模型精度,直至Anew≤A時擴展結束,獲取分類結果,得到完整識別模型。

(14)

式中:Ntest、Ntrue分別表示驗證集中的樣本個數以及正確分類的個數。

3.2 獨居老人用電行為監測

為避免獨居在家的老人遭遇突發疾病造成嚴重安全事故,本節針對其日常用電行為進行監測。利用識別模型對某小區內用戶進行篩選,獲取獨居老人家庭,構建判斷居民用電異常的指標:

(15)

(16)

式中:E(t)、F(t)分別表示各個時間點的正常用電量和方差;Es(t)表示用戶s在t時刻的用電量;N表示獨居老人數量。利用式(17)處理每組用電數據,將得到的數據與正常用電量作差,當偏差超過3倍方差線時,視作用電異常,向系統發送告警信號,通知小區人員進行入戶查看。

(17)

式中:epq表示采用其前后2個時刻的數據與本身進行均值濾波后的用電數據;x(p-1)q、xpq、x(p+1)q分別表示前一時刻、原始與后一時刻用電數據。

3.3 獨居老人識別與監測流程

完整識別模型包括獨居老人識別模型的建立、在線識別與監測兩部分,實現流程如圖5所示。

4 算例分析

本文通過居民實際負荷數據進行測試以驗證本文所提方法的有效性與適用性。使用的數據包括居民電費繳納情況與96點的有功功率、電壓、電流等多維負荷數據,具體情況如下所示:

1)選用浙江省某地區4 626位居民用戶2019年1月1日—2019年11月30日的用電數據進行驗證,其中包含1 598戶類別標簽為0的獨居老人居民與3 028戶類別標簽為1的非獨居老人居民。

2)在浙江省杭州市某小區進行識別與在線監測,該小區有12棟居民樓,共1 324位居民用戶。

4.1 數據預處理與評價指標

由于原始數據集中存在數據缺失、重復等問題,需要對數據集進行清洗與修正。本文采用均值法對單個缺失數據進行填充,如式(18)所示,直接剔除多個連續數值為空的數據,并根據式(19)對原始數據進行歸一化處理,將處理后的數據按照4∶1的劃分訓練集與測試集,便于訓練評估模型。

(18)

(19)

式中:g(xt)為填充值;xt為用戶在t時刻的量測值;f(x)為歸一化后的數據;maxx和minx分別為樣本數據的最大值與最小值;xNAN為缺失數據。

以類別標簽為基準,每戶居民識別結果與對應類別標簽y,存在以下4種對應關系:

TS:識別結果y=0,類別標簽y=0;

FS:識別結果y=0,類別標簽y=1:

TU:識別結果y=1,類別標簽y=1;

FU:識別結果y=1,類別標簽y=0。

鑒于獨居老人識別屬于典型樣本不平衡的分類問題,為了全面合理地評價識別模型性能,本文選擇評價指標如下所示:

(20)

(21)

(22)

式中:σIP、σIR分別表示獨居老人識別精確率與查全率;σGM表示模型對獨居與非獨居兩類居民識別精確率的綜合評估,指標值越大識別性能越好。

4.2 識別結果分析

4.2.1 特征提取

基于互信息值對初始特征指標計算得到各特征指標貢獻度占比如圖6所示。

圖6 各特征指標貢獻度占比Fig.6 Contribution ratio of each characteristic index

由圖6可知,特征指標對應的權重系數γu為[0.180,0.279,0.142,0.153,0.246],其中晝夜間用電波動對類別標簽的貢獻度最大,在線繳費意識次之,日負荷率與日均峰谷用電差對類別標簽的貢獻度差距不大。故最終確立的動態用電特征指標集為T={0.180T1,0.279T2,0.142T3,0.153T4,0.246T5}。

在訓練CNN-CBAM時,設定網絡初始迭代100次,CNN-CBAM損失曲線如圖7所示。由圖7可知,當迭代次數為40時該模型的損失值趨于穩定,達到收斂狀態。因此本文將迭代次數設定為40。

圖7 CNN-CBAM損失曲線Fig.7 CNN-CBAM loss curve

4.2.2 參數靈敏度分析

與其他深度學習模型相比,級聯森林具有較好的自適應學習能力,主要參數可以分為結構參數與基分類器參數,其中主要包括級聯層擴展規則、基分類器的類別與數量、基分類器中決策樹的數量等。本節主要針對基分類器參數進行靈敏度分析,如圖8所示。

圖8 不同參數下識別準確率Fig.8 Recognition accuracy under different parameters

由圖8可知,隨著決策樹與基分類器數量的增加,識別模型準確率呈現緩慢上升趨勢,但整體受參數設置影響較小,具有較好的魯棒性。本文選用4個基分類器,每個基分類器包含60棵決策樹構建識別模型。

4.3 不同特征集的識別效果分析

居民負荷特征集的建立是準確識別獨居老人的基礎,為驗證本特征集的有效性,選用以下3種特征集進行對比分析,對比識別結果如表2所示。

表2 不同特征集識別效果分析Table 2 Recognition effect analysis of different feature sets

1)未計算特征指標貢獻度的初始用電行為特征指標集T0。

2)基于CNN-CBAM特征提取模型獲取的特征向量Q。

3)結合動態特征指標與CNN-CBAM特征提取模型的多維負荷特征集Fx。

由表2可知,由于初始用電行為特征指標是基于人工經驗建立的,并未考慮特征指標的有效性,導致識別準確率不高。利用CNN-CBAM提取的特征向量進行識別雖相較于初始用電特征有所提升,但其效果遠不及綜合考慮特征指標與神經網絡結合的多維負荷特征集。

4.4 不同模型識別性能分析

4.4.1 基于多維負荷特征集的識別性能分析

上文以不同輸入特征集為研究對象,證明了本文所構建的多維負荷特征集具有較強的代表性。本節針對采用本文方法得到的用電特征集Fx在使用不同分類方法時的識別效果展開研究,選取了SVM、梯度提升決策樹(gradient Boosting decision tree, GBDT)與極端梯度提升(extreme graolient Boosting, XGBoost)三種分類模型進行對比分析。各識別模型的性能對比見表3。根據表3可知,本文所提的方法與其他算法相比,在3個評價指標上均具有最好的表現,獨居老人識別精確率達到90.9%,均高于其他識別模型,具有較好的識別性能。

表3 各識別模型的性能對比Table 3 Performance comparison of each recognition model

4.4.2 不同樣本規模下模型性能分析

為驗證本文方法在小樣本規模下的識別性能,選用CNN與本文模型進行對比分析。以10%為步長在原始數據樣本中隨機等比例抽取獨居與非獨居老人樣本,得到40%、50%等7個不同樣本規模的數據集,利用不同規模的樣本數據分別對β-級聯森林識別模型與CNN進行訓練,結果如圖9所示。

圖9 不同樣本規模下不同模型識別準確率Fig.9 The recognition accuracy of different models under different sample sizes

由圖9可知,在各個樣本規模下,本文提出的β-級聯森林識別模型的準確率均高于基于CNN的識別模型。在樣本數量較少時,CNN的識別準確率較低,而本文提出的β-級聯森林識別模型在小樣本規模下仍具有較高的準確率,具有良好的魯棒性。

4.4.3 不同樣本不平衡程度下模型性能分析

在實際識別獨居老人過程中,獨居老人數量遠少于其他類型居民。為進一步驗證本識別模型在不同樣本不平衡程度下相較于其他模型仍具有較好的識別性能,本文構建了不同的不平衡程度的樣本集。首先在原始數據樣本中隨機等比例抽取獨居老人樣本與非獨居老人樣本,此時2類居民樣本數量相等。然后依次在剩余非獨居老人樣本中隨機抽取樣本,使獨居老人樣本占比依次降為40%、30%與20%,并選用σIP與σGM指標對模型進行評估,結果如圖10所示。

圖10 不同樣本不平衡程度下模型性能Fig.10 Model performance under different sample imbalance

由圖10可知,隨著獨居老人樣本比例逐漸降低,各識別模型的識別性能均有所下降,其中GBDT與XGBoost模型在獨居老人占比20%時,識別準確率突然驟降,受樣本不平衡程度影響較大,難以運用于實際開展的獨居老人識別工作中。SVM模型雖然相較于GBDT與XGBoost識別性能相對穩定,但其識別準確率較低。而本文所構建的識別模型在σGM與σIP指標評價下均有較好的表現,在保證整體識別性能的同時,通過敏感因子增強對獨居老人樣本用電特征的學習,使得在不同樣本不平衡程度下也具有較高的準確率。

4.5 獨居老人的在線識別與監測結果

為驗證本文所提出識別模型的適用性,以浙江省杭州市某小區為例進行識別。首先,對基于電力公司用電采集系統獲取的該小區居民用電數據進行多維負荷特征提取。然后,將其輸入識別模型中進行識別,并通過工作人員上門查訪對識別結果進行實地驗證,可知在12棟居民樓中有71戶獨居老人被正確識別得到,具體識別結果如圖11所示。

圖11 識別結果統計Fig.11 Recognition result statistics

考慮獨居老人居民可能存在離家、搬遷或突發疾病等異常狀況,根據3.2節建立的用電異常指標對實際獨居老人居民的日常用電行為進行監測,判斷15戶居民存在用電異常,現場排查13戶居民離家,2戶居民存在安全問題,針對存在安全隱患的老人進行救助,規避其用電風險,避免發生嚴重的安全事故。

5 結 論

本文從電力大數據服務社會民生角度出發,著眼于當前政府依賴人工查訪識別獨居老人存在高成本且效率較低等問題,提出了一種基于多維負荷特性挖掘的電力特殊用戶用電行為分析方法。算例驗證表明:

1)結合人工經驗與神經網絡強大特征提取能力建立的多維負荷特征集能夠對2類居民差異化的用電特征進行更加全面的表征。

2)提出的基于β-級聯森林的識別模型相較于其他模型能夠實現對獨居老人精準識別,降低對超參數設置的依賴,具有較好的識別性能與識別穩定性。

3)本文所提出的方法為電力公司輔助政府治理社會問題提供了數據支撐,具有一定的工程應用價值。

猜你喜歡
級聯特征提取用電
用電安全
用煤用電用氣保障工作的通知
安全用電知識多
用電安全要注意
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
級聯LDPC碼的STBC-OFDM系統
基于級聯MUSIC的面陣中的二維DOA估計算法
基于MED和循環域解調的多故障特征提取
LCL濾波器在6kV級聯STATCOM中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合