?

考慮數據不均衡的居民用戶負荷曲線分類方法

2022-05-26 09:10張慧波王守相趙倩宇任杰王海
電力工程技術 2022年3期
關鍵詞:類別聚類密度

張慧波, 王守相, 趙倩宇, 任杰, 王海

(1. 智能電網教育部重點實驗室(天津大學),天津 300072;2. 國網冀北張家口風光儲輸新能源有限公司,河北 張家口 075061)

0 引言

用戶用電行為分析是電網分析規劃的重要環節。隨著智能采集裝置的廣泛應用,用戶用電活動可通過智能電表采樣并以負荷曲線等形式表現,其數據具有體量大、速度快、價值密度低等特征。針對用戶負荷數據特點,研究高效的負荷曲線分類方法有助于電力公司從海量用電側數據中挖掘用戶潛在用電規律,對開展負荷預測、需求響應、電價決策等工作有著重要意義[1—2]。

目前,負荷曲線分類方法主要有無監督聚類、有監督分類以及無監督與有監督相結合等。近來年關于負荷曲線無監督聚類所做的研究主要集中于改進聚類算法[3—4]和改進聚類特征2個方面。在算法方面,文獻[5]提出一種分段聚類方法對建筑負荷曲線分類,能夠更高效地獲取建筑的日典型用電模式。在聚類特征改進方面,主要聚焦在特征提取方法[6—8]和相似度度量計算方法[9—10],文獻[11]提出一種基于負荷曲線斜率分段的形狀聚類方法,能夠更好地捕捉曲線的形狀特征;文獻[12]采用樣本皮爾遜相關系數距離作為相似度度量,算例表明優于歐幾里得距離。在負荷有監督分類方面,應用最廣泛的是反向傳播神經網絡(back propagation neural network,BPNN)[13—14],但BPNN存在梯度爆炸、梯度消失等問題。在無監督與有監督結合方面,負荷數據作為無標簽數據,利用無監督聚類獲得類別標簽,訓練有監督學習模型進行分類,可將無監督與有監督的優勢相結合,實現海量負荷數據的高效分類,其首先應獲得訓練集的精準類別標簽[15—17]。

不均衡數據是指數據集中歸屬于某一類別的樣本數量和密度與其他類別有較大差異。由于用戶用電行為的隨機性與多樣性,負荷數據同樣存在不均衡的現象,某些類別的負荷數量遠少于其他類別的負荷數量。傳統的K-means算法處理此類數據時容易出現“均勻效應”[18—19],小類會吞噬大類中的部分樣本,而傳統分類方法同樣在小樣本類別上分類效果欠佳。目前在負荷曲線分類時考慮不均衡數據問題的研究較少,文獻[20]改進密度峰值聚類(density peak clustering,DPC)算法實現了對多類別分布不均衡的負荷曲線聚類,但該算法計算復雜度較高,難以處理海量負荷數據;文獻[21—23]利用過采樣技術處理類別不平衡問題后訓練分類模型,但其前提是訓練集需要精準的類別標簽,而負荷數據是無標簽數據,難以獲得準確的類別信息。

為了解決上述問題,提出一種無監督與有監督相結合的負荷曲線分類方法。首先,采用長短期記憶(long short-term memory,LSTM)神經網絡自編碼器對負荷曲線進行特征降維;然后,基于相對k近鄰密度峰值(relatedk-nearest neigh ̄bor density peaks,RKDP)初始聚類中心選取方法改進K-means獲得訓練集精準類別標簽;最后訓練搭建的LSTM-卷積神經網絡(convolutional neural network,CNN)分類模型,實現大規模負荷數據分類。

1 RKDP初始聚類中心選取方法

DPC算法的核心思想為:聚類中心本身的局部密度大,即其被小于其密度的鄰居所包圍;聚類中心與其他具有更大密度的數據點之間有相對大的距離[24]。在DPC算法中,每個數據點i有2個重要參數:局部密度ρi與相對距離δi。

基于高斯核計算數據點i的局部密度ρi為:

(1)

式中:di,j為數據點i,j之間的距離;dc為截斷距離,即距離閾值。與數據點i距離小于dc的點越多,該點的局部密度ρi就越大。

相對距離δi為數據點i與其他密度比它大的數據點的所有距離中的最小值,計算公式為:

(2)

根據DPC算法的核心思想,將相對距離大且局部密度值大的點選定為聚類中心,然后將剩余數據分配到密度比它高的最近數據點所在類別,快速完成聚類。然而,DPC算法在數據集密集程度不均時效果較差,這是由于該算法定義的局部密度是由全局數據進行計算,未考慮數據內部局部結構差異。當數據集不同類別間密集程度差異較大時,全局范圍內密度較高的點可能全分布在密集類別中,容易忽略密度稀疏的類別,難以找到正確的初始聚類中心[25]。因此,通過計算數據點與其近鄰點間相對密度可能更能反映該點是否為潛在的聚類中心。

文中基于DPC算法思想,提出RKDP初始聚類中心選取方法,該方法須提前設定2個參數:聚類中心數K和k近鄰的參數n,其具體流程如下。

(1) 首先,通過數據點i與其近鄰點的距離來計算其局部密度,新的局部密度ρi計算公式如式(3)所示,Ni為i的n個近鄰點集合。

(3)

(4)

(3) 基于DPC算法思想(聚類中心有著較大的局部密度與相對距離)引入聚類中心權值γi來選擇初始聚類中心,計算公式如下:

(5)

2 LSTM自編碼器

自編碼器(auto-encoder,AE)是一種常用于特征提取與降維的神經網絡,包括編碼與解碼2個過程,其基本結構如圖1所示,包括輸入層、隱藏層和輸出層3個部分[8]。AE的思想就是在輸出層最大程度重構輸入數據,同時通過隱藏層提取輸入數據的隱藏特征,通過設置隱藏層神經元數量小于輸入數據維度即可實現特征降維。

LSTM神經網絡是一種改進的時間循環網絡,依靠其獨特的門控結構和記憶單元可有效處理長時間序列,目前在時序預測、分類等領域有廣泛的應用。LSTM神經網絡基本單元主要包括遺忘門、輸入門和輸出門3個門控單元[23—24]。

圖1 AE結構Fig.1 Structure of AE

文中將傳統AE與LSTM神經網絡相結合,提取負荷數據的時序特征,所提出的LSTM-AE網絡結構如表1所示。

表1 LSTM-AE網絡結構Table 1 Network structure of LSTM-AE

3 基于LSTM-CNN的負荷曲線分類模型

CNN近年來在深度學習領域被廣泛應用,其內部基于局部連接和共享權值的方式可有效提取數據的潛在特征[26—27]。文中使用CNN提取負荷數據的深層次特征,同時與LSTM神經網絡提取的時序特征拼接作為特征向量,實現特征增強,從而提升分類模型對不平衡數據的處理能力。所提出的LSTM-CNN分類模型如圖2所示,主要包括CNN子模塊、LSTM子模塊以及分類模塊。CNN子模塊主要由2層的一維卷積層與池化層組成。Reshape層轉換輸入數據維度,2層卷積層提取數據特征,激活函數為Relu;池化層對卷積層提取特征進行下采樣,實現特征約簡。LSTM子模塊由2層LSTM網絡層構成,神經元數量均為64,激活函數為Relu,用于提取負荷的內在時序特征。分類模塊中,特征拼接層對LSTM及CNN子模塊提取的特征進行拼接,輸出為一維特征向量;第一層全連接層實現特征降維,激活函數為Relu,數量為32;第二層全連接層激活函數設置為Softmax,其神經元數量取決于負荷類別數,輸出最后的分類結果。

圖2 LSTM-CNN分類模型結構Fig.2 Structure of LSTM-CNN classification model

4 算例分析

4.1 實驗數據及評價指標

4.1.1 實驗數據介紹

由于負荷數據缺乏類別標簽,無法直接測試所提方法對不均衡數據的分類能力,文中基于UCI數據集中的DIris,DWine,DSeed數據集來驗證RKDP初始聚類中心選取方法的有效性,同時選取Synthetic Control時序數據集對所提出的LSTM-CNN分類模型進行測試。最后,選取倫敦智能電表數據集DL及愛爾蘭負荷數據DI作為實際負荷數據進行負荷聚類及分類實驗(采樣時間間隔均為30 min,即每天有48個采樣點),驗證所提方法的有效性。文中所使用的實驗平臺處理器型號為AMD Ryzen Threadripper 3970X,操作系統為Windows 10,所用編程語言為Python 3.7,所提出的神經網絡模型采用keras深度學習框架搭建。

4.1.2 評價指標介紹

在聚類性能評估指標方面,對于有類別標簽的數據集,選取調整互信息(adjusted mutual in ̄for ̄ma ̄tion,AMI)iAMI、調整蘭德系數(adjusted rand in ̄dex,ARI)iARI和Fowlkes-Mallows指數(fowlkes-mal ̄lows index,FMI)iFMI3項指標來描述聚類結果與實際標簽的吻合程度,上限均為1,其值越接近1表示聚類效果越好。對于無標簽負荷數據,選取常用的輪廓系數(silhouette coefficient,SC)iSC和戴維森堡丁指數(Davies-Bouldin index,DBI)iDBI,iSC值越大、iDBI越小意味著類內距離越小,類間距離越大,聚類效果越好[28—30]。在分類模型評估指標方面,直接選擇分類準確率作為分類模型的評價指標。

4.2 RKDP-K-means性能測試

4.2.1 RKDP有效性驗證

首先將RKDP-K-means算法直接與K-means算法進行對比,驗證RKDP初始聚類中心選取方法能夠提升K-means方法對不均衡數據的聚類精度?;贒Iris,DWine,DSeed3個真實數據集,采用隨機抽樣法分別構建不平衡比例為3∶1,5∶1,10∶1的數據集,聚類數均為各數據集的類別數,k近鄰參數在3~20之間選取,每種不平衡比例下重復5次,即每個數據集進行15次實驗,2種方法的iARI,iAMI,iFMI及其平均值分別見表2和表3,iIter為迭代次數均值。

由表2和表3可知,K-means算法聚類精度隨著不平衡比例加重逐漸下降,以DWine數據集為例,數據不平衡比例由3∶1變為10∶1時,iARI指標由0.858變為0.670,而RKDP-K-means算法由0.876變為0.804,仍保持較高水平;在各指標平均值方面,相對于K-means算法,RKDP-K-means算法的iARI,iAMI,iFMI均有提升,且迭代次數減少。綜上,文中所提出的RKDP初始聚類中心選取方法能夠有效提升K-means算法對不平衡數據的處理能力。

表2 K-means實驗結果Table 2 Experimental results of K-means

表3 RKDP-K-means實驗結果Table 3 Experimental results of the RKDP-K-means

4.2.2 聚類效果對比分析

為了更加客觀地驗證所提算法處理不均衡數據的有效性,將RKDP-K-means算法與基于劃分的K-means、基于空間密度的聚類(density-based spatial clustering of applications with noise,DBSCAN)[31]、基于層次的凝聚聚類(agglomerative clustering,AG)及基于圖論的譜聚類(spectral clustering,SP)4種方法進行對比。其中,K-means、AG及SP聚類數設置為3,DBSCAN鄰域半徑以0.02為步長,在0.1~0.5之間選取,鄰域內最少樣本數在5~25之間選取,RKDP-K-means的k近鄰參數在3~20之間選取。所有結果均為最佳參數下測得,每組不平衡數據同樣重復5次,表4為5種方法的準確率。

由表4可知,RKDP-K-means算法在各數據集下均優于K-means算法,以DWine數據集為例,隨著不平衡比例加大,K-means的準確率從0.957變為0.829,RKDP-K-means從0.964變為0.915,仍有較高準確度。整體上看,RKDP-K-means算法的準確率均值均優于其他4種方法。因此,RKDP-K-means算法在處理不平衡數據時具有優勢。

表4 5種聚類算法準確率Table 4 Accuracy of five clustering algorithms

4.3 實際負荷數據聚類分析

采用實際負荷數據來對LSTM-AE的性能進行評價分析。從DL數據集中隨機選取500條負荷曲線為實驗對象,基于K-means算法計算不同聚類數下的iSC,iDBI指標,結果如圖3所示,當聚類數目為4時,2項指標所反映的聚類效果較好,因此設置聚類數為4。分別采用LSTM-AE、主成分分析(prin ̄cipal component analysis,PCA)、核主成分分析(kernel PCA,KPCA)、AE 4種降維方法(維度均設置為8)降維后采用RKDP-K-means聚類以及K-means,RKDP-K-means不降維直接聚類進行對比,重復10次試驗。同時基于DI重復上述實驗進行驗證,聚類中心數設置為3,結果如表5所示。

圖3 SC和DBI與聚類數目關系Fig.3 Relationship between SC,DBI and cluster number

表5 LSTM-AE有效性驗證實驗結果Table 5 Results of validity verification of LSTM-AE

為表述方便,將經LSTM-AE降維后RKDP-K-means聚類命名為LARK聚類算法。由表5可知,RKDP-K-means在iSC指標上優于K-means算法,iDBI指標基本持平。與RKDP-K-means聚類相比,LARK算法的各項指標均有較大幅度的改善,在DL和DI數據集上,iSC指標分別提升0.121和0.05,這表明LSTM-AE能夠提升RKDP-K-means的聚類精度。通過對比4種降維方法可以發現,LSTM-AE的特征提取能力優于其他3種方法。

4.4 LSTM-CNN分類模型測試

4.4.1 LSTM-CNN網絡測試

首先,使用Synthetic Control時序數據集測試所提出的LSTM-CNN分類模型,與相同結構的LSTM網絡模型以及傳統支持向量機(support vector machine,SVM)模型進行對比,訓練集與測試集比例為1∶1,神經網絡迭代次數設置為100,優化器為adam,損失函數為MSE;SVM算法中核參數為徑向基,分類準確率如表6所示。由表6可知,3種方法在訓練集上均有100%的準確率,在測試集上,LSTM模型最弱,僅有95.3%,而所提出的LSTM-CNN分類模型與SVM均達到了97.7%的準確率。

表6 3種方法分類準確率對比Table 6 Classification accuracy comparisonof three methods %

為了驗證LSTM-CNN模型對不平衡時序數據的分類性能,基于Synthetic Control時序數據集構建了15種類別不平衡數據集,與LSTM模型和SVM模型進行對比,傳統SVM模型處理不平衡時序數據性能較弱,準確率均值僅有80.7%,LSTM模型準確率均值為87.9%,而所提LSTM-CNN模型相對其他2種方法有著更好的分類性能,準確率高達92.2%。由此可見,提出的基于LSTM-CNN模型能夠有效處理時序不平衡數據分類問題。

4.4.2 實際負荷數據分類測試

(1) 算法分類性能測試?;贒L和DI負荷數據,分別隨機選取10萬條負荷曲線,按照3∶7構造訓練集與測試集,基于LARK獲得訓練集標簽數據,訓練LSTM-CNN模型實現對測試集的分類,與K-means和LARK直接聚類進行對比,DL,DI的聚類中心數分別設為6和8,iSC和iDBI指標如表7所示。由表7可知,文中方法聚類精度優于LARK算法,在2個數據集上,iSC指標分別提升0.043和0.044。K-means算法雖然在DI上iDBI指標最小,但其iSC指標僅有0.074,文中方法iSC指標相較于K-means提升0.118,iDBI指標提升0.172,整體上看,所提出的分類方法分類性能優于其他2種方法。

表7 3種方法SC、DBI對比Table 7 Comparison of SC,DBI of three methods

(2) 負荷分類結果。圖4為基于DI歸一化后的負荷分類結果,可以看出用戶的用電模式多種多樣,8種典型負荷曲線可大致分為平穩型用電和尖峰型用電。類別1一整天始終保持較高的負荷水平,在凌晨用電量較大。類別5也是平穩型用電類型,但其負荷水平一直很低。其余6種皆為尖峰型用電,但用電高峰時段不同,類別7是典型的午間負荷,類別4和類別6用電高峰分別出現在下午和傍晚,類別2、類別3和類別8是典型的晚間負荷,其中類別3的用電高峰時間持續較長。通過挖掘用戶的典型用電模式,有助于電力公司制定更好的售電方案,提高服務水平。

圖4 典型負荷曲線Fig.4 Typical daily load profiles

(3) 算法效率測試。文中所提方法包括LARK聚類獲取樣本標簽、LSTM-CNN模型訓練及分類3個環節,實驗對比了K-means、LARK及文中方法(訓練集∶ 測試集=3∶7)在不同規模負荷數據集下的計算速度,執行時間如圖5所示。

圖5 算法效率對比Fig.5 Comparison of algorithmic efficiency

從圖5可以看出,LARK聚類算法隨著數據規模增加運行時間急劇增大,在對30萬條負荷曲線分類時,LARK算法運行時間達到167 s,而文中方法僅用時37.4 s,相比于LARK算法效率提升3.46倍;傳統K-means算法用時20.5 s,文中方法雖相較于K-means算法較差,但在分類性能上表現更好,同時文中方法主要耗時在于標簽獲取與訓練分類模型環節(共耗時34.2 s),分類階段用時僅3.22 s,分類模型一旦訓練完成后可重復使用。因此,文中所提方法在面對大規模負荷分類時具有效率優勢。

5 結論

文中提出了一種考慮數據分布不均衡的負荷曲線分類方法,主要包括基于LSTM-AE實現負荷數據降維、基于RKDP-K-means聚類算法獲得負荷類別標簽及訓練LSTM-CNN分類模型實現大規模負荷分類三部分。通過算例分析驗證了文中方法的有效性,得到以下結論:

(1) 基于UCI公共數據集驗證了所提出的RKDP初始聚類中心選取方法可有效提升K-means算法對不均衡數據的聚類性能,其中iARI指標提升6.6%,迭代次數減少17.1%;

(2) 在RKDP-K-means算法對負荷進行聚類分析時,所提出的LSTM-AE特征提取方法可有效提升RKDP-K-means的聚類精度,在倫敦負荷測試集,iSC指標提升35.4%;

(3) 在大規模負荷分類上,基于LARK聚類與LSTM-CNN分類模型相結合的負荷分類方法相比于LARK算法有著更好的負荷分類性能,其中iSC指標提升29.7%,效率提升3.46倍。

猜你喜歡
類別聚類密度
『密度』知識鞏固
密度在身邊 應用隨處見
基于K-means聚類的車-地無線通信場強研究
“玩轉”密度
密度應用知多少
壯字喃字同形字的三種類別及簡要分析
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
服務類別
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合