?

基于改進K-means聚類和皮爾遜相關系數戶變關系異常診斷

2024-03-21 03:17周綱黃瑞劉度度張芝敏胡軍華高云鵬
電測與儀表 2024年3期
關鍵詞:總表皮爾遜臺區

周綱,黃瑞,3,劉度度,張芝敏,胡軍華,高云鵬

(1.國網湖南省電力有限公司, 長沙 410004; 2.智能電氣量測與應用技術湖南省重點實驗室, 長沙 410004; 3.湖南大學, 長沙 410082)

0 引 言

隨著電網建設的快速發展,包含海量數據的用電信息采集系統不僅可直接反映配電網的運行狀況,且能間接反映配電網的拓撲關系[1]?,F有配電網拓撲結構校驗主要包括:線變關系校驗[2-3]、饋線拓撲校驗[4]、戶變關系及相位校驗[5-6]、線戶關系校驗[7]。正確的低壓配電網拓撲,尤其正確的戶變關系是當前配電網管理精細化和降耗減損的基礎[8]。然而存在部分臺區線路臨時改變使戶變關系檔案更新不及時或記錄錯誤等原因,導致用戶進線端和集中器歸屬關系記錄不準確,戶變關系與實際不符,造成臺區線損計算時出現異常情況[9]。因此,臺區戶變關系的準確診斷與分析對當前配電網的精益化管理具有重要意義[10]。

現行校驗臺區戶變關系主要有人工專用設備現場識別和在線自動識別兩種方式[11-12]。人工方式需安排工作人員至現場識別,識別效率低、成本高[13]。數據挖掘及人工智能技術日趨成熟[14-15],同時用電信息采集系統愈加完善,合理利用系統大數據可有效診斷臺區戶變關系異常問題[16]。據此文獻[17]采用基于改進皮爾遜相關系數和KNN算法校驗低壓配電網拓撲;文獻[18]構建低壓配電網拓撲結構的知識圖譜,對低壓配電網信息系統中的戶變關系進行辨識;文獻[19]基于臺區歷史銷售數據,通過數據驅動的優化算法建立用戶-變壓器驗證模型;文獻[20]提出電壓剖面分析方法,檢測變壓器鄰域內連接錯誤的用戶;文獻[21]基于電壓數據和分布相似性,分析用戶-變壓器連接關系,以上方法主要針對少用戶臺區中出現異常用戶情況,但無法實現多用戶臺區和多個異常用戶情況診斷與分析。

為準確提取多個相鄰臺區異常用戶間特征,本文提出基于主成分分析(PCA)改進K-means聚類算法降低輸入數據維度,提取電壓數據特征得到不同特征異常用戶并作為待檢測用戶,建立改進皮爾遜相關系數算法分析待檢測用戶,診斷多個異常用戶分別所屬正確臺區,據此提出基于改進K-means聚類和改進皮爾遜相關系數的戶變關系異常診斷方法。最后采用實際算例分析驗證本文提出方法在識別同一臺區一個及多個異常用戶、不同臺區多個異常用戶各情況下的有效性和準確性。

1 戶變關系異常形式分析

目前國內低壓臺區戶變關系錯誤主要形式為主站系統中記錄的用戶檔案與實際信息不相符,且通常把某個臺區用戶錯誤掛接至相鄰臺區,或把某個饋線變壓器錯誤掛接至相鄰饋線,該情況會影響正確的戶變關系,阻礙正常線損計算。若將實際屬于臺區A的用戶1檔案信息錯歸為臺區B所有,則線損計算時將造成臺區A線損偏小,而臺區B線損偏大結果發生。

在低壓配電網中,由于各處負荷的不確定性,電壓通常也隨之波動。電氣距離較近負荷,其電壓波動曲線較相似,而電氣距離較遠負荷其電壓波動曲線相似度較低。因此,可選取用戶電壓曲線相似性作為臺區戶變關系異常診斷的依據。某臺區其中137個用戶電表電壓值和相鄰臺區3個用戶的電壓值如圖1所示。

圖1 用戶電表電壓波動曲線圖

由圖1可知,同一臺區用戶電表電壓數據波動相似性較高,多個異常用戶的電壓波動與該臺區正確用戶的電壓波動曲線相似性較低,可作為戶變關系異常診斷的依據,但僅憑電壓波動曲線圖無法準確識別出臺區中的異常用戶,故可采用電壓相似性的定量分析實現對戶變關系的正確識別。

2 改進K-means聚類算法

2.1 主成分分析

通常臺區用戶電表電壓數據為一天24小時,每隔1小時采集一次,對于數據維度為24維的高維數據,傳統聚類算法將面臨高維數據包含海量冗余、不相干信息問題,直接對高維數據聚類極大降低性能,聚類算法難以實現高穩定性。因此,本文采用PCA對原始數據進行降維處理。

基于PCA將p維電壓數據特征在m維上體現,該m維數據信息也被稱為主成分,為在原有p維電壓數據特征上構造出m維新特征,對臺區n個用戶電表p維電壓數據有:

(1)

通過PCA得出的主成分之間互不相關,故計算電壓數據相關系數為:

(2)

由式(2)可得電壓數據相關系數矩陣為:

(3)

式中rij(i,j=1,2,…,p)為臺區電壓數據xi、xj的相關系數,rij=rji。

根據式(3)解特征方程,有:

|λI-R|=0

(4)

根據數值大小得特征值λ1≥λ2≥…≥λp≥0,同理可得對應于特征值λi的特征向量ei(i=1,2,…,p)。

根據主成分貢獻率法(CPV)確定主成分個數m,計算各主成分的貢獻率CPVi與累計貢獻率CPVa分別為:

(5)

(6)

式中CPVi為第i個主成分的貢獻率;λm為第m(m≤p)個主成分所對應的特征值;CPVa為控制限。

通過式(5)和式(6)計算包含原始電壓數據絕大部分信息的主成分個數m,用式(1)中原始電壓數據矩陣X的m個特征向量作線性組合得到主成分,則有:

(7)

式中zij(i=1,2,…,n,j=1,2,…,m)為臺區用戶電表電壓數據第i個樣本第j個主成分。

2.2 改進K-means聚類

相同臺區用戶電壓數據波動相似性使其具有相同特征,據此可根據這些特征檢測出異常用戶。K-means聚類根據迭代理論,求出最大迭代步數或使得聚類誤差函數收斂得到聚類中心,其為無監督學習算法,適用于檢測臺區中異常用戶,但存在隨機選取其初始聚類中心問題,不合適選取會極大影響最終聚類結果。因此,本文初始聚類中心選取不是隨機選取,而是根據數據維度的最大和最小值。

基于盡可能得到相互距離遠的初始聚類中心原則,選取初始聚類中心改進K-means算法,由此避免出現初始聚類中心選擇錯誤的問題。

對于降維電壓數據選取k個樣本點作為k個初始聚類中心有:

μr=ma(i)+(mi(i)-ma(i))+rand(),r=1,2,…,k

(8)

式中ma為每一維最大數,mi為每一維最小數。

針對電壓中每個樣本數據,分別計算其到已有最近聚類中心歐式距離為:

(9)

式中zij為降維后電壓數據;μr為初始聚類中心。

由式(9)所求距離值越大表示該樣本被選取作為下一次聚類中心的概率越大,樣本數據被分別歸為最近聚類中心類別后得到k個簇,計算樣本被選取作為聚類中心的概率,可得:

(10)

式中D(zij)為樣本到聚類中心的距離。

聚類分析臺區用戶電表降維后電壓數據,如部分數據通過PCA得到2維數據為A(0.1,0.1),B(0.2,0.2),C(0.2,0),D(0.4,0.6),E(0.5,0.6),F(0.5,0.5),G(0.6,0.5),并在首次聚類中選擇C1(0.2,0.3),C2(0.5,0.3)兩點作為第1個和第2個聚類中心如圖2所示。

圖2 電壓數據聚類中心選取圖

由圖2可見,計算每一簇中其他電壓數據樣本與該簇當前已有最近聚類中心距離D(zij),以及各簇中每個電壓數據樣本被選取作為下一個聚類中心的概率P(zij)分別如表1和表2所示。

表1 中心點1聚類距離與概率

表2 中心點2聚類距離與概率

由表1可見,對于第一簇數據A點被選為下一個聚類中心的概率最大,對于第二簇數據D點被選為下一個聚類中心的概率最大。由圖2可見,A,D分別為距離初始聚類中心C1和C2點最遠兩點。

由式(9)求得每個樣本與當前最近一個聚類中心的距離并選取最大值,基于相互距離盡可能遠原則選取該樣本為該簇新聚類中心點,故可計算各簇下一個聚類中心為:

μr=argmax|D(zij)|

(11)

式中μr為各簇更新的聚類中心;max|D(zij)|為每個樣本與當前最近一個聚類中心的最大距離。

重復式(9)和(11)不斷移動聚類中心直至聚類誤差函數收斂或達到最大迭代步數,平方誤差SSE函數為:

(12)

根據式(12)直至平方誤差SSE收斂或達到最大步數,選出k個聚類中心[μ1,μ2…,μk],并分別實現以μr為聚類中心的臺區用戶電表電壓數據聚類求得臺區內異常用戶。

3 改進皮爾遜相關系數法

通過上述改進K-means聚類分析臺區用戶電表電壓數據得到臺區內異常用戶,基于GIS系統找出臺區相鄰臺區并獲得電壓數據。由于現有關于皮爾遜相關系數適用于兩個變量間的線性相關性分析,可得出用戶電表電壓數據間相關程度,故本文采用改進皮爾遜相關系數法診斷出待檢測用戶所屬臺區。

皮爾遜相關系數用來度量兩個電壓數據X與Y之間的相互關系,可度量兩個變量線性相關的強弱,其總體相關系數為:

(13)

式中μX、μY為期望值;σX、σY為總體標準差;cov(X,Y)為協方差。

式(13)對于樣本的皮爾遜相關系數同樣可用,計算電壓樣本相關系數為:

(14)

皮爾遜相關系數因兩個變量的位置和尺度的變化并不會引起該系數的改變,即把X移動到a+bX和把Y移動到c+dY,其中a、b、c和d是常數,對兩個變量間相關系數毫無影響,且對于總體以及樣本皮爾遜相關系數公式同時成立,由此可得出更一般的線性變換則會改變相關系數。

(15)

(16)

(17)

(18)

根據兩個電壓數據X與Y間期望變換公式為:

E[(X-E(X))(Y-E(Y))]=E(XY)-

E(X)E(Y)

(19)

可計算總體相關系數為:

(20)

式中ρX,Y為總體皮爾遜相關系數;E(X)、E(Y)為電壓數據X、Y的期望值。

同理,由式(19)計算電壓數據樣本皮爾遜相關系數可得:

(21)

皮爾遜相關系數為|rx,y|≤1,rx,y大于零表示兩者為正相關方向,小于零表示為負相關方向,評價皮爾遜相關系數的標準如表3所示。

表3 皮爾遜相關系數關聯度標準

由表3可見,皮爾遜相關系數取值決定兩者相關程度,但實際應用中無法設定參考值去判斷某用戶是否屬于某臺區。通過上述聚類算法得到某臺區中異常用戶,由于該臺區及鄰近幾個臺區用戶較多,計算待檢測用戶與各個臺區間的皮爾遜相關系數工作量巨大,故計算待檢測用戶與幾個臺區總表間的皮爾遜相關系數,通過選取最大相關系數改進皮爾遜相關系數法,即相關系數最大者對應臺區為待檢測用戶所屬正確臺區。本文所使用的改進算法可有效避免皮爾遜相關系數參考值的選取,只需對待檢測用戶與各個臺區總表間的皮爾遜相關系數進行大小排序,相關系數最大者即為所求臺區。

4 算例分析

本文使用數據為某個臺區其中137個用戶的每24個小時每隔1小時采集的電壓數據。先判斷出異常用戶,對于需校驗用戶,基于GIS系統的實際數據和配電網規劃設計技術導則剪輯獲取相鄰臺區總表電壓數據,診斷待校驗用戶所屬正確臺區,分別采用以下各種情況對本文提出算法進行驗證。

4.1 1臺區1用戶分析

首先針對該臺區相鄰1個臺區中的1個用戶錯接入該臺區的情況進行仿真和分析,將2臺區1用戶加入1臺區中,并對該用戶進行異常診斷,找出該用戶所屬正確臺區,計算待檢測用戶與5個臺區總表間的皮爾遜相關系數如圖3所示。

圖3 1臺區1用戶異常診斷

由圖3可見,該用戶與2臺區總表間的皮爾遜相關系數為0.991 0,在5個臺區中為最大值,根據相關系數最大者所對應臺區即為待檢測用戶所屬的正確臺區,表明該用戶屬于2臺區,與真實結果相同,由此驗證本文算法在相鄰1個臺區中1個用戶錯接入該臺區情況下的準確性和可行性。

4.2 1臺區n用戶分析

為驗證本文算法在1個臺區多個用戶錯接入其他臺區情況下的準確性和可行性,針對該臺區相鄰1個臺區中的7個用戶錯接入該臺區的情況進行仿真和分析,將3臺區7個用戶加入1臺區中,并進行診斷分析,計算待檢測7個用戶與5個臺區總表間的皮爾遜相關系數如圖4所示。

圖4 1臺區n用戶異常診斷

計算待檢測7個用戶與5個臺區總表間的皮爾遜相關系數,并將皮爾遜相關系數所對應臺區與實際臺區作比較結果如表4所示。

表4 皮爾遜相關系數測試結果

由表4可見,可直觀得出7個待檢測用戶與臺區總表間最大皮爾遜相關系數對應的臺區均為3臺區,實際對應臺區也均屬于3臺區,由此可見本文算法在相鄰1個臺區中n個用戶錯接入該臺區情況下的具有較高的準確度性。

4.3 n臺區1用戶分析

為驗證本文算法在多個臺區用戶錯接入其他臺區情況下的準確性和可行性,針對該臺區相鄰2個臺區中的各1個用戶錯接入該臺區的情況進行仿真和分析,分別將2臺區1個用戶和3臺區1個用戶加入1臺區,并進行診斷分析,計算待檢測2個用戶與5個臺區總表間的皮爾遜相關系數如圖5所示。

圖5 n臺區1用戶異常診斷

由圖5可知,2個五邊形頂點作為待檢測1、2用戶電表電壓與5個臺區總表電壓間的皮爾遜相關系數,待檢測用戶1僅與2臺區總表間的皮爾遜相關系數超過0.990 0,待檢測用戶2僅與3臺區總表間的皮爾遜相關系數超過0.980 0,根據相關系數最大者所對應的臺區即為待檢測用戶所屬的正確臺區,表明2個待檢測用戶分別屬于2臺區、3臺區,與真實結果相同,由此可驗證本文提出算法在相鄰n個臺區中1個用戶錯接入該臺區情況下的準確性和有效性。

4.4 n臺區n用戶分析

為驗證本文算法在多個臺區多個用戶錯接入其他臺區情況下的準確性和可行性,針對該臺區相鄰2個臺區中各7個用戶錯接入該臺區的情況進行仿真和分析,分別將2臺區7個用戶和3臺區7個用戶加入1臺區,并進行診斷分析,計算待檢測14個用戶與5個臺區總表之間的皮爾遜相關系數如圖6所示。

圖6 n臺區n用戶異常診斷

由圖6可見,用戶1到用戶7與臺區3皮爾遜相關系數最大,用戶8、用戶10到用戶14與臺區2皮爾遜相關系數最大,用戶9與臺區1皮爾遜相關系數最大。因此,除用戶9外,1到7個待檢測用戶均屬于3臺區,8到14個待檢測用戶均屬于2臺區。表明除用戶9外,其余待檢測用戶診斷結果與真實結果相同,又因聚類結果中用戶9已被識別為1臺區異常用戶,故從1臺區排除,且用戶9與臺區2總表皮爾遜相關系數大于其他臺區,故綜合判斷可得出用戶9所屬正確臺區。由此可知本文算法在相鄰n個臺區中n個用戶錯接入該臺區情況下仍有較高的準確性。

4.5 數據長度影響分析

為分析用戶電能表電壓數據長度對識別結果的影響,本文提出異常用戶識別正確率指標,以反映臺區戶變關系識別準確性,該指標定義為診斷出異常用戶數與待診斷總用戶數比值,數值越大表明識別結果越準確,電壓數據長度定義為用戶電壓時間維度,選取一天中2個時刻的電壓值到24個時刻的電壓值情況下,本文算法的識別正確率如圖7所示。

圖7 數據長度影響分析圖

由圖7可見,當電壓數據長度低于10維時,本文提出算法識別正確率隨著電壓數據長度的增加,呈現先急劇上升后平緩上升的趨勢,并在11維逐漸收斂,穩定在90%以上的正確率,表明電壓數據長度越大,本文提出算法對戶變關系異常診斷結果越準確。

4.6 與常用算法比較

為比較不同戶變關系異常診斷的方法,選取改進灰色關聯度分析法、BP神經網絡法、離群點檢測法LOF(local outlier factor)、結合平均密度改進LOF異常點檢測法以及本文提出的改進皮爾遜相關系數法進行仿真比較。以多個臺區多個用戶錯接入其他臺區為例,將該臺區相鄰2個臺區中的各7個用戶放入該臺區進行診斷識別,其仿真對比如表5所示。

表5 與常用算法診斷結果對比

由表5可見,5種檢測方法異常診斷結果不同,其中改進灰色關聯度分析法異常用戶診斷數為7,正確識別率為50%;BP神經網絡法識別異常用戶數為9,正確識別率為64.29%;離群點檢測法LOF異常用戶診斷數為8,異常用戶總數為10,正確識別率為80%;結合平均密度改進LOF異常點檢測法識別異常用戶數為8,異常用戶總數為9,正確識別率為88.9%,本文提出算法識別異常用戶數為13,異常用戶總數為14,正確識別率為92.86%,綜合判斷可得到另外一個異常用戶所屬正確臺區。因此,本文提出的改進K-means聚類和皮爾遜相關系數戶變關系異常診斷算法相比常用檢測方法具有更高的診斷準確率。

5 結束語

針對多相鄰臺區戶變關系異常用戶間特征提取困難問題,本文建立基于改進K-means聚類和皮爾遜相關系數戶變關系異常診斷算法,實際算例分析結果表明:通過主成分分析對GIS系統獲取臺區總表和用戶電表電壓數據實現降維,高效實現電壓數據間的特征信息挖掘,建立改進K-means聚類提取電壓數據特征,選取更優聚類中心得到不同特征異常用戶并作為待檢測用戶,建立改進皮爾遜相關系數算法有效避免皮爾遜相關系數參考值的選取,提高檢測精度;相較于傳統檢測方法,本文提出算法在識別同一臺區一個及多個異常用戶、不同臺區多個異常用戶情況下均能有效實現對異常用戶的準確檢測與分析。本文提出的基于改進K-means聚類和改進皮爾遜相關系數的戶變關系異常診斷方法為臺區多相鄰臺區異常用戶診斷提供了一種新的解決方案。

猜你喜歡
總表皮爾遜臺區
現代統計學之父:卡爾·皮爾遜
現代統計學之父:卡爾·皮爾遜
Excel在水文學教學中的應用
卡方分布的探源
2016年西藏自治區一般公共預算收支決算總表
2016年寧夏回族自治區一般公共預算收支決算總表
2016年浙江省一般公共預算收支決算總表
降低臺區實時線損整治工作方法
三合一集中器作為臺區線損考核表計的探討
多功能低壓臺區識別設備的研制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合