?

基于數據挖掘的暫態電力斜坡均衡聚類算法研究

2017-05-23 09:09彭勇黃夢蘭姜祖明魏華勇劉煜
電網與清潔能源 2017年12期
關鍵詞:斜坡數據挖掘均值

彭勇,黃夢蘭,姜祖明,魏華勇,劉煜

(國網河南省電力公司信陽供電公司,河南信陽 464000)

功率斜坡的準確估算對風力發電站極其重要。由于風速的間歇性變化,風力發電站的功率水平也會隨之產生隨機性變化。功率水平的即時波動性變化被定義為斜坡事件,即功率斜坡率(變化率)(PRR)是指功率水平的瞬時變化,由電力產生的一階導數異常識別的功率生產梯度表示。電力上漲和下降分別稱為正負斜坡問題,負斜坡影響電力系統的安全性,其會造成意外事故。同時,影響儲備電力市場的財務后果[1-2]。發電站發電量總是正值或是零值,但由于電力方向的改變,PRR可能是負值和正值。PRR的絕對值越高,功率激增(下降)越快。

功率斜坡率相關的應用程序通過使用可用的歷史數據,如SCADA和氣象桅桿數據來創建預測模型。在這些海量數據中,可通過數據挖掘方法來發現并解決問題。網格服務基礎設施,始終是數據挖掘方法的實現之一[3]。在功率斜坡事件的分析中,存在具有物理參數,空間參數和時間參數的數據。本文將重點研究采用其中高頻率出現的大數據集來幫助數據挖掘形成相關預測規則,進而為操作室的決策制定提供參考。為了理解產生功率斜坡間的關系,文獻[4~5]根據空間和時間效應研究了每個渦輪機的位置,這將在本文中進一步擴展為具有物理和時間參數的相關預測規則,這些規則將被應用到電力系統運行室的決策過程中。

文獻[6]針對時間物理參數空間研究,證明了從歷史SCADA數據中獲取的一些大氣物理參數對于產生電力斜坡比其他大氣物理參數更重要。在該文中,作者為控制室操作員推導出輔助關鍵集??刂剖也僮鲉T面臨與功率斜坡相關的2個主要問題,首先是當風電出現意外沖擊時,由于風速呈現正的上升趨勢,在短時間內出現意外沖擊,可能導致電網不平衡,操作員必須平衡負荷,降低其他發電站的風電產量;其次是,對于負斜坡情況,操作員應有足夠的備用電力。在文獻[7]的研究中,采用Apriori算法對中國河西走廊地區風速預測值提出相應的修正方案。在這項研究中,影響風速預測的氣象變量,如溫度、壓力和濕度,按照這些參數之間的規則進行聚類。進而發現每個小組的聚類方法,以減少其預測誤差。

1 聚類算法的關聯規則

聚類算法旨在優化目標函數F函數值隨C1,C2,C3,...,Ck定義的聚類數k的分割而變化

式中:Qk(Ω)是K非空聚類中數據Ω=ω1,ω2,ω3,...,ωm的所有分區的集合。

1.1 K-均值聚類算法

K-均值算法通過聚類準則F創建一個求解局部最優值的解決方案,該聚類準則取決于每個元素與其最近的聚類中心(質心)之間的距離之和[8-9]??梢杂靡韵鹿奖硎?,式中:K是聚類數量;Ki是聚類i的對象數量國;ωij是第i個聚類的第j個對象;-ωi是每個聚類的質心。聚類算法優化目標函數F函數值隨C1,C2,C3,...,Ck定義的聚類數k的分割而變化

Qk(Ω)是K-非空聚類中所有數據分區Ω=ω1,ω2,ω3,...,ωm的集合。F的目標函數可擴展為[10]

傳統的K-均值算法偽碼[11]可以概括如下:

1)聚類方法需要實現最佳聚類大小的決策。聚類大小代表有意義的分區,不會丟失大聚類中的信息或創建過多的小聚類。當下已有多種方法來解決這一問題,其中之一是熵計算[12];第二種方法是在文獻[12]中討論的指標計算和優化。在該研究中,采用R程序中的nbclust包,基于文獻[12]中所提的幾個指標來執行該優化任務;

2)通過Forgy算法[11]執行數據庫的初始化分區(C1,C2,...,Ck);

3)計算每個聚類的質心;

4)重新分配ωi到最近的聚類質心;

6)重新進行一次完整的迭代,直到沒有進一步的聚類成員變化則停止。

下面介紹Apriori算法,其將對每個渦輪機的聚類數結果的輸出進行處理,以生成用于運營決策的關聯規則。

1.2 Apriori算法的關聯規則

為了說明Apriori算法的3層過程,定義一個數組表示下面的矩陣。其中,矩陣每一行的單個條目是一組二進制特征,t表示時間步長,l表示渦輪機編號,k表示聚類標簽。因此,在本例中總是有15個項目,式中項目集合15由I表示。

Pt,1...15的每一行條目均是一個轉換,表明轉換個數和時間步驟一樣多。每行轉換包含渦輪機在每個時間步驟的每個二進制形式的斜坡K均值聚類標簽的分析。每一行條目表示新的轉換將具有諸如X和Y的項目的子集,2個項目子集的大小均<15,且X,Y?I,X?Y=?。因此,可定義具有定向規則的關聯規則,即X→Y。關聯規則是根據每個原始行條目在每個轉換中定義的,每個原始行條目將定義一個新的關聯規則。但這將會創建多個關聯規則,因此需要對關聯進行更多的過濾。

支持是一種用戶定義的限制,用于過濾那些候選關聯規則的不相關事件,這些事件對于決策的重要性相對較小。這個功能將由函數supp(·)來定義,該函數統計了關聯規則發生的頻率。在關聯規則中,表示該關聯規則在所有行中發生的次數或大小。在數學上,項目集X規則的支持數σ(X→Y)可表示為[13-14]

式中:符號|·|表示一個集合中元素的個數。若將轉換總數或時間步長定義為N,則X→Y的支持可以定義為

置信度用來定義一個候選的關聯規則的支持比例,即用supp(X→Y)除以一個子集的支持supp(X),其表達為

置信度和支持之間的區別是,置信度是衡量關聯規則的強度,而支持則象征其統計意義。

升力是由函數lift(·)所表示的另一個標準。當有多個關聯規則時,這用于加強過濾器

生成項目組后,計數階段將識別每個項目組類別中項目組的頻率。對于理想的X和Y之間的關系,支持必須較大,且置信度必須高,更大的升力值則意味著項目之間具有更強的關聯。根據候選規則在計數中出現的次數,其支持值是通過候選規則的重復次數與觀察組之間的比率來計算的。在最后一步,每個候選規則將與其自身的支持值進行比較,然后與預先定義的支持值閾值進行比較,若超過這個門檻的候選規則將被選中。

這里討論的數據挖掘和發現規則查找方法,依賴于輸入轉換數據類型的性質。轉換是以下行為的數據形式:即不能將其分解為代表數據庫(DB)中所顯示的任何更改的較小部分,且每個轉換均是一組二進制值項目。在關聯規則處理中,輸入數據是具有時間維度的轉換數據,該時間維度是該數據的轉換計數。也可以使用不同的對象,例如物理變量、空間或時間維度?;谵D換數據,關聯規則處理,尤其是采用Apriori算法,通過多次迭代計算數據庫中轉換的頻繁對象組。

2 實際案例研究

本文研究福建平潭的是一座風力發電場,在80m處有5臺VESTASV90-3.0MW風機。如圖2所示,該風電場的主要風向是從北到南,該風電場5臺風機的發電量每10 min記錄一次。文中采用其2013年電力生產值來進行PRR分析,而數據按需要進行單位換算。

根據該風電場功率記錄計算得出的功率爬坡率(PRR)值,是文獻[15]中離散功率導數的比率

該PRR值作為K-均值算法的輸入。

圖1 平潭風力發電廠細節信息Fig.1 Detailed information of Pingtan Wind Power Plant

3 結果分析

采用R程序的NbClust包來分析優化的聚類數[12]。通過分析,將最大聚類大小定義為3,聚類結果如圖2所示。圖2(a)顯示了,數據協方差矩陣的2個主要主成分軸上時間尺度的聚類結果。這里主成分分析(PCA)結果僅用于定義聚類數據二維可視化的2個主要方向,聚類分析通過理論部分定義的K-均值算法來執行。在PCA和K-均值之間的關系與相似性也已在算法層面被利用,同時使用PCA進行K-均值模型的優化[16]。在圖2(a)中使用了PCA的主要方向,即dc1和dc2,可視化結果清楚地顯示了聚類PRR的時間數據圍繞3個聚類。

圖2 聚類結果Fig.2 Clustering results

圖3給出了Apriori算法關聯規則的結果。

圖3 一些關聯規則Fig.3 Some of the association rules

圖3(b)總結了X→Y之間的某些規則。根據圖3(b)中定義的置信度,最有力的規則是規則1:X→Y:{PRR2=2,PRR4=2}→{PRR5=2}。這種關系也在圖3(a)中的視覺輔助中被證明。例如X={PRR2=2,PRR4=2},其是左上角的第一個條目,從左到右的索引2(PRR2=2+2)表示在第一個條目2中。這表明對于LHS的不同關聯規則而言,出現次數是2次。括號中的第一項是PRR2=2,表示第二個渦輪斜坡是PRR2,聚類標號等于PRR2=2,最后一項表示還有一個類似于第一個的項目。在表示RHS的行是Y的情況下,可看到對于X→Y,Y={PRR5=2}。將圖 3(b)關聯到圖 3(a),其他規則也可以觀察到同樣的關系。

4 結語

本文基于數據挖掘的聚類和關聯規則算法,生成了一套針對電力斜坡的運行規則。首先,根據風電場數據的功率斜坡率將風力渦輪機分組,這是通過使用K-均值聚類規則來實現的。再將Apriori算法引入這些聚類關聯規則后,發電場運營商可以實施新的運營決策規則,本文所提出的方法可以應用于一般情況。未來的研究中,還可通過聚類算法與機器學習應用的結合,發現這些風電場大數據的復雜數據參數之間的隱藏規則,從而用于風電場的運營決策。

參考文獻

[1]姜晨,高亮.基于負序功率方向比較與聚類算法的改進繼電保護算法研究[J].電力系統保護與控制,2016,44(8):92-98.JIANG Chen,GAO Liang.Research on improved relay protection algorithm based on negative sequence power direction comparison and clustering algorithm[J].Power System Protection and Control,2016,44(8):92-98.

[2]楊甲甲,趙俊華,文福拴,等.智能電網環境下基于大數據挖掘的居民負荷設備識別與負荷建模[J].電力建設,2016,37(12):11-23.YANG Jiajia,ZHAO Junhua,WEN Fushuan,et al.Data mining residents load equipment identification and load modeling under smart grid environment[J].Electric Power Construction,2016,37(12):11-23.

[3]陸惠斌,徐勇,伍宇翔,等.基于換相技術的三相不平衡治理裝置研究[J].電力電容器與無功補償,2016,37(6):64-69.LU Huibin,XU Yong,WU Yuxiang,et al.Three phase unbalanced control device based on commutation technolo?gy research[J].Power Capacitor and Reactive Power Com?pensation,2016,37(6):64-69.

[4]盧偉國,方慧敏,楊異迪,等.Boost PFC變換器的動態斜坡補償策略分析與設計[J].電力自動化設備,2017,37(5):1-6.LU Weiguo,FANG Huimin,YANG Yidi,et al.Analysis and design of Boost PFC converter dynamic slope compen?sation strategy[J].Power Automation Equipment,2017,37(5):1-6.

[5]蘇舟,李燦,姚李孝,等.電力負荷數據預處理研究及應用[J].電網與清潔能源,2017,33(5):40-43.SU Zhou,LI Can,YAO Lixiao,et al.Research and appli?cation of power load data preprocessing and research and application[J].Power System and Clean Energy,2017,33(5):40-43.

[6]楊飛,朱志祥.基于特征和空間信息的核模糊C-均值聚類算法[J].電子科技,2016,29(2):16-19.YANG Fei,ZHU Zhixiang.Kernel fuzzy C-mean cluster?ing algorithm based on feature and spatial information[J].Electronic Science and Technology,2016,29(2):16-19.

[7]馬小慧,陽育德,龔利武.基于Kohonen聚類和SVM組合算法的電網日最大負荷預測[J].電網與清潔能源,2014,30(2):7-11.MA Xiaohui,YANG Yude,GONG Liwu.Based on koho?nen clustering and SVM combination algorithm for daily maximum load of power grid[J].Power System and Clean Energy,2014,30(2):7-11.

[8]賈璦瑋.基于劃分的聚類算法研究綜述[J].電子設計工程,2014(23):38-41.JIA Aiwei.Partition clustering algorithm research based on divide[J].ElectronicDesignEngineering,2014(23):38-41.

[9]張宇獻,劉通,董曉,等.基于改進劃分系數的模糊聚類有效性函數[J].沈陽工業大學學報,2014,36(4):431-435.ZHANG Yuxian,LIU Tong,DONG Xiao,et al.Fuzzy clustering effectiveness function based on improved parti?tion coefficient[J].Journal of Shenyang University of Tech?nology,2014,36(4):431-435.

[10]劉飛,唐雅娟,劉瑤.K-means聚類算法中聚類個數的方法研究[J].電子設計工程,2017,25(15):9-13.LIU Fei,TANG Yajuan,LIU Yao.Study of the K-means clustering algorithm to cluster the number of methods[J].Electronic Design Engineering,2017,25(15):9-13.

[11]OHBA M,KADOKURA S,NOHARA D.Impacts of synoptic circulation patterns on wind power ramp events in East Japan[J].Renewable Energy,2016,96(3):591-602.

[12]CORNEJO BUENO L,AYBAR RUIZ A,CAMACHO GóMEZ C,et al.A hybrid neuro-evolutionary algorithm for wind power ramp events detection[J].2017.

[13]FAN Yaju,KAMATH Chandrika.Detecting ramp events in wind energy generation using affinity evaluation on weather data[J].Statistical Analysis and Data Mining,2016,9(3):155-173.

[14]LI Y,DAI C,WANG T,et al.Separate wind power and ramp predictions based on meteorological variables and clustering method[C].Morben:IEEE International Confer?ence on Power Systems,IEEE,2016.

[15]ZHANG J,CUI MINGJIAN,BRI MATHIAS HODGE,et al.Ramp forecasting performance from improved shortterm wind power forecasting over multiple spatial and tem?poral scales[J].Energy,2017,122(8):528-541.

[16]YILDIRIM N,UZUNOGLU B.Data mining via association rules for power ramps detected by clustering or optimiza?tion[M].Berlin Heidelberg:Springer,2016.

猜你喜歡
斜坡數據挖掘均值
探討人工智能與數據挖掘發展趨勢
信仰的“斜坡”
夢是長長的斜坡(外一首)
基于并行計算的大數據挖掘在電網中的應用
均值與方差在生活中的應用
一種基于Hadoop的大數據挖掘云服務及應用
關于均值有界變差函數的重要不等式
對偶均值積分的Marcus-Lopes不等式
無軌斜坡道在大紅山鐵礦中的應用
關于廣義Dedekind和與Kloosterman和的混合均值
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合