?

新能源場站風功率曲線異常數據處理算法

2023-12-30 01:57李宣諭
關鍵詞:分段風速風機

李宣諭

(大唐東北電力試驗研究院有限公司,吉林 長春 130102)

0 引言

近年來,隨著國家能源政策調整,我國風力發電規模逐年增長,已在整體能源布局中占據著重要地位。風功率曲線作為重要性能指標,是開展風電機組數據分析的基礎[1],相關分析研究工作隨著新能源發展逐年推進。風電企業在日常運行過程中,受外部環境干擾、風機運行故障、棄風限電等因素影響[2],風電場數據采集與監視控制(supervisory control and data acquisition,SCADA)系統存在大量的異常數據[3]。如果這些數據不加以處理直接應用,較差的數據質量會造成擬合的風機實際功率曲線發生畸變,干擾機組運行特性分析,影響風電機組生產經濟性與運行狀態評估結果[4]。因此,對風電機組功率數據進行異常數據識別與清洗,提取高質量數據是不可缺少的環節[5-6]。

現階段常用的風電機組功率數據識別方法可分為以下幾類:(1)基于統計分析的異常數據識別方法,主要有3sigma法[7]、四分位法[8]、組內最優方差[9]、變點分組[10]、Thompson tau[11]、云分段最優熵[12]和Copula理論[13]等算法;(2)基于機器學習的異常數據識別方法,主要有k-means算法[14]、基于密度的空間聚類DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法[15];(3)基于圖像的異常數據識別方法,主要有基于圖像邊緣識別的技術[16]、基于圖像分割技術[17]與基于圖像像素技術[18]三種方法。不同的異常數據識別方法在實際應用過程中具有各自的特點,其中,四分位法異常數據識別速度較快,對離散型數據識別效果較好,通用性強,穩定性好,但在異常數據占比較大時,辨識效果不佳[19]。DBSCAN算法可有效實現分散型數據的識別,并可用于一維或多維特征空間,但對堆積型數據識別能力較差[20],圖像處理技術對異常數據識別較慢,對各類異常數據識別效果相對較好,但技術實現難度較高,無法區分出切出風速附近的虛假異常數據[21]。

針對以上問題,本文提出將DBSCAN算法與四分位法進行優勢結合,構建基于DBSCAN-分段四分位的組合算法,通過DBSCAN算法對風功率樣本數據聚類分析,將異常數據簇類別與特征進行區分,再利用四分位法把離散的堆積型異常數據剔除,完成風速-功率數據處理。經過代入某風電機組實測數據,比較分析組合算法、標準DBSCAN算法與四分位法對樣本數據異常識別與清洗的效果,驗證了所提方法的可行性及在數據處理方面的優勢。

1 算法介紹

1.1 DBSCAN算法

DBSCAN算法是一種基于空間數據密度的聚類算法[22]。該算法的優勢是不需要預先約定分類的數量,完全依靠數據本身質量進行分類,可對任意形狀分布的稠密數據進行聚類,聚類結果沒有偏倚。缺點是聚類結果受兩個參數初值影響較大[23],在樣本數據密度分布不均勻或聚類間距差距較大時,聚類質量較差[24]。計算流程如下:

(1)預先確定參數鄰域半徑Eps與最小數據點集合個數Minpts;

(2)以樣本數據中任意一個從未訪問點開始,以Eps為半徑距離,如果在這個鄰域半徑范圍內分布的其它數據點個數大于或等于集合個數Minpts,則標記為正常數據,如小于Minpts,則標記為異常數據;

(3)返回上一步,代入新的數據點進行計算,直到所有數據計算完畢;

(4)剔除異常數據集,將正常功率數據保留。

1.2 四分位算法

四分位法是一種通過度量數據分布位置進行異常數據識別的方法。在對離群數據點分析處理時,不需要事先假設數據服從某種分布,可有效分析數據集群體分布特征,去除數據中離群值的影響,數據處理效果較為穩定[10]。計算方法如下:

(1)風功率樣本數據集中,功率的個數記為n,并按功率從小到大排列。

(2)當(n+1)/4可以整除時,如式(1)所示。

(1)

式中:Q1為第0.25(n+1)位的功率數值;Q2為第0.5(n+1)位的功率數值;Q3為第0.75(n+1)位的功率數值。

(3)當(n+1)/4不能整除,且n=4k+4,(k=1,2,3,…)時,如式(2)所示。

(2)

式中:Q1為第0.25n位功率數值的0.75倍與第(0.25n+1)位功率數值的0.25倍之和;Q2為第0.5n位功率數值與第(0.5n+1)位功率數值平均值;Q3為第0.75n位功率數值的0.25倍與第(0.75n+1)位功率數值的0.75倍之和。

(4)當(n+1)/4不能整除,且n=4k+6,(k=1,2,3,…)時,如式(3)所示。

(3)

式中:Q1為第(0.25n-0.5)位功率數值的0.25倍與第(0.25n+0.5)位功率數值的0.75倍之和;Q2為第0.5n位功率數值與第(0.5n+1)位功率數值平均值;Q3為第(0.75n+0.5)位功率數值的0.75倍與第(0.75n+1.5)位功率數值的0.25倍之和。

(5)剔除異常值。

下邊緣限值Llow如式(4)所示。

Llow=Q1-1.5(Q3-Q1)

(4)

上邊緣限值Lhigh如式(5)所示。

Lhigh=Q3+1.5(Q3-Q1)

(5)

對每個風速段區間數據進行計算,將數據位置處于Llow~Lhigh范圍之外的數據視為異常數據,將其剔除,保留下的數據則為風功率正常數據。

1.3 DBSCAN-分段四分位法

首先采用DBSCAN算法,根據樣本數據特征劃分數據簇類別,剔除部分異常數據簇。然后,將樣本數據以風速分布為基準等間隔劃分,分段使用四分位法,進一步識別少部分堆積型異常數據與離群數據特征不明顯的異常點。計算流程如圖1所示。

圖1 DBSCAN-分段四分位算法流程圖

2 風電數據實例分析

2.1 算法應用流程介紹

以國內云南某風電場20號風機實測運行數據為例,如表1所示。選取2021年9月1日至2022年9月1日的實測數據,采樣間隔10 min,共計47 837組數據作為樣本數據。分別采用DBSCAN法、四分位法和DBSCAN-分段四分位法進行異常數據處理,對比分析異常數據清洗效果,驗證算法性能。

表1 某風場20號風機風速-功率數據

采用DBSCAN法對樣本數據進行異常數據識別,其中核函數鄰域半徑Eps與最小數據點集合個數Minpts可通過k-distance方法確定,如表2所示。

表2 k-distance對核函數尋優結果

將參數尋優結果代入標準DBSCAN法,經測試,核函數Minpts=19,Eps=0.006對異常數據識別效果最好,標準DBSCAN法對異常數據識別結果如圖2所示。其中,藍色數據點為正常數據,紅色數據點為異常數據。由圖中可以看出,在機組進入切入風速以后,少部分零功率異常數據點未能辨別。其原因是由于算法自身的局限性,滿足算法規則的少量的堆積型異常數據未能有效識別。

圖2 DBSCAN法對異常數據識別結果

運用四分位法進行數據處理時,不建議直接進行異常數據清洗。當部分區間數據占比較小時,少部分正常數據可能被認為異常數據刪除,導致清洗后的數據不完整,擬合功率曲線后初始值不是從0開始,如圖3所示。

圖3 四分位法對異常數據識別結果

本文建議以風速為基準,將樣本數據等間隔劃分40組數據段或60組數據段,每段數據區間的風速-功率數據采用四分位法進行異常數據識別,剔除異常數據后再將各區間的正常數據重新組合,采用分段四分位法效果如圖4、圖5所示。

圖4 四分位法(劃分40組數據)對異常數據識別結果

圖5 四分位法(劃分60組數據)對異常數據識別結果

為了提高算法對樣本數據特征識別準確性,將數據按區間劃分,分段進行四分位法計算,克服局部堆積型數據對整體異常數據識別效果的影響。由圖4、圖5可以看出,并不是數據段劃分越多對異常數據識別效果越好,受限于算法規則,數據區間劃分越多對局部堆積型異常數據越敏感,分段四分位法也無法完全識別局部占比較高的異常數據。因此,劃分數據段區間個數應選擇較為適合的值。

根據本文所提方法,先通過DBSCAN法剔除大部分異常數據,再通過分段四分位法(劃分40組數據)將少部分堆積型異常數據剔除,結果如圖6所示。

圖6 分段四分位法對異常數據處理效果

數據處理結果如圖7所示。

圖7 DBSCAN-分段四分位算法對異常數據清洗效果

經數據處理后,保留正常數據47 693組,異常數據剔除率為0.3%,被清洗的異常數據集中存在少量被誤刪的正常數據,對原始數據的完整性和充裕度造成了一定影響,但這部分占比不高,清洗后的正常數據仍可完全表征風功率曲線全行程特性。此外,由圖7可以看出,通過DBSCAN-分段四分位算法對樣本數據處理,已將離散、橫向分布的異常數據完全剔除,提取的風速-功率數據質量較好,數據清洗效果優于標準DBSCAN法和四分位法。

2.2 算法實例應用驗證

采用本文所提方法對遼寧某風電場8號風機的運行數據進行異常數據識別分析。該風機的機組型號為H111-2.0 MW,切入風速3.0 m/s,切出風速25.0 m/s,額定風速11.5 m/s。樣本數據選取2022年7月1日至2023年6月30日運行數據,采樣間隔10 min,共計54 870組數據作為樣本數據,驗證算法實際應用效果,數據如表3所示。

表3 遼寧某風場8號風機風速-功率數據

繪制8號風機實測數據的散點分布如圖8所示。

圖8 8號風機實測數據散點分布圖

從圖8中可以看出樣本功率數據存在大量的橫向分布的堆積型異常數據以及曲線周圍的分散型異常數據,這兩類異常數據主要由棄風限電、通信設備故障、機組計劃外停機檢修等隨機因素造成。該機組理論功率曲線參數如表4所示。

表4 遼寧某風場8號風機理論功率曲線參數(空氣密度=1.225 kg/m3)

經數據處理,剔除異常數,篩選正常數據51 293組,剔除異常數據3 577組,保留正常數據占比93.481%,異常數據識別占比6.519%,風功率數據清洗效果如圖9所示。

圖9 8號風機功率曲線示意圖

圖9中,紅色散點數據為數據清洗后的正常數據,藍色曲線為主機廠家提供的標準功率曲線,綠色曲線為8號風機實際功率曲線。該效果圖可較好地用于風機功率曲線分析,如分析風機功率一致性等。經核算,該場8號風機功率一致性系數在合理范圍內。

3 結束語

本文通過分析DBSCAN法與四分位法對異常數據的識別效果,提出基于DBSCAN-分段四分位的組合算法對風功率異常數據進行辨識。以某風電場實測風功率數據為基礎,驗證本文所提方法的有效性,結論如下。

(1)基于DBSCAN-分段四分位的組合算法,可實現對分散型、堆積型異常數據的有效識別,在風功率異常數據識別與清洗方面有較好應用。且算法原理簡單,易于實現,處理速度適中,清洗效果穩定、可靠。

(2)基于DBSCAN-分段四分位的組合算法,將DBSCAN的自適應性與四分位法的通用性優勢結合,克服單一算法局限性。通過劃分數據區間分段處理,增強對數據局部特征識別準確性,進一步提高算法自身的泛用性能與識別精度,在實際應用中具有一定優勢。

(3)通過算例1與算例2分析表明,該組合算法在數據處理時,存在將15.0 m/s以上的正常數據誤刪的情況,對數據完整性有一定影響,但數據剔除率占比不高,處理后的數據仍可表征風機功率曲線特征,不影響風機功率曲線繪制,滿足實際項目的需要,該缺點可通過數據插值法解決。

猜你喜歡
分段風速風機
一類連續和不連續分段線性系統的周期解研究
基于Kmeans-VMD-LSTM的短期風速預測
基于最優TS評分和頻率匹配的江蘇近海風速訂正
分段計算時間
風機折翼“倒春寒”
風機倒塔事故為何頻發?
3米2分段大力士“大”在哪兒?
基于GARCH的短時風速預測方法
節能技術EPU在AV71風機上的應用
TS3000系統防喘振控制在 AV80-14風機中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合