?

基于核密度估計和CatBoost算法的光伏功率預測方法

2024-01-08 08:02范國慶李康輝王瀟晨
上海電力大學學報 2023年6期
關鍵詞:發電功率預測

范國慶, 李康輝, 高 捷, 彭 峰, 王瀟晨, 唐 亮, 史 潔

(1.濟南大學, 山東 濟南 250022; 2.山東省計量科學研究院, 山東 濟南 250014; 3.山東電力咨詢院有限公司, 山東 濟南 250000)

太陽能是一種取之不盡的清潔能源,光伏發電是太陽能利用的有效形式之一。但是,太陽能光伏發電具有波動性、隨機性等缺點,給并網光伏發電、建筑一體化光伏發電和分布式光伏發電等領域帶來了設計及運行挑戰,嚴重影響了太陽能的利用效率,限制了光伏發電的前景和發展規?!,F有的解決方法包括光伏-儲能組合優化運行技術、風光水儲多能互補技術,以及光伏功率預測等。其中,有效的光伏功率預測在新能源系統的可靠性等方面起著重要作用。

集中式光伏功率預測有多種分類方式。按照預測過程,光伏功率預測可分為直接預測和間接預測;根據預測的空間尺度,可分為單場預測和區域預測;根據預測的時間尺度,可分為超短期預測、短期預測、中期預測和長期預測;根據預測的形式,可分為確定性預測和概率性預測[1]。光伏功率的確定性預測主要是基于時間序列和氣象因素,通過建立數學模型來預測光伏發電的產量。為了分析時間序列對預測的影響,文獻[2]提出了一種基于卷神經網絡(Convolutional Neural Networks,CNN)和長短期記憶(Long Short Term Memory,LSTM)網絡的混合模型。該方法指出,合理的時間序列數據長度可以提高光伏預測精度、降低計算成本。文獻[3]提出了2種新的太陽能光伏隨機預測模型,與標準時間序列預測機制相比,總發電量有了顯著提高。針對不同氣象條件和季節下的短期光伏輸出功率預測,文獻[4]提出了一種新的CNN模型,模型設計為一個并行池結構,提高了預測性能。文獻[5]將增強碰撞剛體優化(Enhanced Colliding Bodies Optimization,ECBO)算法、變分模式分解(Variational Mode Decomposition,VMD)和深度極限學習機(Deep Extreme Learning Machine,DELM)相結合,提出了一種基于相似日的光伏功率短期多步預測模型。文獻[6]提出了一種多通道卷積神經網絡,利用代表各種區域效應的光柵圖像數據預測每月光伏發電量。文獻[7]提出了一種三階段機器學習架構,結合使用輕量級梯度提升機(Light Gradient Boosting Machine,LightGBM)和隨機森林(Cuda Random Forest,CURF),提高了模型性能。

與確定性預測相比,光伏發電的概率性預測考慮了更多因素。概率性預測方法可以提供更多關于潛在不確定性的信息,從而得到更全面的預測結果。在傳統確定性預測方法的基礎上,文獻[8]提出了一種光伏發電量的集成非參數概率預測模型,將分位數回歸平均(Quantile Regression Averaging,QRA)和LSTM結合,獲得光伏輸出的概率預測。通過人工智能概率模型可以提高預測的可靠性。文獻[9]提出了一種混合概率太陽輻照度預測方法,結合了深度循環神經網絡(Deep Recurrent Neural Network,DRNN)和殘差建模。另外,還有將物理光伏模型鏈擴展為概率預測的方法,使用模型鏈的校準集合來生成概率光伏發電預測模型。文獻[10]將模糊信息?;?Fuzzy Information Granulation,FIG)、差分自回歸移動平均(Autoregressive Integrated Moving Average,ARIMA)和改進的長短期記憶(Improved Long Short Term Memory,ILSTM)網絡3個模型相結合,構建了一個混合區間預測模型,能夠準確地覆蓋實際光伏功率值。文獻[11]提出了一種基于高階馬爾可夫鏈(Higher order Markov Chain,HMC)的光伏發電功率概率分布函數預測方法,利用高斯混合法(Gaussian Mixture Method,GMM),結合多個分布函數,并使用基于HMC的模型系數對光伏功率進行超短期預測。

基于上述分析發現:利用時間序列對太陽能光伏功率進行短期預測是有效的方法之一,但當時間尺度和輸出維度過多時,預測結果反而并不理想。傳統的預測方法主要基于物理和統計模型,利用模型假設、系統參數和天氣數據等進行預測,通常需要大量的數據支撐,在復雜氣象條件下,預測效果無法達到預期。為解決上述問題,本文針對環境因素對光伏功率預測的影響進行研究,深度解析各主要影響因素與光伏功率的耦合關聯特性,進而實現高精度和高可靠度的短期預測。首先,使用核密度估計(Kernel Density Estimation,KDE)對光伏發電功率進行分析,獲得光伏發電功率的分布概率;其次,通過CatBoost算法對功率與各影響因素之間的非線性耦合相關性進行研究,運用CatBoost預測模型對光伏發電功率變化趨勢進行預測;然后,構建基于CatBoost和KDE的超短期光伏功率預測框架,進一步提高光伏功率預測的精度和可靠性;最后,給出系統參數和算例結果分析。

1 功率預測模型的構建

1.1 KDECatBoost預測模型

KDE屬于非參數檢驗方法。在光伏功率預測中,KDE可用于功率數據的建模和分析。它能夠提供功率的概率分布信息,有助于了解功率的變化范圍和分布情況,從而為決策提供更全面的依據[12]。

CatBoost與極端梯度提升(Extreme Gradient Boosting,XGBoost)和LightGBM是梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的3種主要算法,相對于XGBoost和LightGBM,CatBoost的準確率更高。CatBoost能夠處理分類特征和缺失數據,具有較強的泛化能力,并且可以自動處理類別型特征的編碼,減少特征工程的復雜性。另外,CatBoost還能夠自動進行特征選擇和調參,提供較好的模型性能。由于其采用完全對稱樹作為基模型,故可以避免過擬合,提高預測的可靠性,強大的泛化能力和自動調參功能,使得其成為光伏功率預測的有力工具。

為了提高預測的準確度,本文利用KDE分析特征數據,研究光伏功率分布概率特性,同時利用CatBoost在非連續性類別特征處理和運算速度方面的優勢,將光伏功率分布概率預測結果輸入CatBoost模型中,得到最終的光伏功率預測結果。

1.2 特征處理

1.2.1 KDE特征處理

非參數KDE是利用觀測數據對某事件進行密度函數估計。其過程就是將每一點的概率分配到附近的區間,將所有的獨立點區間密度累加,即可得到最終的密度函數。假設X1,X2,X3,…,Xq是從總體中抽取的q個獨立同分布樣本,其密度函數為f(x),則KDE公式為

(1)

帶寬h是影響整個擬合效果優劣的核心因素[13]。由式(1)可以看出:若h的取值較大,則樣本數據經過壓縮處理突出了平均化,忽略了密度函數的細節部分;若h的取值較小,則隨機性的影響增大,估計曲線尖峰過多,函數圖像波動大。為判斷預測的光伏功率分布是否符合實際分布,將光伏功率數據劃分為m組不重復的數據,采用擬合優度檢驗,公式為

(2)

式中:χ2——擬合優度檢驗結果;Ai——光伏功率在第i個區間的觀測頻數;Ei——光伏功率在第i個區間的期望頻數。

1.2.2 Catboost特征處理

利用CatBoost對常規離散特征方法進行優化,通過添加先驗分布項使數據免受噪聲和低頻率類別型數據的干擾。這一優化過程的具體公式為

(3)

式中:xi,k——第k個樣本的第j個類別特征;xi,j——第k個樣本之前第j個樣本的第i個類別特征;

Dk——隨機排序中在第k個樣本之前的數據集;

Yj——第j個樣本的標簽值;

a——權重系數;

p——添加的先驗分布項。

2 預測流程及性能評估

2.1 預測流程

本文提出的KDE-CatBoost光伏功率預測模型步驟如下。

步驟1 數據獲取。采集集中式光伏電站的歷史光伏功率和歷史氣象數據。

步驟2 數據預處理。檢測數據中的異常值和缺失值,剔除缺失值,采用前后數據求平均值的方式處理異常值,并對數據進行歸一化處理。歸一化公式為

(4)

xi(k)——第i個類別特征的第k個原始值;

xi,min、xi,max——第i個類別特征的最小值和最大值。

步驟3 建立數據集。該數據集包含目標變量(即光伏功率)和特征變量(即氣象因子)。

步驟4 數據分析。對各數據進行相關性分析,并通過KDE方法確定符合條件的特征數據及種類。

步驟5 數據集拆分。將輻射、溫度、氣壓、濕度、功率等數據拆分為訓練集和測試集,其中80%為訓練集,20%為測試集。

步驟6 構建CatBoost功率預測模型。為了使模型保持較高的預測精度,通過經驗設置和實驗的方法調節模型參數。

步驟7 預測結果輸出。將步驟6的預測結果進行反歸一化,得到最終預測結果。反歸一化公式為

(5)

2.2 預測精度評估

本文采用多種評判方式對模型預測精度進行評估。主要評價指標包括平均絕對誤差SMAE、均方誤差SMSE、均方根誤差SRMSE、決定系數SR2(R表示決定系數)。其計算公式分別為

(6)

(7)

(8)

(9)

3 算例分析

本文算例數據采用山東某地區光伏電站2017年4月—6月的信息,數據間隔為15 min,預測目標是大型集中式光伏電站提前1 h的功率。預測模型包含9個字段,其中參與機器學習建模的變量有8個,分別為總輻射、直輻射、散輻射、溫度、環境溫度、氣壓、環境濕度和光伏功率。

3.1 確定最佳KDE模型

對光伏功率進行KDE,創建Kernel Density對象模型,通過數據訓練判定各樣本的得分,使用不同帶寬和核函數進行測試,觀察不同帶寬和核函數對密度估計的影響。

首先對不同的核函數進行計算,然后選取預測概率密度最為接近的核函數,最后計算最佳帶寬值。但是,在系統計算過程中,一些測試點會發生偏移,導致余弦、線性和Top-hat核函數執行錯誤。因此,本文通過編寫自定義函數的算法程序忽略測試點并返回平均值,即可有效解決該問題。此外,對函數進行優化和誤差分析可得到最終的KDE圖,以及相應的最佳帶寬和核函數參數。

為了更好地評估模型的擬合度優劣,本文提出了模型優度指標。計算公式為

(10)

式中:SGOF——模型優度指標,SGOF越接近于零說明模型擬合度越高;

m——預測樣本數。

3.2 模型結果和誤差分析

KDE模型、基于概率函數(Probability Function,PF)預測模型和非參數概率估計(Non-Parametric Probability Weighted Estimation,NP-PWE)預測模型的SRMSE、SGOF與χ2檢驗結果如表1所示。

表1 3種模型的預測誤差

由表1可知,基于PF的光伏功率分布預測模型SGOF較大且未通過χ2檢驗;KDE和NP-PWE模型的χ2都小于臨界值,但KDE模型的SGOF與χ2值更小,即預測值與相應實際值更接近。相較于其他兩種模型,KDE模型的SRMSE值最小。

3.3 光伏電站運行數據相關性分析

光伏電站運行數據的相關性系數如圖1所示。其中,正數為正相關,負數為負相關,絕對值越大相關性越強。

圖1 光伏電站運行數據的相關性系數

由圖1可以看出,輻射照度(總輻射、直輻射和散輻射)是光伏功率的主要影響因素之一。較高的輻射照度通常意味著更高的光能轉換效率,從而產生更高的光伏功率。

分析圖1中數據可知,在一定范圍內,隨著溫度的升高,光伏模塊的電子特性和效率會發生變化,從而影響光伏功率的輸出。一般情況下,光伏功率與溫度之間存在負相關關系。但由于本文采集的數據中溫度未達到對發電效率產生負影響的臨界值,故為正相關。

除了輻射照度和溫度,其他天氣條件如云量、風速等也會對光伏功率產生影響。云量的增加和風速的提高可能導致日照減弱或局部陰影,從而降低光伏功率。由于太陽高度角和日照時間的不斷變化,光伏發電系統在不同季節可能產生不同的功率輸出。在夏季,由于受輻射時間更長和太陽高度角較高,因此光伏功率通常相對較高。另外,光伏系統本身的特性如組件類型、布局以及傾斜角度等也會對光伏功率的相關性產生影響。

3.4 多種預測模型對比分析

針對同一訓練測試數據集,分別采用支持向量機(Support Vector Regression,SVR)、決策樹回歸(Decision Tree Regressor,DTR)、K近鄰(K-Nearest Neighbor,KNN)算法、LSTM、LightGBM和本文所提的KDE-Catboost模型進行光伏發電功率預測,結果如表2所示。

表2 不同預測模型的預測誤差和耗時

由表2可以得出,與其他5種模型相比,KDE-Catboost模型的SRMSE值分別下降了27.59%、8.69%、16.21%、23.33%、12.56%,說明本文所提模型的預測精度更高,適用于真實數據預測。另外,本文所提模型的SR2值最高,說明模型的擬合效果更好,可靠性更高。

為驗證所提模型的魯棒性,選取以下5種KDE-CatBoost模型:模型1,考慮近7 d光伏歷史數據的KDE-CatBoost算法模型;模型2,考慮另外30 d光伏歷史數據的KDE-CatBoost算法模型;模型3,考慮不同季節特性的KDE-CatBoost算法模型;模型4,在模型3基礎上增加天氣特征的KDE-CatBoost模型;模型5,考慮不同天氣特征的KDE-CatBoost算法模型。5種模型的預測誤差如表3所示。5種模型的預測結果與真實值對比如圖2所示。

圖2 5種預測模型的預測結果與真實值對比

表3 5種KDECatBoost模型的預測誤差

根據表3和圖2可知,5種模型均具有較高的擬合度,可見本文所提模型的魯棒性較好。其原因是模型中KDE只需要設置帶寬值一個參數,使得算法結果相對穩定。另外,CatBoost算法在訓練進程中對類別特征進行了分析處理,并采用對稱樹作為基模型避免了過度擬合,同時縮短了計算時長。

4 結 論

本文提出KDE與CatBoost算法相結合的光伏功率超短期預測模型,解決了預測模型普遍存在的超參數調優和過度擬合的難題,模型具有更加廣泛的適用性。具體結論如下。

(1) KDE與CatBoost算法相結合的光伏功率超短期預測模型與實際值具有較高的擬合精度,且預測模型的魯棒性較好。

(2) 算例結果表明,所提模型的SRMSE相較于SVR、DTR、KNN、LSTM、LightGBM分別下降了27.59%、8.69%、16.21%、23.33%、12.56%。

猜你喜歡
發電功率預測
無可預測
“發電”
『功率』知識鞏固
功與功率辨
追本溯源識功率
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
檸檬亦能發電?
做功有快慢功率來表現
搖晃發電小圓球
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合