?

基于柔性策略-評價網絡的微電網源儲協同優化調度策略

2022-01-20 07:05劉林鵬朱建全陳嘉俊葉漢芳
電力自動化設備 2022年1期
關鍵詞:調度電網優化

劉林鵬,朱建全,陳嘉俊,葉漢芳

(華南理工大學電力學院,廣東 廣州 510640)

0 引言

近年來,為了實現可再生能源的就地消納,微電網中可再生能源的占比日益提高[1-2]。為抑制可再生能源的間歇性和隨機性,維持微電網的穩定運行,有必要裝設一定比例的儲能,實現源儲協同運行[3]。在這種背景下,如何充分地考慮可再生能源與儲能系統的特點,對微電網進行源儲協同優化調度成為一個熱點問題。

目前,微電網的優化調度問題已經得到了大量的研究。已有的方法可以分為基于模型的數學優化算法和無模型的強化學習算法2 類?;谀P偷臄祵W優化算法通常是通過直接求解集中式的數學優化問題以獲取最優策略。例如:文獻[4]將微電網調度問題轉化成二次型最優控制問題,并利用黎卡提方程解的特性對其進行求解;文獻[5]將微電網調度問題轉化為二階魯棒優化模型,利用列約束生成和強對偶原理將原問題分解后交替求解;文獻[6]使用KKT(Karush-Kuhn-Tucker)條件及二階錐松弛技術將微電網調度模型轉換為單層的混合整數線性規劃問題,并調用CPLEX 求解器對其進行求解;文獻[7]構建了微電網雙層調度模型,并利用交替方向乘子法對其進行求解。上述文獻為求解微電網優化調度問題,對原問題中的非凸非線性約束進行了一定簡化處理。這些簡化處理方法通常建立在一定假設的基礎上,它們求得的最優策略與原問題的最優策略在某些情況下并不等價。無模型的強化學習算法將智能體不斷與環境進行交互,通過觀察交互后得到的結果改進策略。例如:文獻[8]使用基于值的深度Q 網絡DQN(Deep Q-Network)算法得到了微電網的在線調度策略;文獻[9]使用基于隨機性策略的策略-評價網絡AC(Actor-Critic)算法求解微電網的最優調度策略;文獻[10]使用基于確定性策略的深度確定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法求解微電網中共享儲能的最優控制問題。上述強化學習算法相較于基于模型的數學優化算法的優勢在于其不需要模型的信息,可通過觀察到的數據尋找最優策略。此外,其得到的策略泛化能力強,在強隨機性環境下有較好的表現[8-9]。盡管強化學習方法在微電網優化調度問題的求解過程中有較好的表現,但由于它在訓練過程中為保證智能體的探索性能,往往需要在策略探尋過程中加入一定的隨機性,這可能導致所搜尋的策略不滿足約束條件。為解決這個問題,已有的文獻主要采取了以下措施:文獻[11]結合了壁壘函數的特性以保證智能體在滿足約束的條件下進行策略學習;文獻[12]通過在獎勵函數中設置懲罰因子,使智能體在學習過程中避開不滿足約束條件的策略;文獻[13]使用元學習的方式使得策略更新過程滿足約束條件。上述方法本質上都是通過無模型學習的方式使得智能體朝著滿足約束條件的方向對策略進行更新,但這類方法并不能保證所得策略嚴格滿足約束條件。

針對以上問題,本文結合有模型的數學優化與無模型的強化學習的思想,提出了一種基于柔性策略-評價網絡SAC(Soft Actor-Critic)的微電網源儲協同優化調度方法。一方面,所提方法在不對原問題進行簡化處理的前提下,利用強化學習算法將原問題分解為多個子問題進行求解,并通過貝爾曼最優定理保證了所得策略與原問題最優策略的等價性;另一方面,所提方法利用部分模型信息使得策略嚴格滿足約束條件。此外,為減少智能體在訓練過程中與環境的交互時長,本文提出了一種基于深層長短期記憶LSTM(Long Short-Term Memory)網絡的環境建模方法。

1 微電網源儲協同調度模型

1.1 目標函數

以微電網的運行成本最小化為目標,則有:

式中:Pg,t和Ps,t分別為t時段機組g和儲能s的有功出力,Ps,t取值為正時表示儲能放電,取值為負時表示儲能充電,其最大值為Pmaxs;Pl,t為t時段聯絡線l傳輸的有功功率,其取值為正時表示從主網購電,取值為負時表示向主網售電;og,t為t時段機組g狀態,其取值為0時表示處于離線狀態,取值為1時表示處于工作狀態;ct為t時段即時成本。

1.2 馬爾可夫決策過程

在利用強化學習求解優化問題時,需要先將原問題構建為一個馬爾可夫決策過程[14]。本文從時間維度對原問題進行解耦,構建了以下的馬爾可夫決策過程。

1)狀態。

式中:Pcha,t和Pdis,t分別為t時段儲能的充電和放電功率;η為儲能的充放電效率系數;μL,t+1、μwt,t+1、μpv,t+1和μp,t+1分別為分布DL、Dwt、Dpv和Dp的均值;σL,t+1、σwt,t+1、σpv,t+1和σp,t+1分別為分布DL、Dwt、Dpv和Dp的標準差。

4)獎勵。

獎勵是智能體每次與環境進行交互時收到的反饋信號,可用于指導策略的更新方向。為了實現微電網的運行成本最小化,本文將獎勵設置為即時成本的負值:

式中:rt為t時段智能體在狀態st下做出動作at獲得的獎勵。

5)環境。

在本文的微電網源儲協同優化調度模型問題中,智能體所處的環境為原問題在時間維度解耦后的單時段優化問題:

在微電網源儲協同調度問題中,決策變量包含機組出力、儲能充放電功率、機組的啟停狀態以及聯絡線功率。若直接用無模型的強化學習算法搜尋這4 個變量對應的策略,將無法保證其搜尋的策略嚴格滿足約束條件。為解決這一問題,將這4個變量分成了兩部分:一部分為儲能充放電功率和機組的啟停狀態,這部分變量通過強化學習的策略網絡輸出得到;另一部分為機組的出力和聯絡線功率,這部分變量由策略網絡輸出儲能充放電功率和機組的啟停狀態后通過CPLEX 商業求解器求解式(10)—(15)組成的單時段的優化問題得到。通過這種方式求解這4個決策變量可以保證它們嚴格滿足約束條件。

2 基于SAC的源儲協同優化調度

2.1 SAC優化策略

2.1.1 智能體的目標函數

SAC 算法作為無模型的強化學習算法之一,能夠有效地在模型未知的情況下,通過不斷地與環境進行交互以搜尋最優策略[15]。本文將利用SAC算法學習最優策略的智能體稱為SAC智能體。在微電網源儲協同優化調度問題中,SAC 智能體的目標可定義為最大化智能體調度周期內的總獎勵與策略熵的期望值[16]:

通過求解式(18)所示的目標函數,所得策略便可實現總獎勵的最大化(即運行成本最小化)。另一方面,由于目標函數考慮了將策略熵最大化,所得策略具有更強的探索性能以及更好的魯棒性。

2.1.2 智能體結構

式中:γ為獎勵折扣系數。

根據貝爾曼方程,可以推導出狀態-動作值函數Qπ(st,at)的遞歸方程為[14]:

2.1.3 評價網絡的參數更新

對于評價網絡,其參數是朝著真實狀態-動作值函數的方向更新的。因此,基于式(21)以及時序差分算法可得SAC 智能體評價網絡的參數更新公式為[17]:

式中:θQ和θπ分別為評價網絡和策略網絡的參數,可利用文獻[18]所提的小批量梯度下降法分別求解式(22)和式(24)以獲得θQ和α的更新值;H′為目標策略熵;M為小批量更新的樣本數量;i表示樣本編號,每個樣本由(si,ai,ri,s′i)構成,其中s′i為轉移后狀態;a′i為智能體在s′i下根據當前策略所得動作。智能體每次與環境進行交互時均會產生一個樣本,并將其存入經驗回放池中[19]。

2.1.4 策略網絡的參數更新

對于策略網絡,其參數是朝著最大化總獎勵和策略熵的方向進行更新的。因此,可利用梯度上升法求解式(25)對其參數θπ進行更新。

SAC 智能體不斷地與環境進行交互產生新的樣本并存入經驗回放池中,且每次與環境進行交互后都根據經驗回放池中的樣本對評價網絡和策略網絡進行一次參數更新。在超參數設置合理的前提下,通過一定次數的交互訓練后,SAC 智能體的策略最終可收斂到最優策略[20]。

通過這種方式,可以將原問題分解為多個子問題求解。根據貝爾曼最優定理,所得策略與原問題最優策略具有等價性,相關證明見附錄B。

2.2 基于深層LSTM網絡的環境建模

由于SAC 智能體每次與環境進行交互時,都需要求解一個由式(10)—(16)組成的單時段優化問題,這將導致訓練的時間大幅增加。為加快SAC 智能體的訓練速度,本文利用深層LSTM 網絡對環境進行建模。

深層LSTM 神經網絡是循環神經網絡RNN(Recurrent Neural Network)的一種類型,其基本結構如附錄C 圖C1所示。從圖中可以看出,RNN 的隱藏層包含了當前時刻的輸入信息以及上一時刻的輸入信息,因此它具有記憶功能。為解決RNN 的梯度爆炸和消失問題,LSTM 對RNN 進行了改進,其結果如附錄C 圖C2 所示,圖中σ表示Logistic 函數,輸出區間為(0,1)。LSTM 在RNN 的基礎上引入內部狀態ct,用于傳遞循環信息,引入外部狀態ht用于接收內部狀態傳遞的信息,具體如下:

式中:⊙表示向量元素相乘;ft、it、ot分別為遺忘門、輸入門和輸出門,它們控制其對應的信息通過比例,且ft、it、ot中各元素取值范圍為[0,1];Wc、Uc和bc為可學習的神經網絡參數。

與傳統的前饋神經網絡類似,使用小批量梯度下降法更新LSTM網絡參數θn:

式中:K為小批量樣本數目;xj、yj分別為樣本j的特征與標簽;y?j為樣本j的LSTM 網絡輸出量;β為學習率。

3 算例分析

3.1 參數設置

以圖1 所示的微電網為例對所提方法進行測試,相關參數見附錄D。評價網絡與策略網絡結構參數以及用于環境建模的深層LSTM 網絡超參數見附錄E。所有算例均基于MATLAB R2021a實現,并在64位Windows系統、Intel Core i7-6700K@3.7 GHz的環境下運行。

圖1 微電網結構Fig.1 Structure of microgrid

由于深層LSTM 網絡的訓練是一種“端到端”的有監督學習方法,因此在訓練前,首先需要準備一定數量的樣本。本文通過CPLEX 商業求解器求解1 000 個不同場景下由式(10)—(16)組成的優化問題,得到了1 000 個樣本,并將90%的樣本作為訓練集,用于訓練深層LSTM 網絡;將其余10%的樣本作為測試集,用于測試模型的準確性。每個樣本包含了用于訓練的標簽和特征,其中標簽為ct,特征為{Ps,t,og,t+1,ES,t,pt,Pwt,t,Ppv,t,Lt,og,t}。

3.2 智能體的離線訓練過程

為驗證SAC 智能體在隨機環境下的學習能力,假設負荷、風電出力、光伏出力和電價分別服從式(31)—(34)中均值和標準差的高斯分布。

圖2 展示了SAC 智能體在設置的隨機環境訓練時,微電網的運行成本期望隨訓練次數增加而變化的過程,其中該期望值通過最近100 次訓練結果的平均值近似表示。從圖2 中可以看出:在訓練前期,微電網運行成本的期望值隨著訓練次數的增加而降低;在完成2 400 次訓練之后,微電網運行成本的期望值基本保持不變,因此可以認為此時SAC 智能體找到了近似最優策略。

圖2 SAC智能體訓練過程Fig.2 Training process of SAC agent

為驗證本文所提方法的優勢,圖3 展示了無模型的SAC智能體在設置的隨機環境訓練時的運行成本變化情況。其中,無模型的SAC 智能體采用了文獻[12]中的方法,在獎勵函數中對于不滿足約束條件的策略設置了懲罰因子。在本算例中,對不滿足式(12)的策略增加一個值為$200 的懲罰成本。從圖3 中可以看出,這種在獎勵函數中增加懲罰因子的無模型強化學習方法無法保證策略嚴格滿足約束條件,造成其運行成本產生較大波動。

圖3 無模型的SAC智能體訓練過程Fig.3 Training process of model-free SAC agent

3.3 智能體在線決策分析

將離線訓練后的SAC智能體用于微電網源儲協同優化調度的在線決策,并與短視(myopic)策略進行對比。其中,短視策略通過求解式(35)中的單時段優化問題得到。

圖4 展示了2 種策略連續進行1 個月的在線決策的情況。從圖中可以看出,所提方法的優化效果明顯優于短視策略。采用短視策略時,微電網在該月運行成本均值為$766.90;而采用本文策略后,微電網在該月運行成本均值為$726.36(比短視策略所得運行成本降低了5.29%),這主要得益于本文所提的方法具有遠視能力,能全局考慮調度周期內的情況以獲得更優的結果。

圖4 運行1個月的結果對比Fig.4 Comparison of results in a month

進一步地,圖5 以第一天的在線決策結果為例,詳細展示了采用本文所提方法進行在線決策時各時段的狀態變量以及動作變量情況??梢园l現,在電價較低時,微電網需要從主網購電以滿足負荷需求。由于此時微電網自備機組的運行成本比購電成本高,所以發電機處于停機狀態。另一方面,儲能選擇在電價較低時盡可能充電,隨后在電價較高時放電以獲取更高的利益。

圖5 日內在線決策結果Fig.5 Intra-day online decision results

3.4 LSTM網絡環境建模分析

為測試本文所提的LSTM 網絡環境建模方法的有效性,將基于原環境和深層LSTM 網絡模型得到的微電網的源儲協同優化調度策略進行對比分析。

圖6 展示了不同測試場景下基于原環境和深層LSTM 網絡模型得到的成本對比情況。從圖中可以看出,基于深層LSTM 模型的輸出成本曲線與基于原環境的成本曲線基本重合,均方根誤差僅為0.315 3,這說明深層LSTM 模型所建的環境與原環境近似等效。

圖6 深層LSTM網絡誤差分析Fig.6 Error analysis of deep LSTM network

表1 進一步對比了SAC 智能體在原環境與深層LSTM 網絡所建環境下的離線訓練時長以及在線決策的平均成本。從表中可見,深層LSTM 網絡所構建的環境減少了80.03%的離線訓練時長,而在線決策平均成本僅與原環境相差0.01%。這表明所提深層LSTM 網絡環境建模在不影響在線決策精度的前提下,顯著減少了智能體的離線訓練時長。需要說明的是,盡管智能體的離線訓練時間較長,但在在線決策階段,由于可以直接利用離線訓練好的策略網絡進行決策,其耗時僅為0.41 s,因而可以滿足在線決策的需求。

表1 2種環境模型效果對比Table 1 Comparison of effects between two environment models

4 結論

本文提出了一種基于SAC的微電網源儲協同調度策略,得到的主要結論如下:

1)所提方法能夠通過不斷地與環境進行交互的方式獲得最優策略,并基于部分模型信息進行策略搜尋,確保所得策略滿足安全約束;

2)所提環境建模方法在不影響策略準確性的前提下,減少了SAC智能體的訓練時長,提高了SAC智能體的學習效率;

3)所提方法對模型信息的依賴程度較低,僅用時0.41 s 便可獲得顯著優于短視策略的解,可以較好地滿足微電網源儲協同調度的在線決策要求。

附錄見本刊網絡版(http://www.epae.cn)。

猜你喜歡
調度電網優化
超限高層建筑結構設計與優化思考
計及SOC恢復的互聯電網火儲聯合AGC控制策略研究
穿越電網
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
電力調度自動化中UPS電源的應用探討
基于強化學習的時間觸發通信調度方法
電網調控技術在電力系統中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合