?

不確定性環境下園區風光儲互動運行的PPO強化學習策略

2022-10-14 02:02王振宇胡文博萬長瑛
電力需求側管理 2022年5期
關鍵詞:神經網絡電網園區

王振宇,許 靜,胡文博,齊 蓓,萬長瑛

(1. 國網電力科學研究院有限公司(南瑞集團有限公司),南京 210000;2. 國網電力科學研究院武漢能效測評有限公司,武漢 430074)

0 引言

由于新能源出力的隨機性,負荷側柔性資源的有效利用成為低成本平抑新能源波動的有效手段。園區通過分布式發電利用分散的新能源,并建設儲能系統和新型負荷控制系統,促進新能源的本地消納,這已成為新能源有效利用的較為安全可靠的方式。

目前工商業園區用電成本高,用能形式粗放,電能利用效率低[1],具有很大的優化空間。開發面向園區的新型負荷管理系統對于園區的能效提升、可靠供電、經濟低碳運行具有積極意義[2]。文獻[3]提出了一種兩階段魯棒優化方法,通過對微電網內分布式新能源、儲能、負荷進行調度實現了系統日運行成本最小化。文獻[4]為了提高微電網能量管理的可靠性,采用了模糊控制方法對微電網進行能量管理。

上述研究工作都是依賴傳統優化方法,沒有考慮交互式學習的方法[5]。傳統的能量優化算法都是基于數值優化的算法,延續了傳統優化算法計算代價大和算法復雜度高的缺點。并且傳統的能量管理算法響應速度慢,難以在極短的時間內為管理中心提供能量管理的結果、做到實時能量管理。而基于學習思想的能量管理方法能為解決微電網中復雜的能量管理問題實現數量級的優化加速[6]。文獻[7]證明強化學習(reinforcement learning,RL)可以在風力微電網的能量管理中有出色的表現,通過建立一個模擬用戶與環境之間動態交互模型,利用交互式學習來選擇最佳的用能操作。文獻[8]使用Qlearning 算法來控制智能電池的充電和放電以實現能耗成本的減少。由于表格搜索的限制,基于Qlearning 算法的策略無法應對連續的狀態空間和環境的不確定性,為解決Q-learning算法的局限性。文獻[9]使用了雙重深度Q 網絡(double deep Q-network,DDQN)來管理微電網系統中電池儲能系統(battery energy storage system,BESS)的運行以降低電網的用能成本。文獻[10]對比了3種不同的基于深度Q網絡的改進算法在微電網中能量管理的表現。

不僅是連續的狀態空間可以應對動態環境中的不確定性,連續的動作空間也可以更好地模擬實際情況下微電網中的控制動作。在上述文獻中,由于算法的局限性,對微電網中的控制操作做了一定的簡化以便于離散化。而實際上有許多可控單元的控制量取在一個連續的動作空間,離散化不可避免地導致控制精度的下降。為了更貼合實際場景,本文建立了包含連續動作空間的馬爾科夫決策過程(Markov decision process,MDP),設計了基于深度神經網絡的隨機策略。另外,由于BESS容量有限并且受其放電深度(depth of discharge,DOD)的影響,無合理規劃的使用會加快其電池退化,縮短電池壽命,進而增加園區微電網的運營成本。因此在計算經濟成本時,需要充分考慮BESS電池退化成本。

1 園區微電網建模

園區微電網具有不確定的用能需求、分布式新能源發電、BESS 和能源管理系統,并在日前市場的電力電價下依托能源管理系統運行。能源管理系統能接收來自電力運營商提供的電力價格、分布式發電及其預測情況等信息。該園區微電網的主要結構如圖1所示。假設此園區微電網與公共電網互連,能夠從公共電網購入或者向公共電網提供電能。本部分將對該園區微電網的主要構成及運行機制進行建模。

圖1 園區微電網的主要結構Fig.1 Main structure of microgrid in the park

1.1 電池儲能系統模型

電池儲能系統中蓄電池的荷電狀態演化模型為

為了配合分布式發電,對園區微電網中BESS的耐用性及經濟性要求也越來越高。為了減少因電池退化造成的電池容量損失,本文考慮電池退化成本,將電池的長期損耗量化為每個時段為此支付的成本??紤]到電池容量和使用壽命受其放電深度和荷電狀態的影響[11],本文建立的電池退化成本模型由荷電狀態相關退化和放電深度相關退化兩個部分組成。

荷電狀態相關退化在一個時段中的退化成本模型建立如下

式中:C0為電池安裝成本;α和β由實驗測量數據的線性回歸確定[12];CFmax為最大容量衰減常數,可以設定為20%。模型中電池壽命假定為15 a,每年為365 d[12]。

BESS的電池容量受其放電深度的影響,該深度決定了電池在失效前可以承受的循環次數。電池的循環壽命通常定義為電池在容量低于標稱容量的80%前可以執行的充電和放電循環次數[13]。放電深度相關的退化成本建模如下

1.2 能源、需求和定價機制

1.2.1 可再生能源發電

1.3 園區微電網運行約束

對于園區微電網來說,可以從公共電網購買電力或將電力出售給公共電網,但兩者不能同時發生。同樣,BESS 也不能同時進行充電和放電操作。此約束表示如下

1.4 馬爾科夫決策模型

為了幫助節省園區微電網日常運營成本,同時延緩電池退化,本文將微電網的優化運行問題建模為一個MDP。MDP是通過智能體與環境的交互式學習來實現目標的理論框架,由狀態空間S,動作空間A,狀態轉移概率P,獎勵函數R和獎勵折扣因子γ組成。用t表示時段的序號,Δt是時段的長度。

1.4.1 狀態

所建立的MDP的狀態空間定義為

1.4.3 轉移概率

在動作at被執行后,環境的狀態在t+1 時段以P(st+1|st)的概率從st變為st+1。狀態轉移概率對能源管理系統來說是未知的。由于天氣等因素給分布式發電帶來的不確定性以及動態需求和電能價格的波動性,MDP中的狀態轉換難以用概率分布顯式地描述。本文設計的基于深度神經網絡的隨機策略可以直接從原始的高維數據中學習,不需要任何關于隨機性分布的信息,能夠克服上述不確定性及波動性。

1.4.4 獎勵

MDP 中的獎勵值被用來評估智能體的表現。在本文中設計的獎勵函數由3部分組成。第一部分是微電網在t時段運行時,該微電網中因電能的消耗所產生的能耗成本,其計算公式如下

在初步的模擬實驗中,發現僅使用R1和R2的總和對于智能體來說難以學習,這是因為智能體會在分布式發電輸出低但需求高時受到懲罰,在分布式發電輸出高但需求低時受到獎勵,而這兩者都難以控制。因此加入了第三部分進行調整,表示為

該項表示若BESS進行放電操作,智能體將獲得獎勵,從而可以鼓勵能源管理系統使用儲能;若BESS處于充電狀態,同時使用的是來自公共電網的電力能源,那么除了獎勵函數中的第一部分R1會給予懲罰以外,該部分也會再次對智能體給予懲罰。因此,本文建立的獎勵函數可以提高BESS 的利用率,同時減少額外從公用電網購買的電力,以實現微電網運行的經濟性和環保性目標。

綜上,在t時段獎勵函數的建模如下

式中:Π 為所有策略的集合;γ為獎勵折扣系數;策略π(a|s)∈[0,1]:s→P(a)為當系統狀態為s時選擇動作a的概率;Eπ(·)為在遵循策略π時隨機變量的期望值。

2 基于深度強化學習的負荷控制方法

2.1 基于深度神經網絡的隨機策略

在由θ參數化的概率分布中搜索最優策略,設計了概率分布如

式中:近似策略πθ為標準正態分布;μθ(st)和σθ分別為其均值和標準差。

本文提出一種深度神經網絡來學習策略πθ的最優分布參數μθ(st)和σθ,稱該深度神經網絡為策略網絡。圖2描述了所提出的神經網絡的架構示意圖。策略網絡的輸入為本文所建立的MDP 模型的狀態空間st,如式(15)所示,輸出為標準正態分布的均值μθ(st)和對數標準差log(σθ)。從輸入到輸出,深度神經網絡中的計算運行過程如下

圖2 策略網絡架構Fig.2 Strategy network architecture

式中:Re LU(x)=max(0,x) 為線性整流函數;Wl,Bl∈θ,l=1,2,...,L分別為第l個隱藏層的權值矩陣和偏置矩陣;f(st)為深度神經網絡的隱藏層從輸入st中提取的潛在特征;W,B∈θ分別為輸出層的權值矩陣和偏置矩陣。

2.2 策略優化算法

為了優化本文所提出的基于深度神經網絡的隨機策略,使用策略梯度方法來搜索參數化策略集合Πθ中的最優值,以最大化式(21)所示的目標函數J(π)

通過最大化代理目標和最小化損失函數更新所提出的兩個神經網絡的參數

3 仿真分析

3.1 仿真建立

新能源發電基于在比利時輸電系統運營商Elia收集的實際供能數據模擬新能源的輸出功率,運營商Elia 24 h不間斷地跟蹤和預測太陽能發電情況和風力發電情況。運營商Elia的供能信息和新能源發電數據及其預測數據等信息通過微電網中的信息流網絡傳遞給新型負荷管理系統。本地的電力價格和從公共電網進口的電力價格來自加利福尼亞州的日前批發能源市場。出口回公共電網的電力價格設定為當前進口價格的90%。

仿真模擬運行了運營商Elia 2018年12月前30 d的數據和加利福尼亞日前批發能源市場2019年11月的數據,并以此作為訓練集進行訓練。利用運營商Elia 2019年1月前30 d的數據和加利福尼亞日前批發能源市場2019年12月前30 d的數據作為測試集進行測試。

在所提出的方法中,策略網絡具有3個隱藏層,每層有128個ReLU神經元,輸出層有1個線性神經元。價值網絡與策略網絡具有相同的結構。在獎勵函數中,權重因子設置為:ω1=2,ω2=4。本文所提出的方法在訓練過程中的參數設置如表1所示。

表1 算法中的參數設置Table 1 Algorithm parameter settings

3.2 結果及分析

本文所提出的方法在訓練過程中每集的平均獎勵如圖3所示。從圖3中可以觀察到,每集的平均獎勵值在訓練開始后迅速增加,并在經過大約5 500集的迭代后趨于穩定,在訓練結束時收斂于-24.5左右。

圖3 在訓練過程中每集的平均獎勵Fig.3 Average reward per episode during training

本節將通過3種案例下的仿真實驗進行對比,評估本文所提出的微電網能量管理優化方法(案例1)。

案例1:基于PPO算法的微電網運行優化方案,即本文所提出的方法。

案例2:不使用BESS。在該案例情景下,BESS一直保持空閑,若微電網中的供能在滿足了微電網中的需求后還有額外的剩余,則將其出售給公用電網;若存在能量赤字,則向公用電網購入電力能源,除此之外其余設置均不變。此案例情景下不存在因使用BESS而產生的電池退化成本。

案例3:基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法的微電網運行方案。DDPG進一步地融合了深度Q網絡的成功經驗,設置了經驗回放和單獨的目標網絡,經驗回放可以打破存儲序列之間的相關性。DDPG是一個行動器-評判器算法,它具有4個神經網絡:2個Actor網絡和2個Critic網絡。仿真建立了具有3個隱藏層、每層128個ReLU神經元的Actor網絡,和與Actor網絡具有相同結構的Critic網絡。此外,為了使得該算法能更廣泛地探索動作空間,防止其陷入局部最優解,本文在實驗中還為Actor網絡加入了噪聲函數。

圖4 對比了案例1 和案例3 在訓練階段每集平均獎勵的趨勢。案例3 的平均獎勵最終收斂在-32.99左右。從圖4中可以看出,本文所提方法比基于DDPG算法的能量管理方法表現出更穩定的學習能力并能獲得更高的獎勵值。

圖4 案例1和案例3下訓練階段平均獎勵的趨勢Fig.4 Trends of average vewards in training stage under case 1 and case 3

圖5 不同案例下的累計運營成本Fig.5 Cumulative operating costs in different cases

表2 不同案例下微電網運營30天的總費用Table 2 Total cost of microgrid operating for 30 days indifferent cases美元

為了進一步驗證本文所提出方法,圖6和圖7分別描述了在不同權重ω1下微電網中BESS具體連續兩天內的運行情況。結合圖6和圖7可以觀察得出,當電池退化成本分量隨著ω1的增大而增加時,BESS的充放電次數也隨之減少,可見所提出的方法通過避免BESS長期頻繁的充電和放電操作來降低電池退化成本,從而延緩電池損耗。同時也說明電池退化成本分量在獎勵函數中的作用。另外,圖7還表明BESS會選擇在電能價格相對較高時進行放電,在電能價格相對較低時進行充電,以實現微電網運行的經濟性。

圖6 ω1=0 時BESS連續兩日內的運行情況Fig.6 Operation of BESS for 2 consecutive days when ω1=0

圖7 ω1=2 時BESS連續兩日內的運行情況Fig.7 Operation of BESS for 2 consecutive days when ω1=2

圖8顯示了微電網在能源管理系統的控制下一周內具體的運行情況。從圖8中可以看出,當微電網中的電力需求較低且同時分布式發電的產能還有剩余時,能源管理系統會優先選擇利用BESS進行充電操作而不是將電能出售給公共電網。且當能源價格較低時,BESS能夠以更大的功率充電,盡管這種行為當時會受到一定的懲罰,即智能體會收到負的獎勵值,但會在以后帶來更大的回報,例如在電力能源價格較高的時候放電以供應微電網的電力需求。這再次驗證了所提出的方法可以學習和優化智能網絡的能量管理,盡可能地節省微電網的運行成本。

圖8 園區1周內的運行情況Fig.8 Operation of the park within a week

綜上所述,本文所提出的考慮電池退化成本的微電網能量管理優化方法可以提高微電網日常運行的經濟效益,同時通過減少BESS頻繁地充電和放電行為來延長電池的使用壽命。

4 結束語

本文首先建立了一個具有連續狀態空間和連續動作空間且轉移概率未知的MDP模型表述園區微電網的負荷控制與管理,連續的動作空間更符合含BESS或具備高度靈活性柔性資源的調控需求。設計了基于深度神經網絡的隨機策略,使用基于PPO 算法的深度強化學習方法來學習并獲得最佳策略。所提方法能直接從高維的原始數據中學習,克服了負荷動態需求、電價波動(現貨市場日前市場)、分布式發電出力等不確定性因素,實現園區電能量系統日常運行經濟性的同時延緩了電池容量損耗。在仿真實驗中將本文所提方法的表現結果與不使用BESS案例、DDPG算法案例下的表現結果進行比較,并且分別通過對具體連續2 d和連續7 d內園區運行情況的觀察,證明了所提方法的有效性。D

猜你喜歡
神經網絡電網園區
基于神經網絡的船舶電力系統故障診斷方法
待疫散云開,來園區赴一場春的修行
MIV-PSO-BP神經網絡用戶熱負荷預測
數字化電網技術在電網規劃設計中的應用
穿越電網
基于改進Hopfield神經網絡的對地攻擊型無人機自主能力評價
蘇通園區:激蕩開放潮 十年再出發
孔學堂 純粹的國學園區
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
園區開發Ⅱ個股表現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合