?

基于Q-learning算法的配電網儲能裝置控制策略研究

2023-10-19 08:38王曉康俞智浩蘆翔
寧夏電力 2023年5期
關鍵詞:荷電蓄電池儲能

王曉康,俞智浩,蘆翔

(1.國網寧夏電力有限公司吳忠供電公司,寧夏 吳忠 751100;2.國網寧夏電力有限公司電力科學研究院,寧夏 銀川 750011)

0 引 言

隨著可再生能源技術的發展,分布式發電技術不僅應用于變電,而且,在接入更方便的配電網中應用更為廣泛。但在大量分布式電源接入配電網后,其固有的出力波動和高度間歇性會直接影響配電網的電壓運行水平和功率平衡性,進而導致電壓越限和配變過載等問題[1]。解決上述問題的關鍵在于控制配電網有功功率的平衡性,因此在配電網末端接入儲能裝置的輔助運行方式成為一種可行的技術方案[2]。

儲能技術的應用對于改善配電網系統的電壓特性,實現負荷側靈活削峰填谷有著重要的價值。除此之外,合理的儲能控制可以有效提高能源的利用效率[3]。在儲能裝置的輔助下,配電網對于功率波動的耐受性更強,配電網區域內的電壓波動減小,有利于接納更多的新能源接入,從經濟性和穩定性上對區域電網都有著重要的價值[4]。

儲能裝置的控制目標通常為減小系統內節點電壓波動,根據負荷需求合理控制出力水平。儲能控制技術通?;谝欢ǖ哪P?以提升系統某項指標為目的,通過對系統控制策略進行優化和創新來實現預期控制效果[5]。目前國內外常用算法有線性規劃、混合整數規劃、動態規劃、模糊邏輯等,其中動態規劃算法作為目前應用較為成熟的一種算法形式,在迭代計算后可以實現對狀態空間內的控制效果優化,得到局部最優解。但隨著狀態數的增加動態規劃算法容易出現“維度災”問題,即迭代計算量出現指數型上升,從而導致在線計算時間大大增加,同時也會增加計算成本。為了解決這個問題,強化學習算法被提出,并用來求解動態的決策任務。強化學習是一種從歷史經驗中學習最佳策略的算法,主要思想就是智能體通過不斷和環境互動來學習系統的動態特性,具體到每一個迭代過程就是智能體根據當前的狀態做出一個動作,然后得到一個獎勵值和下一時刻的狀態。強化學習智能體和環境互動的次數越多,經驗越豐富,所做的策略越準確。強化學習的Q-learning算法作為一種應用領域較為廣泛的算法類型,通過調整迭代條件可以避免過多狀態量的出現,從而解決維度災難的問題[6]。

Q-learning在使用歷史數據進行訓練時具有優勢且易于理解,對計算資源需求較少,算法訓練過程更為穩定,更能適應配電網的實際情況;因此本文將Q-learning算法應用于以儲能電池為模型的配電網儲能裝置電能出力控制中,研究該算法在儲能電池荷電狀態管理策略下可行狀態空間的優化特性,并將該算法的優化結果與經典動態規劃方法優化結果進行對比,驗證了在儲能電池出力控制的應用背景下Q-learning算法能夠與動態規劃算法達成一致最優解的結論。

1 蓄電池的儲能特性

以蓄電池為代表的電化學儲能是一種目前應用較為廣泛的儲能技術。不僅擁有較高的能量密度和功率密度,同時低廉的成本也是其在能源應用領域的優勢所在。在配電網儲能系統的應用背景下,選取蓄電池儲能裝置,研究蓄電池儲能裝置正常工作時剩余電量、固定時段內的充、放電量以及自放電等參數的相互關系。儲能充電過程可以表示如下:

(1)

對應的儲能放電過程可表示為

(2)

式中:SOC(t)為蓄電池儲能裝置在t時間段的荷電狀態,Pb是蓄電池儲能裝置在t時間段的充放電功率,σ為儲能介質的自放電率,LC為蓄電池儲能裝置的充電損耗,LDC為蓄電池儲能裝置的放電損耗,Δt為計算周期時長,Ecap為蓄電池儲能裝置的額定容量。

蓄電池儲能裝置在其正常工作內的充放電功率受到硬件限制的充放電特性和自身荷電狀態狀態的影響,其荷電狀態需要滿足以下條件:

SOC min≤SOC(t)≤SOC max

(3)

式中:SOC min和SOC max分別為蓄電池儲能裝置荷電狀態的最小值和最大值,即約束了荷電狀態的正常范圍。

2 儲能裝置優化調度模型

2.1 強化學習建模

強化學習方法的原理是將優化問題建模為一個馬爾科夫決策過程來進行求解[7],本文把配電網儲能裝置的策略優化問題描述為一個馬爾科夫決策過程。在馬爾科夫決策過程中,定義環境狀態st為t時間段蓄電池儲能裝置的可行離散電量,動作at為t時間段內蓄電池儲能裝置的平均放電量,由當前時間段和對應下一時間段可行離散電量、時間段內平均充電量所確定;同時定義t時刻的獎勵函數rt(st,at)為

(4)

其中

(5)

Et=APf,tΔt

(6)

式中:C為常數,Et為t時段內蓄電池儲能裝置對外發出的電能,Nt為t時段內蓄電池儲能裝置的平均出力,Nb為t時段內蓄電池儲能裝置的保證出力,Eb則作為懲罰項代表蓄電池儲能裝置在保證處理下產生的電能;A為出力系數,Pf,t為t時段內蓄電池儲能裝置的平均發電功率,Δt為t時段的時間長度值。

采用值迭代的算法求解儲能裝置調度的最優方案,定義Q(st,at)為動作值函數,簡稱Q值,即:

…+r(st-1,at-1)+r(st,at)]

(7)

轉化為遞推形式:

(8)

將蓄電池儲能裝置優化調度模型以時段獎勵函數rt(st,at)為基礎,以確保電能出力為目標,在扣除懲罰值后將各時段內的發電量進行累加,即可得到總發電量E*,并以該數值為基礎構建目標函數,表達式如下:

(9)

也可將E*表示為

(10)

2.2 建立強化學習約束空間

2.2.1 強化學習狀態轉移約束

蓄電池儲能裝置的供能關系約束條件即為強化學習狀態轉移約束條件。功能平衡方程的計算公式如下:

(11)

式中:Qt、Qt+1分別為t時間段初、末時間段下的儲能狀態。Pin,t、Pout,t分別為t時間段內蓄電池儲能裝置的輸入和輸出平均功率。

儲能裝置輸出功率約束:

Pmin,t≤Pout,t≤Pmax,t

(12)

式中:Pmin,t和Pmax,t分別為t時段內儲能裝置輸出功率的最小值和最大值。

配電網需求側功率約束:

Pdis,min≤Pdis,t≤Pdis,max

(13)

式中:Pdis,min和Pdis,max分別為t時段內配電網需求側功率的最小值和最大值。

荷電狀態約束同式(3)。

2.2.2 確定強化學習可行狀態空間

圖1 蓄電池儲能裝置可行荷電狀態邊界求解。

當確定荷電狀態邊界后,可以將強化學習過程的要素定義為t時間段的狀態集合、動作集合以及式(4)中的獎勵函數。狀態集合為t時刻的可行荷電狀態;動作集合為蓄電池儲能裝置的輸出功率,數值可由功能平衡關系確定;獎勵函數集合由t時刻當前蓄電池儲能裝置荷電狀態及其對應的動作集合共同確定[9]。

2.3 配電網儲能裝置優化調度模型

Q-learning是一種基于離軌策略的強化學習算法,它根據時序差分控制的原理并以Q值為評價標準,通過不斷的迭代來求解最優動作,Q-learning算法的目的是在一個迭代回合中使累計期望回報達到最大。Q-learning算法的迭代過程就是從歷史經驗軌跡(也即馬爾科夫決策鏈)中學習最優動作的過程,在單次的模擬流程中,Q-learning通過即時更新Q值為下一次模擬形成新的方案,其算法流程如下:

1)隨機初始化Q(s,a),?s∈S,a∈A(s)。

3)t時刻下,智能體應根據環境狀態st執行動作,本文采用了ε-greedy策略作為智能體的動作策略。

(14)

εt=εb

(15)

式中:εt為t時刻ε的值;ε為小數,其含義為智能體在t時刻有ε的概率隨機選取動作;b為接近1的小數,一般取0.9;π(st)為t時刻根據狀態st采取的策略;εm為小數,一般取0.1。

圖2 算法流程。

當算法迭代次數達到一定數量時即可終止,最優策略的生成不再由ε-greedy策略決定,而是依據各時刻相應狀態下的最優Q值選取動作形成最優策略。

3 實例分析

3.1 配電網儲能裝置實例

以某配電網儲能裝置為例,其儲能容量為60 kW·h,最大輸出功率為30 kW,出力系數A=1。以臺區日內負荷變化作為調度時段,將儲能裝置典型高負荷日的輸出功率作為模型的輸入。

3.2 試驗結果分析

為了證明Q-learning算法在配電網儲能裝置優化調度問題上的有效性,設置了Q-learning算法與動態規劃算法的對比實驗:首先,使用動態規劃算法求出儲能設備日內各時刻的最優荷電狀態;其次,將離線訓練好的Q-learning算法在線部署,使其在線生成儲能設備日內各時刻的最優荷電狀態;最后,對比兩種方法的性能。動態規劃的優化結果見圖3。

圖3 基于動態規劃算法的日內最優荷電狀態。

本論文定義Q-learning算法的學習率為α,同時對該參數進行敏感性分析,分別設置3組實驗,每組實驗α值分別設置為0.01、0.05、0.1,然后觀察各組實驗Q-learning的迭代過程。對于其他超參數,設置ε初始值為0.99,常數值b為0.99,εm值為0.1。強化學習智能體和環境互動的次數越多,經驗越豐富,所做的策略越準確。在訓練時讓智能體和環境交互1百萬次,其中包括1 000個回合,每回合包括1 000個迭代步,每回合記錄依賴Q值生成的解對應的總獎勵值,最終優化結果見圖4。

圖4 Q-learning迭代過程曲線。

從圖4中可以看出:由于Q-learning算法剛開始進行隨機探索,所做的動作是隨機的,因此獲得較低的獎勵,隨著探索的減小,Q-learning算法逐漸學習到正確的策略,獎勵值不斷增大,隨著迭代的進行,Q-learning算法不再探索隨機動作,而是采用學習到的最優動作,因此獎勵函數逐漸收斂,Q-learning智能體也進入穩定的最優狀態。參數α越大,Q-learning收斂的越快。

表1為Q-learning算法不同α值的對比結果,圖5為動態規劃與Q-learning不同α值變化的對比。由表1及圖5可知,隨著α值的不斷增大迭代收斂的速度會不斷變快,其訓練所需的時間也會大大減小,因此我們在訓練時需要將α值調整為0.1。在Q-learning算法訓練的前期,由于動作是隨機探索的,因此Q值存在較大的優化空間,其獎勵值和優化效果也會呈現較大的變化趨勢。隨著迭代的進行,Q-learning算法的動作逐步穩定并趨于最優,這時Q值對動作的評估和每回合的累計獎勵也達到穩定,迭代收斂。迭代后期當Q-learning算法所做的決策逼近最優解時,優化趨于平穩狀態,Q-learning算法能夠與動態規劃算法達成一致最優解。

表1 Q-learning算法不同a值對比結果

(a)α=0.01。

(b)α=0.05和α=0.1圖5 動態規劃與Q-learning不同α值荷電狀態變化對比。

如2.3節中的算法流程所示,在每個迭代步開始時智能體根據當前的狀態從Q表中選取Q值最大的動作,迭代步結束時根據式(8)來更新Q表。訓練迭代1百萬次的目的就是得到一個完美的Q表,這個過程是離線進行的,所消耗的時間是可以接受的。訓練完成后,將訓練好的智能體(具備完美的Q表)部署下去進行在線執行,在線執行時智能體輸入當前的狀態,根據Q表可以實時得到一個最佳的策略,因此相比其他算法,Q-learning算法在執行過程中得到策略的過程非???是毫秒級別[10]。

上述結果顯示,在整個可行的策略搜索空間中,當訓練回合數達到一定的數量時,Q-learning算法所構建的配電網儲能裝置可以執行最優的動作,實現調度任務的最優化。

4 結 論

將強化學習的Q-learning算法應用于配電網儲能裝置的控制策略中,以蓄電池儲能裝置為例建立了優化調度模型,并通過調節強化學習超參數實現迭代優化。證明了當迭代次數達到一定數量時,Q-learning算法可達到理論上的最優解。該方法在大大減少優化時間的同時,獲取了同動態規劃一致的最優調度方案。該算法能夠有效引導蓄電池儲能裝置學習到滿足預設目標且趨于最優的充放電策略,根據用戶在不同時段用電需求及用電特征,儲能裝置在用電低谷期時充電,在日間根據用戶負荷的實時需求放電,就地增大供電能力,緩解配電網季節性配電變壓器重過載問題,具有較高的應用價值,但Q-learning算法仍然存在一定的局限性,例如在處理大規模問題時會出現計算效率低下和內存需求過大的問題,以及在用于多智能體的環境時,會面臨其他智能體策略變化導致非平穩問題。針對配電網的環境中的不確定性可以考慮將其他算法與Q-learning相結合,來提高Q-learning算法的適應能力。

猜你喜歡
荷電蓄電池儲能
相變儲能材料的應用
基于雙擴展卡爾曼濾波的電池荷電狀態估計
儲能技術在電力系統中的應用
儲能真要起飛了?
聊聊蓄電池的那點事兒(1) 汽車蓄電池的前世
基于MARS 的電池荷電狀態估計
蓄電池去哪兒了
蓄電池去哪兒了?VOL12.雷克薩斯RX450h
直流儲能型準Z源光伏并網逆變器
蓄電池去哪兒了?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合