?

多主體博弈下基于改進NashQ算法的風電場調度策略

2023-01-14 12:10鄭海林朱振山溫步瀛翁智敏
電力科學與技術學報 2022年6期
關鍵詞:充電站出力風電場

鄭海林,朱振山,溫步瀛,翁智敏

(福州大學電氣工程與自動化學院,福建 福州 350108)

隨著“碳達峰”與“碳中和”目標的提出,要實現中國能源結構的轉變,可再生能源機組的裝機必將逐步增長,未來風電也將大量接入電網。但風力發電的波動性、間歇性以及隨機性為其大規模并網帶來了極大的挑戰[1-2]。受政策補貼的影響,電網公司優先保證風電上網[3-4],但隨著2016年來中國陸上風電4類風區上網指導價連續4次下調,風電的政策補貼紅利逐步減少,參與競爭性電力市場成為未來風電的發展趨勢。因此,考慮多方投資主體博弈下的風電調度策略成為當今重點關注的研究方向之一。

近年來,為了平抑風電出力的波動性與不確定性,中國各省份陸續出臺了一系列強制風電企業配置儲能的政策,但儲能高昂的配置成本、運行成本以及輔助服務市場尚未完全建成一定程度上影響了風電投資主體配置儲能的積極性。此外,電動汽車(electric vehicle,EV)因其環保、經濟等優勢而被廣泛應用[5],極大地推動了電動汽車充電站和充電樁的建設[6]。相比于短時間內為風電場配置大量成本高昂的儲能,利用已有的電動汽車充電站資源參與風電場聯合調度的思路更具有可行性[7]。

目前關于風電優化調度的研究主要有2類:一類是從風電運行效益的角度設定目標函數,建立優化調度模型,從而優化風電運行,如:可再生能源棄電量最小化[8-9]、風電波動與預測偏差的最小化[10-11]、可再生能源的環境效益[12]以及政策補貼[13]等;另一類將風電視作電網的一部分,從電網運行效益的角度設定運行目標,從而優化風電調度策略,如:電網運行成本最小化[14]與用戶的用電成本最小化[15]、電網的環境效益[16]以及電網的電壓穩定性[17]等。但由于電網中的發電設施是由不同的投資主體建設的,將電網視為整體進行調度,未能充分考慮各投資主體的效益,不利于調動各方的積極性。從風電角度優化風電調度策略的文獻僅考慮了風電場投資方效益的最大化,忽視了其他投資主體的效益,無法反映風電進入電力市場后的真實效益。從長遠的角度來看,不利于風電場進入競爭性電力市場后的可持續發展。

考慮到風電機組出力的不確定性以及電網內各方投資主體決策的相互影響,無法通過簡單的優化方法來獲得最佳的運行策略?,F有文獻通過Nash均衡博弈與強化學習的結合,采用多智能體強化學習來求解這一復雜問題。文獻[18-19]引入多智能體強化學習方法來求解多智能體博弈問題,從而優化電網內多方主體的調度策略;文獻[20]在這一基礎上,通過強化學習Q矩陣的遷移從而提高算法的在線學習速度;文獻[21]引入資格跡更新技術提高多智能體博弈和遷移學習的收斂速度。以上文獻所采用的多智能體強化學習算法中,智能體的學習往往局限在自身的學習經驗,對外界環境不敏感,使得收斂速度較慢,會產生較大的計算成本。

因此,針對現有研究的不足,本文提出一種多主體博弈環境下基于改進NashQ算法的風電調度策略,綜合考慮風電場、火電廠、儲能電站以及電動汽車充電站各方的效益,兼顧風電場的預測偏差考核、綠證收益與售電效益,構建多方博弈下風電場調度、風—儲聯合調度與風—車聯合調度的優化模型。采用多智能體強化學習算法進行求解,并引入JS(Jensen-Shannon)散度對比Nash均衡分布與歷史經驗分布來優化NashQ算法中各智能體學習率,提升算法的求解效率,用以求解多主體序貫決策問題。此外,通過對算法中Q矩陣的訓練,提升算法在線求解的速度,使得算法可以靈活適應不同博弈環境。算例仿真結果驗證本文算法的求解性能以及風電場與電動汽車充電站聯合調度策略的優越性。

1 多主體博弈建模

1.1 電網系統結構

電網系統結構主要由火電廠、風電場、儲能電站以及電動汽車充電站和其他用電負荷等組成,本文所討論的電網系統為輸電網層級,其結構如圖1所示。

圖1 輸電網系統結構Figure 1 Schematic diagram of transmission network

1.2 博弈主體基本模型

1)風電場主體。

為了保證電網內功率動態實時平衡,要求可再生能源電站的實際出力與預測出力曲線應基本一致,偏差的發電量或電量不足需要繳納較高的罰金。風電場主體獨立運行時目標函數為

(1)

Sw,t=(pw+pgr)·(Pw,t-Paba,t)·Δt

(2)

Cw,t=((Pw,t-Paba,t)·pwo+|Pw,t-

Paba,t-Ppre,t|pwη)·Δt

(3)

式(1)~(3)中Sw,t為風電場的售電效益;;Cw,t為風電場的成本;Cws為風電場分攤的為風電場分攤的輔助服務費用;Pw,t為風電場t時刻氣象條件下最大出力;Paba,t為t時刻風電場棄風功率;(Pw,t-Paba,t)·pwo為風電場的運行成本;|Pw,t-Paba,t-Ppre,t|pwη為風電場實際出力與計劃出力偏差的懲罰,風電場的實際出力等于在該時刻風速下的風電場最大出力減去風電場棄風功率;pwo為風電運維成本;Ppre,t為t時刻的預測風電出力;pw為風電上網的價格;pgr為風電的綠證價格;η為偏差考核比例;風電的棄風比例應不超過μ,限制條件為Paba,t≤Pw,t·μ。

2)電動汽車充電站主體。

當電網內發電機組出力不足以滿足負荷需求時,充電站通過補助EV用戶,削減充電需求,滿足電網供需平衡。充電站的目標函數為

(pe1-Δpt)-pevo)·Δt

(4)

pevo=plc+psc

(5)

3)火電廠主體。

火電廠的收益一部分為直接售電的效益,另一部分則是火電機組響應電網內功率需求調整自身出力提供AGC服務的收益,目標函數為

(6)

式中SMT,t為火電機組的運行收益;CMT,t為火電機組的運行成本;CMTs為火電機組分攤的輔助服務費用。

成本函數為

(7)

式中 第1項為機組的發電成本;第2項為機組的爬坡成本[21];第3項為機組的啟停成;a、b、c為微型火電系統發電成本系數;PMTi,t為微型火電系統第i臺機組t時刻發電量;i=1,2,…,N為微型火電機組數;ΔPMTui,t、ΔPMTdi,t為微型火電機組上、下爬坡成本;pup、pdown為微型火電機組上、下爬坡量;hi,t為第i臺機組t時刻的啟停狀態,1為啟機,0為停機;pon、poff為啟停機成本。

火電廠的收益為

pAGC·ΔPAGC,t

(8)

式中 第1項為火電機組的售電效益;第2項為火電機組響應AGC服務補償;pMT為火電機組上網電價;pAGC為AGC輔助服務單位電量補貼,當火電的出力調整與電網中功率偏差相反時,ΔPAGC,t取為正,即火電機組獲取AGC響應補償;反之則取為負,作為調節偏差的懲罰。

火電機組運行需要滿足機組的爬坡約束以及機組最大、最小功率的約束,即

(9)

式中PMTi,min、PMTi,max分別為微型火電機組功率最小、最大值;ΔPMTi,max為機組爬坡功率上限。

4)儲能電站主體。

儲能電站的目標函數為

(10)

儲能電站的收益為

(11)

儲能電站的成本為

(12)

式中 第1項儲能充放電損耗成本;第2項為儲能全壽命周期成本;ηcha、ηdis為電池儲能的充放電效率;d為貼現率;n為電池使用年限;Ces為電池本體成本;Lmax為電池年平均最大使用次數。

電池儲能系統運行需要滿足充放電最大功率、荷電狀態約束,約束條件為

(13)

5)輔助服務費用分攤模型。

電網內的輔助服務費用由發電企業按發電量進行分攤[23],即

Δt+Sev+pet|Pet,t|)

(14)

式中 第1項為火電機組AGC服務補償,第2項為儲能調頻服務補償,第3項為EV用戶調節需求響應補償,第4項為聯絡線功率傳輸費用;Pet,t為t時刻電網內功率不平衡引起的聯絡線上功率響應,本文設定聯絡線的傳輸容量約束為2 MW;pet為t單位功率傳輸成本。

常規火電系統承擔費用CMTs與風電場承擔費用Cws為

(15)

式中W為發電企業的總發電量。

1.3 多主體聯合博弈

1)多主體博弈模式。各主體基于某一時刻下各方的狀態,決策下一時刻動作,且各主體的策略受到其他主體影響,為混合策略博弈。

模式1 風電場與電動汽車充電站聯合參與多主體博弈,參與博弈的主體有火電站、儲能電站以及風—車聯合運行主體。風—車聯合運行的優勢在于當風電出力小于預測出力時,可以通過減少EV充電需求來減少風電的預測偏差懲罰。

模式2 風電場配置對應的儲能聯合參與多主體博弈,參與博弈的主體有火電站、儲能電站以及風—儲聯合運行主體。當風電出力小于預測出力時,電池儲能對外放電;反之則對儲能電池充電。

2)風—車聯合運行模型。風—車聯合運行效益為

(16)

式中 第1項為EV減少充電需求后風電場等效出力下的運行效益,第2項為電動汽車充電站減少風電場預測偏差后的調節補償;Pw′,t為風—車聯合運行下風電場實際出力,Pw′,t=Pw,t+Pev1,t,其中Pev1,t為EV減少充電需求用于減少風電出力偏差部分;Pev′為風—車聯合運行下充電站的實際調節電量,Pev′,t=PEV·N·Pev,t-Pev1,t。參與博弈的主體效用函數包括式(6)、(10)、(16)。

3)風—儲聯合運行模型。風—儲聯合運行效益為

(17)

式中 第1項為儲能參與減少風電預測偏差后風電場等效出力下的運行效益,第2項為電池儲能減少風電場預測偏差后的峰谷套利與調頻補償帶來的收益,第3項為電池儲能充放電產生的成本;Pw″,t為風—儲聯合運行下風電場實際出力,Pw″,t=Pw,t+Pcha1,tηcha+Pdis1,t/ηdis,其中Pcha1,t、Pdis1,t為電池儲能用于滿足風電出力偏差部分;Pes′,t={Pcha′,t;Pdis′,t}={Pcha,t-Pcha1,t;Pdis,t-Pdis1,t},{Pcha′,t;Pdis′,t}為風—儲聯合運行下儲能電池的實際充放電電量。參與博弈的主體效用函數包括式(6)、(10)、(17)。

2 改進NashQ算法

2.1 強化學習

強化學習是學習狀態與行為之間的映射關系,通過感知環境狀態以及獎勵學習和決策的過程。Q學習是一種普遍應用的強化學習算法,其遞歸方程為

Q(s,a)t+1=(1-α)Q(s,a)t+

(18)

2.2 NashQ算法

當博弈中其他智能體的策略均給定時,智能體不再改變自身策略,即為Nash均衡,有

(19)

引入多智能體博弈環境,Q值的值函數及迭代公式為

Qi(s,a1,a2…,aN)t+1=(1-α)·

Qi(s,a1,a2…,an)t+α·

(20)

2.3 改進NashQ算法

學習率會影響智能體的學習速度,當學習率取值較大時,智能體對于新嘗試結果的占比越高,對于歷史經驗遺忘率也就越高;當學習率取值較小時,智能體接受新嘗試結果比例較小,使得學習效率下降。而大多數研究強化學習的文獻往往將學習率取為定值,把較優的學習經驗與較差的學習經驗混合,大大降低了學習速度,影響智能體的收斂速度。

KL散度(kullback-leibler divergence)又稱為相對熵,是2個概率分布P和Q差別的非對稱性的度量,用于衡量2種分布的相似度。由于KL散度是不對稱的且不滿足三角不等式,故

DKL(P,Q)≠DKL(Q,P)

(21)

DKL(P,Q)>DKL(Q,S)+DKL(S,Q)

(22)

JS散度是KL散度基礎上的變體,可以有效地解決KL散度存在的問題。當2個概率分布較遠時,KL散度沒有意義,而JS散度仍可以衡量2個概率分布的相似度。

引入JS散度優化各智能的學習率后的NashQ算法流程如圖2所示。引入JS散度優化各智能體的學習率αi,t,即

圖2 改進NashQ算法流程Figure 2 The process of improved NashQ algorithm

(23)

(24)

(25)

3 基于改進NashQ算法的風電調度策略

3.1 狀態空間

3.2 動作空間

3.3 算法流程

改進NashQ算法中采用ε-greedy貪婪算法對動作空間進行探索,動作的探索為

(26)

式中ε0∈[0,1]為貪婪搜索算法的探索率,取較小正數;ai,rand為智能體i隨機選擇的動作。

判斷多智能體強化學習過程中各個智能體的收益是否趨于收斂,收斂判據為

(27)

其中,σ為較小正數,本文取為0.015;Qi,t為第i個智能體第t次循環得到的Q值表。若各個智能體Q矩陣均收斂則結束學習,輸出最優策略;反之則繼續循環。

基于改進NashQ的風電調度策略的流程如圖3所示。

圖3 風電調度策略的流程Figure 3 The process of wind power dispatching strategy

4 算例分析

4.1 算例概況

本文以某個風電場所在地區的電網為例,由250 MW風電場、8 MW·h儲能電站、2臺火電機組的火電廠以及1個電動汽車充電站組成,輔助服務補償價格、電網分時電價以及各設備參數分別如表1~3所示;算法參數設置如表4所示;算法典型日風電、預測以及用戶負荷曲線如圖4所示。

表1 輔助服務補償價格Table 1 Auxiliary service compensation price

表2 電網分時電價Table 2 Time-of-use tariff 元/(kW·h)

表3 設備參數Table 3 Equipment parameters

表4 算法參數Table 4 Algorithm parameters

圖4 典型日風電、預測以及負荷曲線Figure 4 Typical daily curve of wind power,forecast and load

將可再生能源功能狀態按照可再生能源出力/電網內負荷需求之比、風電最大出力上限以及預測出力偏差量對其定義,劃分為1天96個狀態,火電機組包含啟機與停機2種狀態、儲能包含充電/閑置/放電3種狀態?;痣姀S、風電場、儲能電站以及充電站的動作離散為9、6、6、11個離散空間。

4.2 Nash均衡證明及改進Nash結果分析

NashQ算法收斂的具體證明過程可參考文獻[24]。為了保證NashQ算法能夠找到Nash均衡解,則對于任一時間與狀態下,各個智能體均能尋找到一個全局最優點或者鞍點,可用于更新Q矩陣。由于在電網中風電出力具有不確定性,無法保證每個時刻均可以找到全局最優點,在部分時刻僅存在鞍點,但鞍點的數目往往不止一個。

1)傳統的NashQ算法在存在鞍點的算例中容易出現運算結果在幾個鞍點中徘徊選擇,容易導致最終結果出現數個結果的情況。

2)文獻[21]中引入資格跡,提出NETRL算法,通過智能體自身對于某一狀態、動作的訪問次數來優化Q值表的更新,雖然提高了智能體自身經驗的感知,但忽視了智能體對于外部環境的感知,學習的效果有所提升但提升的有限。

3)本文提出的改進NashQ算法則可以較好地避免這一結果,在NETRL算法的基礎上,通過JS散度對比智能體的自身經驗與外部環境,提升智能體對外部環境的感知。

本文采用 Matlab2020a 軟件進行編程求解,在 Intel i5-6300HQ(主頻為2.30 GHz)、內存16 GB 的計算機上運行。利用風電發電系統智能體的收斂判據對比3種算法的收斂結果,收斂所需時間如表5所示,可以看出,本文所提出的改進NashQ算法求解所需時間為NashQ算法的37.3%,也是文獻[21]中NETRL算法的46.9%,從而驗證了本文所提出的改進NashQ算法的快速收斂性。收斂曲線如圖5所示。

表5 3個算法收斂所需時間Table 5 Converge time of the three algorithms

圖5 不同算法的收斂曲線Figure 5 Convergence curves of different algorithms

4.3 仿真結果討論分析

為對比風電不同運行方式下的經濟效益,設定3種風電運行場景,并針對高比例可再生能源電網系統運行模式給出優化風電的調度策略:①電網中風電場、電動汽車充電站、火電廠以及儲能電站系統共同博弈;②風力發電系統與電動汽車充電站系統聯合參與電網中的博弈;③電動汽車充電站轉化為同等容量儲能電池,風儲聯合參與電網中博弈。

3種場景下風電場的棄風電量與減少的偏差考核如表6所示,風—車聯合運行、風—儲聯合運行均能減少風電場的偏差考核,其中風—儲聯合運行下有著顯著的優勢。對比風電獨立運行下棄風電量,風—車聯合運行下減少了43.4%,風—儲聯合運行減少了44.7%??梢钥闯?,風—儲聯合運行可以提高風力資源的利用率。

表6 3種場景下優化運行結果Table 6 Optimization results under three scenarios

各個投資主體的經濟性如表7所示,對比可以看出,風—車聯合運行的經濟效益優于風電場獨立參與電網系統中多主體博弈的經濟效益,提高收益20 775.1元。由于充電站系統的補貼成本比風力發電系統的偏差考核懲罰成本低,同時還能為其帶來額外的售電效益。因此,風力發電系統與電動汽車充電站系統的聯合運行具有實際意義。

表7 3種場景下各投資主體經濟性Table 7 Economics of investment subject under three scenarios

3種場景下風電場調度策略分別如圖6~8所示。風—儲聯合運行由于儲能電池系統較高昂的配置成本與運行成本,其經濟效益甚至低于場景1中風電場獨立運行的經濟效益,在不考慮電廠側儲能參與輔助服務市場時,該風電場配置儲能的運行模式難以吸引風力發電投資者為風電場配置儲能。

圖6 風電運行調度策略(場景1)Figure 6 The operation scheduling strategy of wind power(Scenario 1)

圖7 風—車聯合運行調度策略及回購電能加價曲線(場景2)Figure 7 The operation scheduling strategy for the wind-mill(Scenario 2)

圖8 風—儲聯合運行調度策略及儲能荷電狀態曲線(場景3)Figure 8 The operation scheduling strategy for the wind-storage(Scenario 3)

4.4 在線仿真結果分析

本文基于2020年每個月抽取3 d的數據作為離線訓練數據,訓練集內選取6組數據(X1~X6),訓練集外選取6組數據(C1~C6),檢測本文算法的在線決策能力。在線學習與離線訓練的對比如圖9所示,可以看出,訓練、非訓練集數據在線學習所需平均時間分別為319.21、427.07 s,相較于離線訓練的所需平均時間(507.25 s)分別減少了37.07%、15.81%。因此,通過Q值表的離線訓練可以顯著提升在線學習的求解效率。

圖9 離線訓練與在線學習的平均收斂時間對比Figure 9 Comparison of average convergence time between off-line training and online learning

5 結語

本文以風電場作為研究對象,提出一種多主體博弈下基于改進NashQ算法的風電調度策略,分析對比了不同場景下的風力發電系統的效益。

1)綜合考慮電網系統內不同投資主體的利益訴求,兼顧風電場的偏差考核、綠證效益以及售電效益,充分挖掘風電場、火電廠、儲能電站與電動汽車充電站的調節能力,最大化風電場經濟效益;2)提出的改進NashQ算法與NashQ、NETRL算法對比,收斂所需時間分別縮短了62.7%、53.1%,驗證了改進NashQ算法的有效性;同時,采用離線訓練方式訓練Q值表可以顯著提高在線學習的收斂效率,縮短收斂所需時間;3)仿真結果表明,風—儲、風—車的聯合運行相較于風電池獨立運行可以分別減少44.7%、43.4%的棄風電量,但由于儲能的高昂配置、運行成本,風—儲聯合運行經濟效益較差;而風—車聯合運行在減少棄風電量的同時,還提升了二者的經濟效益,對于風電投資方與充電站投資方具有一定的吸引力。

后續研究會進一步考慮輔助服務市場中有償提供輔助服務對于風電調度經濟型的影響,為參與競爭電力市場的風電運營模式提供參考。

猜你喜歡
充電站出力風電場
基于紅外線熱成像儀設備在蓄電池充電站中的應用
數字化風電場后評估指標體系研究
“首充”
地產人的知識充電站,房導云學堂5月開講!
《海上風電場設施施工檢驗指南》(GD01—2020)發布
基于PSS/E的風電場建模與動態分析
“出力”就要做為人民“出彩”的事
基于實測數據的風電場出力特性研究
我國離岸最遠的海上風電場并網發電
汽車內飾件用塑料掛鉤安裝力及脫出力研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合