基于多智能體強化學習的電-碳-綠證多市場均衡研究

2024-01-11 14:08馬天男向明旭陳玉敏

四川電力技術 2023年6期

馬天男,向明旭,魏陽,劉暢,4,陳玉敏

(1. 國網四川省電力公司經濟技術研究院, 四川成都 610041; 2. 重慶大學電氣工程學院, 重慶 400044; 3. 國網四川省電力公司電力科學研究院, 四川成都 610041; 4. 四川省新型電力系統研究院, 四川成都 610041)

0 引言

電力市場機制設計對于推進碳交易市場參與的電力市場建設并加速以綠電為主體的高比例清潔能源電力系統建設具有重要作用,是構建新型電力系統、推進“雙碳”戰略目標的關鍵途徑[1-2]。中國在2017年發布了《全國碳排放權交易市場建設方案(發電行業)》,指出“按照國家生態文明建設和控制溫室氣體排放的總體要求,在不影響經濟平穩健康發展的前提下,分階段、有步驟地推進碳市場建設”[3]。同時,發布了一系列的工作方案和管理辦法在全國范圍內試行綠證交易[4-6]。

電力市場、碳市場與綠證市場之間通過市場機制的作用深刻影響市場主體決策,通過價格聯動和供需關系等產生交互影響。3個市場在核心產品屬性、政策、技術、市場定位等方面聯系密切,機制層面的有效協同將有利于形成合力,共同推動清潔能源發展和行業社會碳減排[7]。因此,研究電力市場、碳市場、綠證市場等各市場之間的耦合分析對于中國電力市場的建設具有重大意義。

電力市場均衡分析方法常采用以市場主體利潤最大化為目標的報價決策模型和以社會福利最大化為目標的市場出清模型共同構成的電力市場雙層均衡模型[8]。該模型的求解方法為:先基于下層模型的卡羅需-庫恩-塔克(Karush-Kuhn-Tucher,KKT)條件和線性化手段,將雙層均衡模型轉化為帶均衡約束的均衡優化模型(equilibrium problem with equilibrium constraints,EPEC);再將模型中的各非線性項線性化處理后進行求解[9]。此外,還可以使用對角化算法求解上述EPEC模型[10-12]。上述模型驅動方法在求解線性模型的電力現貨市場均衡解方面取得了顯著成效。

然而,在新型電力系統建設背景下,現有的均衡分析模型與求解方法難以滿足電力市場機制設計的更高要求?，F有的均衡分析方法,特別是EPEC方法,受KKT條件的限制,其建模過程難以考慮發電機組成本和運行特性的非凸性,并且模型線性化過程中產生的互補松弛條件數量隨系統規模和機制復雜程度的增加而迅速增長,導致該方法在解決大規模系統和復雜機制下的市場均衡問題時面臨巨大挑戰。同時,上述模型本質上是一種完全信息博弈問題,每個市場主體都知曉其他主體以及市場出清的全部信息,這與實際電力市場的有限信息環境不符。因此,亟需改進和完善均衡分析方法,以有效解決電力市場建設面臨的復雜機制設計問題。

為此,有學者嘗試使用數據驅動的強化學習算法求解電力市場均衡問題[13-14]。強化學習方法的無模型、自主學習等特征與電力市場均衡分析的研究需求相契合,市場主體可以通過與出清環境的不斷交互,逐漸學習其最佳策略,不依賴對市場出清環境和其他市場主體策略的了解,只依賴于自身運行特性和觀測到的市場出清結果[15],從而避免了模型構建與轉化的復雜過程。

下面采用多智能體深度強化學習作為電力市場均衡分析方法,來探討碳市場與綠證市場交易機制對電力市場均衡的影響。首先,對電力市場均衡模型進行闡述,并采用以最小化購電成本為目標的電力市場雙層優化模型,為后續分析碳市場與綠電市場對電力市場的耦合影響奠定模型基礎;然后,建立了電力市場與碳市場的聯合出清模型、電力市場與綠證市場的聯合出清模型以及電-碳-綠證多市場的聯合出清模型;最后,提出了基于多智能體深度強化學習的電力市場均衡求解算法,經過驗證可有效獲取市場均衡解。

1 電-碳-綠證市場均衡研究

1.1 電-碳市場雙層優化模型

碳市場的建設會對電力系統產生較大影響?？紤]碳市場耦合的電力市場均衡研究是市場機制設計的重要一環,對此提出了電-碳市場雙層優化模型。

碳交易市場的參與主體僅包含常規能源發電商,不包含可再生能源發電商。所提模型中,可再生能源發電商僅參與電力日前市場獲取收益,常規能源發電商同時參與電力日前市場和碳市場獲取收益。因此,電-碳市場雙層優化模型包含可再生能源利潤最大化模型、常規能源發電商利潤最大化模型和日前電力市場出清模型3個部分。

1.1.1 上層模型1:可再生能源發電商利潤最大化

目標函數為最大化可再生能源發電商的利潤,即日前市場出清的收益減去其發電成本,約束為限制發電商的報價范圍。

(1)

1.1.2 上層模型2:常規能源發電商利潤最大化

常規能源機組發電過程中會產生二氧化碳排放,其碳排放量由式(2)計算,機組的碳排放成本由式(3)計算。若機組的碳排放大于免費碳配額,即碳排放成本為正,則發電商需要從碳排放權市場中購買所需的碳排放權;若機組的碳排放小于免費碳配額,即碳排放成本為負,則發電商可在碳排放權市場中出售剩余的碳排放權。

e=φP

(2)

CCET=pCET(e-ef)

(3)

式中:e、φ、CCET分別為常規能源機組的碳排放量、碳排放強度和碳排放成本;pCET為碳排放權市場中的碳價;ef為免費碳排放配額。

常規能源發電商的利潤最大化模型如式(4)所示,目標函數為最大化常規能源發電商的利潤,即日前市場出清的收益減去其發電成本和碳排放成本,約束為限制發電商的報價范圍。

(4)

1.1.3 下層模型:日前電力市場出清

日前電力市場出清模型如式(5)—式(8)所示。目標函數式(5)為最小化總發電成本,也稱作最大化社會福利;式(6)為節點功率平衡約束;式(7)為機組出力上下限約束;式(8)為支路潮流約束。

(5)

(6)

(7)

-Sn,m≤Bn,m(θn-θm)≤Sn,m

(8)

1.2 電-綠證市場雙層優化模型

考慮綠證市場耦合的電力市場均衡研究是市場機制設計的重要一環,因此提出了電-綠證市場雙層優化模型。

綠證交易市場的參與主體僅包含可再生能源發電商,常規能源發電商不參與其中。所提模型中,常規能源發電商僅參與電力日前市場獲取收益,可再生能源發電商同時參與電力日前市場和綠證市場獲取收益。因此,電-綠證市場雙層優化模型包含可再生能源利潤最大化模型、常規能源發電商利潤最大化模型和日前電力市場出清模型3個部分。

1.2.1 上層模型1:可再生能源發電商利潤最大化

在電力市場中出清后,根據可再生能源發電商的發電量為其頒發相同數量的綠證,可再生能源發電商可在綠證市場中將其出售,出售綠證獲得的收益由式(9)計算。

RTGC=pTGCP

(9)

式中:RTGC為可再生能源發電商出售綠證獲得的收益;pTGC為綠證價格。

可再生能源發電商的利潤最大化模型如式(10)所示,目標函數為最大化可再生能源發電商的利潤,即日前市場出清的收益加上在綠證市場交易的收益減去其發電成本,約束為限制發電商的報價范圍。

(10)

1.2.2 上層模型2:常規能源發電商利潤最大化

目標函數為最大化常規能源發電商的利潤,即日前市場出清的收益減去其發電成本,約束為限制發電商的報價范圍。

s.t.b≤bbid≤bmax

(11)

1.2.3 下層模型:日前電力市場出清

電-綠證市場雙層優化模型的下層模型同第1.1.3節。

1.3 電-碳-綠證市場雙層優化模型

所建的電-碳-綠證市場雙層優化模型如圖1所示:上層為發電商利潤最大化模型,求解得到發電商在日前市場中的報價策略傳遞給下層模型;下層為日前市場、碳市場、綠證市場出清模型,求解得到日前市場的節點電價和各發電商出清電量、可再生能源發電商頒發綠證數量、常規能源發電商碳排放量等市場出清結果傳遞給上層模型。在所建模型中,可再生能源發電商參與電力日前市場和綠證市場獲取收益,常規能源發電商參與電力日前市場和碳市場獲取收益。因此,電-碳-綠證市場雙層優化模型包含可再生能源利潤最大化模型、常規能源發電商利潤最大化模型和日前電力市場出清模型3個部分。

圖1 電力市場雙層優化模型

1.3.1 上層模型1:可再生能源發電商利潤最大化

目標函數為最大化可再生能源發電商的利潤,即日前市場出清的收益加上綠證市場的收益減去其發電成本,約束為限制發電商的報價范圍。

(12)

1.3.2 上層模型2:常規能源發電商利潤最大化

目標函數為最大化常規能源發電商的利潤,即日前市場出清的收益減去其發電成本和碳排放成本,約束為限制發電商的報價范圍。

(13)

1.3.3 下層模型:日前電力市場出清

電-碳-綠證市場雙層優化模型的下層模型同為第1.1.3節,此處不再贅述。

2 基于多智能體深度強化學習的電力市場均衡求解方法

2.1 多智能體雙延遲深度確定性策略梯度算法

在電力市場均衡問題中,每個市場參與主體都被建模為智能體,因此在系統中存在多個智能體,各智能體之間的行為會相互影響,共同推動整個系統的演化。為了解決電力市場中的多智能體系統演化問題,多智能體強化學習(multi-agent reinforcement learning)方法被廣泛采用。多智能體雙延遲深度確定性策略梯度(multi-agent twin delayed deep deterministic policy gradient, MATD3)算法是一類多智能體強化學習方法。智能體系統中,多個智能體處于相同的環境中,它們分別獨立與環境交互,利用環境的反饋獎勵更新自身策略。MATD3T算法在解決電力市場的多智能體系統問題中表現出了較好的性能。MATD3算法包括策略網絡和價值網絡。其中,策略網絡的輸入是智能體i對環境的觀測oi及決策變量θi,輸出動作ai=μ(oi;θi)控制智能體i的行為。價值網絡的輸入是所有k個智能體的觀測,即全局狀態s={o1,o2,...,ok},輸出q(s,a;ωi)用于評價智能體i動作的優劣,可以指導策略網絡改進其策略。MATD3算法分別訓練策略網絡與價值網絡,訓練數據是從經驗回放池中取出t時段的四元組(st,at,rt,st+1),如式(14)—式(17)所示。

(14)

(15)

(16)

(17)

式中:st為t時段的全局狀態;at為t時段的輸出動作;rt為t時段的獎勵回報。

訓練策略網絡μ(oi;θi)的目標是提高價值網絡,對智能體i的打分q(s,a;ωi),如式(18)所示。對策略網絡的目標做蒙特卡洛近似并求梯度,然后做梯度上升更新參數θi,如式(19)—式(20)所示。

Ji(θ1,...,θk)=

ES{q[S,{μ(o1;θ1),...,μ(ok;θk)};ωi}

(18)

(19)

(20)

(21)

(22)

(23)

2.2 基于多智能體深度強化學習算法的模型求解算法

使用MATD3算法求解電力市場均衡,電力市場環境下的強化學習要素設置如下:

1)智能體(Agent):參與電力市場的所有發電商都被設置為智能體,假設系統中共有k個發電商。

2)環境(Environment):將環境定義為電力市場的出清過程,在發電商報價后電力市場進行出清并將出清結果反饋給發電商。

基于MATD3算法求解電力市場均衡模型的具體步驟如下:

3)按照訓練頻率定期更新網絡參數。從經驗回放池中隨機抽樣一個四元組的mini-batch,對于各發電商計算其目標策略網絡和目標價值網絡的輸出,并根據目標網絡對價值網絡和策略網絡的參數ωa、ωb、θ進行更新。

3 算例研究

3.1 多智能體強化學習算法有效性驗證

采用經過修改的IEEE 30節點測試系統進行分析驗證。該系統有30個節點、41條支路、20處負荷和6臺發電機組,其中:機組G1和G2為風電機組,由可再生能源發電商持有;機組G3—G6為常規能源機組,由常規能源發電商持有。發電機組參數見表1。

表1 發電機組參數

使用第1.2節中雙層優化模型和強化學習算法對測試系統的市場均衡進行求解,訓練過程如圖2所示。訓練過程共30 000步,前10 000步為隨機生成動作,以獲得盡可能多的觀測狀態作為策略網絡和價值網絡的訓練數據;后20 000步智能體根據策略網絡生成報價動作,智能體的價值網絡和策略網絡不斷訓練更新,策略網絡逐漸學習到最優報價策略,最后生成穩定的報價動作。從圖2可以看出隨著訓練進行各智能體的報價逐漸趨于收斂。

圖2 強化學習算法求解市場均衡訓練過程

3.2 運行結果分析

3.2.1 碳排放配額及碳價對市場均衡點的影響

為探究碳配額對市場均衡點的影響,設置ef為30 t、20 t、10 t分別對應碳配額寬松、碳配額適度收緊和碳配額嚴重收緊3種場景。同時,為探究碳價對市場均衡點的影響,設置pCET從0 至20 美元/t以步長2 美元/t遞增。

碳配額和碳價對市場出清電價的影響如圖3所示,其中場景1、場景2、場景3分別對應于碳配額寬松、碳配額適度收緊和碳配額嚴重收緊的場景。

圖3 不同碳配額和碳價下的市場出清電價

從圖3中可以看出,出清電價隨碳價的升高呈上升趨勢。這是因為隨著碳價的升高,高排放機組發電需要花費更高的成本從碳市場中購買碳排放權,其總利潤降低,因此持有高排放機組的發電商希望通過上報高于發電成本的價格以提高日前電力市場出清電價,從而增加其在電力市場中獲得的利潤。

在3個碳配額場景中:碳配額適度收緊時,市場出清電價的抬升相對較小,僅高排放機組有動力虛報成本;碳配額嚴重收緊時,低排放機組也需要購買碳排放權,同時高排放機組的發電利潤甚至可能小于購買碳排放權的成本,因此,在該場景的仿真中常規能源發電商都存在虛報成本的行為,電價抬升較大;碳配額寬松時,碳市場對機組的發電約束較小,在碳價較低時碳市場對發電商的報價影響不大,而在碳價較高時發電商可從碳市場中交易獲得較高利潤,因此在該場景的仿真中,發電商傾向于在碳市場中交易,均選擇在電力市場中虛報成本,導致出清電價急劇抬升。

3.2.2 綠證價格對市場均衡點的影響

為探究綠證價格對市場均衡點的影響,設置pTGC從0 至10 美元/張以步長1 美元/張遞增。不同綠證價格下可再生能源發電商報價以及市場出清電價如圖4所示。由圖4可以看出,隨著綠證價格的上升,可再生能源發電商的報價逐漸降低,最終趨于上報真實發電成本。其主要原因是可再生能源發電商在綠證市場中的收益取決于其實際發電量,若上報較高的價格,可能會使其成為邊際機組導致發電量減少,從而也導致其在綠證市場的收益減少。

圖4 不同綠證價格下的可再生能源發電商報價

3.2.3 碳價與綠證價格對市場均衡點的耦合影響

為探究碳價和綠證價格對市場均衡點的影響,設置碳價從0 至20 美元/t以步長5 美元/t遞增,設置pTGC從0 至10 美元/張以步長2.5 美元/張遞增,設置碳配額為適度收緊場景。

碳價和綠證價格對市場均衡點的影響如圖5所示?？梢钥闯?市場出清電價隨碳價上升而升高,隨綠證價格上升而降低。

圖5 不同碳價和綠證價格下的市場出清電價

為了進一步研究碳價與綠電價格對發電商報價策略的耦合影響,仿真分析了不同碳價與綠證價格下可再生能源機組G1、低排放機組G5和高排放機組G3的報價,如圖6—圖8所示。在高碳價場景下,低排放機組傾向于在碳市場中獲利,高排放機組希望抬升出清電價以增加利潤,因此常規能源機組都有動力上報更高的價格。常規能源機組虛報成本使得可再生能源機組也具有上報更高價格的傾向,此時綠證市場的參與增加了可再生能源機組對自身發電量削減的風險厭惡程度,消除了其上報高價的傾向。由此得出,碳市場的參與增加了發電商在電力市場報價中使用市場力的傾向,綠證市場的參與降低了發電商在電力市場報價中使用市場力的傾向。

圖6 不同碳價和綠證價格下的可再生能源機組報價

圖7 不同碳價和綠證價格下的低排放機組報價

圖8 不同碳價和綠證價格下的高排放機組報價

4 結論

上面在電力市場環境下,根據碳市場與綠證市場的交易規則分別建立了電-碳市場、電-綠證市場和電-碳-綠證市場的雙層優化模型,采用強化學習方法對市場均衡進行求解,并就碳市場和綠證市場對電力市場運行的影響進行了探討。所得主要結論如下:

1)設置適度收緊的碳配額以及適當的碳價能夠增加低排放機組的利潤,有效激勵低排放機組的發電意愿,對電力系統的減排作用較大;嚴重收緊或寬松的碳配額不能有效激勵低排放機組發電,對電力系統的減排作用較小。此外,過高的碳價會導致電價飆升,擾亂電力市場運營秩序。

2)綠證市場的參與可以增加可再生能源發電商的利潤,激勵可再生能源機組發電,放棄其在電力市場中的市場力,從而降低市場出清電價。

3)市場出清電價和碳價成呈正相關,和綠證價格呈負相關,當前電力系統環境下電價受碳價的影響相對較大;碳市場的參與促進發電商在電力市場中使用市場力,而綠證市場的參與限制發電商在電力市場報價中使用市場力。