?

基于MATSAC-LSTM 的綜合能源系統自動發電控制算法研究

2023-10-31 09:39鄧棋宸
智能計算機與應用 2023年10期
關鍵詞:能源頻率智能

李 昊, 榮 娜, 鄧棋宸

(貴州大學 電氣工程學院, 貴陽 550025)

0 引 言

隨著全球能源轉型,新能源大規模分散式接入電網,致使電力系統隨機性、間歇性不斷增強,傳統自動發電控制(AGC) 策略已經不滿足電網需求[1-2]。 因此,從AGC 策略的角度,尋找一種在綜合能源系統背景下有效提高系統安全穩定運行的控制策略具有重要意義[3-4]。

AGC 控制策略實際上是根據電網實時運行工況在線計算出最優決策[5]。 目前,AGC 控制策略可以分為傳統AGC 控制策略和智能AGC 動態優化策略。 傳統AGC 控制策略有模糊控制、自適應控制、魯棒控制、 比例積分微分(Proportional Integral Derivative, PID)控制等方法。 文獻[6]使用自適應烏鴉搜索算法提出了一個最優模糊PID 控制器,將其應用于非線性兩區域和三區域再熱系統的AGC,減少頻率偏差。 隨著大規模新能源接入電網,數據維度變大,傳統PID 控制方法控制難度急劇增大。伴隨人工智能的進步與發展,有關AGC 的智能算法也相繼應用,試圖解決傳統控制方法暴露的問題。

由于強化學習具有實時性和自適應性,智能體可以與環境交互收集信息,不斷試錯和探索,從而可以在綜合能源系統獲得最優控制策略。 文獻[7]將Q 學習算法應用于AGC,依靠Q值函數和控制性能標準(Control Performance Standards,CPS)控制動作形成閉環反饋來形成最優控制策略,增強了算法的適應性和控制性能;文獻[8]提出多經驗池概率回放的雙延遲深度確定性策略梯度(Multiple Experience pool experience replay Twin Delayed deep deterministic policy gradient, ME-TD3)算法,采用不同概率從不同經驗池采樣,提高最優策略的質量;文獻[9]引入卷積神經網絡(Convolution Neural Network,CNN),解決了傳統強化學習算法中維數災難的問題,但缺乏考慮歷史狀態變化,造成局部最優的問題;文獻[10]提出一種基于動態策略的贏或快速學習爬坡策略(Policy Dynamics based Win or Learn Fast Policy Hill-Climbing, PDWoLF-PHC)算法,通過改變學習率在各種復雜的電力系統環境中得到最優策略,解決了新能源和分布式能源接入電網時產生的強隨機擾動問題,但由于采樣復雜度較高,算法收斂速度較慢。

為解決復雜綜合能源系統背景下AGC 算法收斂速度慢、控制性能差的問題,本文提出了一種基于多智能體遷移柔性行動器-批判器與長短時記憶網絡(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory, MATSAC-LSTM)的算法,該算法具有更強魯棒性,最大熵政策可以使智能體具有更強的探索能力,能夠得到全局最優解,融合遷移學習使得算法的收斂速度變快。 在一個修改的IEEE標準兩區域負荷頻率控制系統模型和一個五區域綜合能源系統進行了算例分析。 結果表明,該方法能有效提高系統的控制性能指標和收斂速度,降低了系統的區域控制誤差和頻率偏差。

1 MATSAC-LSTM 算法

傳統強化學習算法在AGC 應用上收斂速度慢,控制性能差,因此本文在柔性行動器-批判器(Soft Actor-Critic, SAC)算法的基礎上,用LSTM 網絡將采集的區域控制誤差等環境狀態量進行時序特征提取,作為MATSAC 算法的輸入,多智能體框架使得智能體之間信息共享,并通過遷移學習來解決收斂速度慢的問題,進而提出MATSAC-LSTM 算法來提高收斂速度和控制性能。

本文提出MATSAC-LSTM 算法架構如圖1 所示。 本文所研究的AGC 系統是動態隨機環境,MATSAC-LSTM 算法根據系統所處的狀態計算出相應的獎勵值,將當前系統環境的狀態量作為MATSAC-LSTM 算法的輸入,智能體在每個控制周期中,給出最優功率發電指令。

1.1 柔性行動器-批判器算法

深度強化學習具有處理高維連續狀態-動作空間的特點,而柔性行動器-批判器(SAC)算法是最好異策略深度強化學習算法之一,相較于雙延遲深度確定性策略梯度( Twin Delayed deep deterministic policy gradient, TD3)算法和近端策略優化(Proximal Policy Optimization, PPO)算法,該算法可以使政策的熵值和預期收益最大化,從而使樣本學習的效率得到提高,SAC 算法框架如圖2所示。

圖2 SAC 算法框架Fig.2 Framework of SAC algorithm

在SAC 算法中,概率策略的熵可以描述為式(1):

其中,st代表當前智能體的狀態,a代表當前智能體的動作。

在強化學習算法框架中的最大熵值函數,可以描述為式(2):

其中,E代表數學期望;T為智能體和環境交互的時間步數;at代表智能體在時間t執行的動作。

在SAC 算法中,有3 個神經網絡,分別是:V網絡,Q網絡和策略網絡。

V網絡Vψ(st) 由損失函數的均方誤差更新,式(3):

其中,D是訓練樣本的經驗回放池,λV是V網絡的學習速率。

策略網絡π?(at |st) 可以由KL散度損失公式更新,式(4):

其中,λπ代表V 網絡的學習速率。

Q網絡Qπθ(st,at) 通過貝爾曼誤差公式進行更新,式(5) 和式(6):

其中,r(st,at) 代表智能體執行動作時獲得的獎勵,Vˉψ(st) 代表目標網絡。

1.2 多智能體遷移柔性行動器-批判器算法

與SAC 算法相比,多智能體遷移柔性行動器-批判器算法是將單智能體采用集中訓練分散執行(Centralized Training with Decentralized Execution,CTDE)框架拓展到多智能體。 在訓練階段,本文在每個區域設置一個智能體,智能體的Actor 網絡和目標Actor 網絡采集當前狀態的環境信息和下一狀態的環境信息,然后生成智能體的當前動作和目標動作。 將一個智能體觀察的環境狀態量,以及其他智能體的動作信息作為相應智能體Critic 網絡的輸入,Critic 網絡輸出當前動作的Q值。 此外,每個智能體都有一個自己的經驗回放池,以提高MASAC算法的穩定性。 在智能體收集足夠經驗回放池中的數據后,每個智能體從經驗回放池中隨機取樣來訓練自己。 當經驗回放池中有足夠的數據時,智能體隨機抽樣得到的數據接近于獨立的相同分布,設置經驗回放池可以打破序列之間關聯性,避免模型陷入局部最優。

1.3 基于LSTM 網絡的MASAC 框架構建

長短時記憶網絡(Long-Short Term Memory,LSTM)網絡是在循環神經網絡(Recurrent Neural Network, RNN)基礎上改進的,每個LSTM 都是一組捕獲數據的單元,這些單元從一個模塊連接到另一個模塊,傳輸過去的數據,并收集當前的數據。LSTM 模型示意圖如圖3 所示。

LSTM 網絡包括3 個門:輸入門、輸出門和遺忘門,幫助LSTM 處理順序數據。遺忘門ft、輸入門it、輸出門ot由式(7)~式(9) 計算得出。

其中,xt,ht分別代表輸入層和輸出層;Wf,Wi,Wo,Wc是隱藏層輸入映射到3個門的權重矩陣;Uf,Ui,Uo,Uc是關于3 個門與輸入單元狀態之間連接相關的權重矩陣;bf,bi,bo,bc是偏差向量;σg是門激活函數。

計算得到的3 個門的輸出后,由式(10)和式(11)更新輸出:

其中,Ct代表長期記憶信息,ht代表短期記憶信息。

在模型訓練時,LSTM 網絡將已經輸出的記憶信息與電力系統的當前狀態連接,傳遞給Actor 網絡和Critic 網絡作為輸入,使得智能體輸入的信息更加完整。

1.4 遷移學習

遷移學習涉及源領域和目標領域,從源領域學習到的知識可以轉移到目標領域,源領域和目標領域相似,則知識轉移的過程相對容易,從而不考慮在兩者之間分布和適應性方面的差異。 不同綜合能源系統由于其機組不同、結構不同,所以其控制策略也有差異。 因此,遷移學習可以與SAC 算法相結合,從而使SAC 算法在AGC 中學習效率得到提高。 在遷移學習中,通常采用兩種策略,一種是傳遞學習模型的參數;另一種是共享由以前訓練過的智能體。本文采用第一種方法,即在源領域訓練后的智能體向目標領域智能體進行參數傳遞。

2 基于MATSAC-LSTM 的AGC 設計

基于MATSAC-LSTM 算法的自動發電控制是通過各個區域的智能體實時感知綜合能源系統中的環境信息,智能體通過收集當前系統的環境信息狀態量作為MATSAC-LSTM 算法的輸入,以獎勵函數作為目標函數,計算出相應獎勵值,算法在每個控制周期中,智能體輸出最優動作作為實際電網調度端所有機組最優的總發電調節指令。

1、工資費管理。工資費用是人員費用中最為敏感的話題,也是歷來審計查處的重點。直接費用是課題組活動中可以直接計入成本的費用。包括人員費、設備費等其他研究過程中的經費。人員費即課題組成員的工資性費用。課題組成員所在單位有事業費撥款的,由所在單位按照國家規定的標準從事業費中及時足額支付給課題組成員,并按規定在課題預算的相關科目中列示,不得在國家資助的課題專項經費中重復列支。國家另有規定的,按照有關規定執行。

綜合能源的控制性能可以通過區域控制偏差(Area Control Error, ACE)ACE 和CPS1 來衡量。

ACE 計算,式(12):

其中,Δf代表電網實際頻率與計劃頻率之差;ΔPT代表聯絡線上實際交換功率與計劃交換功率之差;B代表區域定義的頻率偏差系數。

CPS1 指標,式(13):

其中,ε1是互聯電網對全年1 min 頻率平均偏差均方根的控制目標值,Δfmin代表相應變量在1 min內的平均值。

2.1 智能體設計

(1)狀態空間:對于任何時刻t,Si代表智能體在t時刻當前的狀態,可以用式(14)表示:

其中,ACEi是第i區域的區域控制誤差的瞬時值,Δfi是第i區域頻率偏差的瞬時值。

其中,ΔPGi是第i區域實際電網調度端所有機組的總發電調節指令。

(3)獎勵函數:將ACE作為目標函數,能夠使CPS 指標保持高水平穩定且功率限制在小范圍內波動。 而系統控制性能也能由頻率偏差的絕對值|Δf |的大小直接反應。 本文將ACE和|Δf |作為算法的獎勵函數,并且對ACE和|Δf |的量綱進行歸一化處理,獎勵函數式(16):

其中,| ACE(t)|是t時刻ACE的絕對值;|Δf(t)|是t時刻頻率偏差的絕對值;α1和α2是|ACE(t)|和|Δf |的權重,且α1=α2=0.5。

2.2 神經網絡結構

本文智能體模型的Critic 網絡和Actor 網絡的輸入是LSTM 網絡的輸出,相較于其他神經網絡,LSTM 神經網絡能夠更好的將歷史信息和目前的狀態信息結合起來,生成最優策略。 Actor 網絡設置3個全連接層,ReLU 激活函數層,Tanh 激活函數層,其結構示意圖如圖4 所示。 Actor 神經網絡的隱藏神經元分別是:128、64、1;Critic 網絡的輸入為環境狀態和動作的合集,也含3 個全連接層,ReLU 激活函數層,Tanh 激活函數層,最后輸出最優策略,3 個全連接層的神經元的個數分別是:64、32、1。

圖4 Actor 網絡結構示意圖Fig.4 Schematic diagram of Actor network structure

3 算例分析

為驗證本文所提的MATSAC-LSTM 算法的有效性和適用性,在一個修改的IEEE 標準兩區域負荷頻率控制系統模型上采用多智能體柔性行動器-批判器與長短時記憶網絡算法驗證LSTM 網絡和多智能體結合SAC 算法在AGC 中的控制效果,并通過遷移學習在一個五區域綜合能源系統模型上采用MATSAC-LSTM 算法進行仿真實驗。

模型中的一些參數的選擇將影響算法在自動發電控制中的應用效果。 這些參數按照以下原則選?。?/p>

(1)折扣因子:代表知識矩陣在更新過程中對過去獎勵值的折扣。 如果累計的獎勵值對實際問題的求解影響大,則折扣因子選擇較大的值。 對于自動發電控制而言,目前環境所得到的獎勵的瞬時值更為重要,所以折扣因子選擇較小的值。

(2)學習率:如果設置太小,則算法收斂緩慢,但容易找到全局最優解。 設置越大,算法的收斂速度越快,但可能導致算法無法收斂。 本文在引入遷移學習的方法后,算法已經具有較好的先驗知識,所以學習率選擇較小的值。

(3)經驗池長度:如果經驗池過大,則會導致無用的經驗加入到抽樣過程中;如果經驗池過小,則會導致算法不能通過經驗池的抽樣獲得最優解。 本文通過大量實驗,選取1 000 000。

(4)dropout: dropout 如果過大則會影響算法的擬合能力;如果過小,則會導致數據樣本不足而過擬合。 本文在自動發電過程中,會獲得大量樣本,所以dropout 選擇較小的值。

(5)批次大?。涸谝欢ǚ秶鷥?,批次越大,引起訓練震蕩越小,收斂精度越高。 但如果過大,則會增加訓練時間,且收斂精度也不會提高。 本文進行了大量的實驗,選取批次大小為512 最為有效。

通常,在不同環境下綜合能源系統的運行工況會實時變化,需要設置不同的最優參數才能尋求到不同環境下自動發電控制的最優解,但是這將耗費大量時間,本文根據參數選取的原則和大量的實驗仿真得到一組最優的參數見表1。

表1 模型參數Tab.1 Parameters of model

3.1 一個修改的IEEE 標準兩區域負荷頻率控制系統模型

本文在IEEE 標準兩區域負荷頻率控制系統模型基礎上融入電池儲能、風電、光伏。

3.1.1 智能體訓練

MASAC-LSTM 算法分為離線訓練和在線測試兩個階段。 離線訓練階段,智能體的學習步長為AGC 系統的控制周期,該標準算例中取4 s,不斷更新智能體的策略,使控制器的控制效果達到最優。最終對修改的IEEE 標準兩區域負荷頻率控制系統模型的第一個區域施加一個周期800 s,幅值1 000 MW,時間8000 s 的正弦負荷擾動。

各種算法智能體學習過程如圖5 所示。 與PID、Q、TD3、PDWoLF-PHC、SAC 算法相比,MASAC-LSTM 算法在1 200 s 后,已經能夠穩定地跟蹤負載擾動變化,能夠更準確的跟蹤負荷擾動,收斂速度最快。 由 于 MATSAC - LSTM 算 法 可 以 通 過LSTM 網絡將采集的區域控制誤差等環境狀態量進行時序特征提取,并作為MATSAC 算法的輸入,使得智能體能夠結合歷史信息做出更優的決策,因此使得獎勵值震蕩次數減少,具有更好的動態性能。

圖5 智能體學習過程Fig.5 The learning process of agents

3.1.2 階躍擾動

為了評估MASAC-LSTM 算法的可靠性和魯棒性,引入振幅為1 000 MW 階躍擾動。 基于Q、PID、TD3、PDWoLF-PHC、SAC、MASAC-LSTM 算法的在線測試結果如圖6 所示。 可以看出,MASAC-LSTM算法在兩個區域的ACE和Δf的峰值明顯小于其他3 種算法,說明MASAC-LSTM 算法有效地減小了ACE的偏差,在220 s 內MASAC-LSTM 算法可以使各區域達到穩定。 區域聯絡線功率偏差ACE可以直接看出區域之間數據的共享程度以及多個區域之間協同控制的配合程度,MASAC-LSTM 算法采用了多智能體集中訓練分散執行框架,使智能體之間信息共享,有效實現多個區0 域之間的最優協同控制。

圖6 階躍擾動曲線Fig.6 Curve of step perturbation

3.1.3 方波擾動

引入考核周期為1 500 s,幅值在800 MW 以內的方波負荷擾動,5 種算法的控制性能見表2。 可以看出,MASAC-LSTM 的|Δf |的平均值降低0.002 2~0.004 Hz,|ACE |的平均值降低2.391~11.869 MW,CPS1 的平均值增加0.841%~2.311%。

表2 不同算法的控制性能Tab.2 Control performance of different algorithms

3.2 一個五區域綜合能源系統模型

隨著電網新能源占比提高,為了考慮大量分布能源并入電網造成的影響,本文構建五區域綜合能源模型。 此模型在一個IEEE 標準兩區域負荷頻率控制系統模型上加入了電池儲能、風電、光伏、熱電聯產、柴油發電、核能水電等機組,每個區域設置獨立的智能體,實現多智能體協同控制。

因為MASAC-LSTM 算法需要智能體與環境長時間進行交互,收集數據從而獲得最佳策略,本文對修改的IEEE 標準兩區域負荷頻率控制系統模型的智能體向五區域綜合能源系統模型的智能體傳遞參數,從而縮短智能體的訓練時間。

第一組實驗采用MASAC-LSTM 算法在構建的五區域綜合能源系統模型上訓練320 輪;第二組實驗采用遷移學習的方法,將修改的IEEE 標準兩區域負荷頻率控制系統模型的Critic 網絡和Actor 網絡的第一層全連接層參數轉移到五區域綜合能源系統模型參數中;第三組實驗將修改的IEEE 標準兩區域負荷頻率控制系統模型的訓練模型Critic 網絡和Actor 網絡的第一層和第二層全連接層轉移到五區域綜合能源系統模型參數中;第二組實驗和第三組實驗的Critic 網絡和Actor 網絡的輸出層都被重置,且將回放緩沖區清空,訓練320 輪。

遷移學習訓練曲線如圖7 所示。 由圖7 可見,第一組實驗的起始獎勵為-26.7,第二組實驗為-23.2,第三組實驗為-21.2,說明MATSAC-LSTM 算法使智能體能更好地收集經驗;在100 輪時,第三組實驗獎勵已經達到-13,而第一組實驗的獎勵還在緩慢上升,MATSAC-LSTM 算法通過遷移學習可以使獎勵增長率變大;第一組實驗最后獎勵穩定在-12.4,第二組實驗為-9.1,第三組實驗為-7.9,說明通過遷移學習MATSAC-LSTM 算法在求解質量方面得到提高。 實驗結果說明通過遷移學習將舊任務訓練的Critic 和Actor 網絡模型參數轉移到新任務相應模型參數中,可以減少整個算法的訓練時間,而對于轉移模型參數的選擇,在重置輸入層和輸出層的基礎上,轉移的神經網絡參數越多,訓練的收斂速度越快,且尋優結果也更好。

考慮到綜合能源系統的隨機性和間歇性,在五區域綜合能源系統中引入幅值為1 000 MW,持續時間為10 000 s 的隨機擾動,擾動曲線如圖8 所示。

圖8 隨機擾動曲線Fig.8 The curves of random disturbance

PID、Q、TD3、PDWoLF-PHC、SAC、MASAC-LSTM、MATSAC-LSTM 7 種算法在隨機擾動下的控制性能如圖9 所示。 相較于其他算法,本文所提算法的|Δf |、|ACE |、穩態誤差、超調量有所降低,CPS1 有所提高。

圖9 隨機擾動下算法的控制性能Fig.9 Control performance of algorithms under random perturbance

4 結束語

本文提出了一種基于MATSAC-LSTM 的綜合能源系統自動發電控制算法。 一個修改的IEEE 標準兩區域負荷頻率控制系統模型和一個五區域綜合能源系統模型的仿真結果表明,與傳統PID、Q、TD3、SAC 算法相比, 本文算法在CPS1,| ACE |,|Δf |,穩態誤差,超調量等控制性能指標均表現較優。 此外,有以下幾點發現:

(1)本文用LSTM 網絡將采集的區域控制誤差等環境狀態量進行時序特征提取,并作為MATSAC算法的輸入,使智能體能結合歷史信息進行快速的有功功率分配決策;

(2)本文采用集中訓練分散執行框架,將一個智能體和環境的交互信息,以及其他智能體的動作信息作為相應智能體Critic 網絡的輸入,實現了多智能體之間的信息共享;

(3)通過遷移學習將舊任務訓練的Critic 和Actor 網絡模型參數轉移到新任務相應模型參數中,可以提高智能體的訓練效率。

猜你喜歡
能源頻率智能
振動與頻率
第六章意外的收獲
用完就沒有的能源
————不可再生能源
智能前沿
智能前沿
智能前沿
智能前沿
福能源 緩慢直銷路
極限頻率
導航頻率源的同步與控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合