齊韻英, 許瀟, 殷科, 馬超, 劉友波
(1.四川大學電氣工程學院, 成都市 610065;2.國網四川綜合能源服務有限公司, 成都市 610072)
能源結構向低碳方向轉型的需求[1-2],以及電力電子和可再生能源發電技術的進步,推動了可再生能源的利用。分布式發電(distributed generation,DG)通過逆變器等電力電子設備接入配電網,系統由單向無源網絡向雙向有源網絡過渡[3-4],導致了額外的電壓偏移。風機和光伏出力的不確定性和波動性,給配電網的可靠、優化以及安全運行等方面帶來了挑戰[5-7]。其中,DG滲透率的提高導致的電壓越限問題備受關注。
以往的電壓調控方法,如內點法[8-9]、混合整數線性規劃[10]、混合整數二階錐規劃[11-12]以及元啟發式優化算法[13-14]等,盡管這些基于模型的策略在電壓優化等方面是有效的,但其依賴于網絡的拓撲結構和參數等信息,要求全局信息的掌握,不能保證模型的準確性,因此優化的效果有限??稍偕茉窗l電和負荷等的多種不確定性也是傳統優化方法面臨的挑戰,為此提出了模型預測控制(model predictive control,MPC)[15]、魯棒優化(robust optimization,RO)[16-17]等不確定優化方法,但基于MPC和RO的策略同樣依賴準確的網絡參數和拓撲信息,在處理不確定時由于信息采集不全需要引入諸多主觀假定參數,變量維度容易爆炸,且MPC和RO通過尋找預先確定的解決方案來處理負荷和DG的不確定性,但DG在短時間內波動較大,使其需要更頻繁地操作可控設備,并重新計算最優解[18]。
人工智能的發展為解決上述問題提供了解決方法,深度強化學習[19](deep reinforcement learning,DRL)提供了無模型的框架來解決配電網電壓調控問題,可以彌補傳統優化方法依賴物理模型和全局信息的缺陷,此外在應對多種不確定性的環境時,無需擴展決策變量維度,性能優于傳統的隨機優化方法。DRL依據學習到的歷史經驗在線調整系統的運行狀態,具有能夠兼容多種復雜模型的優點,目前已被廣泛用于電力系統中的控制問題,例如電壓控制、自適應緊急控制等。文獻[20]基于深度Q網絡(deep Q-network,DQN)算法提出了一種兩級電壓控制框架,通過調度離散的電容組獲得無功支持。文獻[21]通過協調DG上的電容器、電壓調節器等設備,基于多智能體DQN框架實現了不平衡配電網絡的電壓無功優化。但DQN算法只適用于離散的動作區間,在連續動作空間問題上容易陷入維數災難。深度確定性策略梯度(deep deterministic policy gradient,DDPG)是DeepMind團隊提出的專門應對復雜的高維連續動作空間問題的DRL算法,DDPG算法使用策略網絡輸出確定性動作,在大規模電網控制方面具有明顯的優勢[22-23]。
在傳統的電壓調度控制中,多依托于有載調壓變壓器、電容器組等調壓設備解決電壓越限問題,這在過去對于沿饋線電壓分布單調遞減且電壓變化緩慢的傳統集中式電源是有效的。然而配電網層面上聚合了大量的分布式可再生能源發電,逆潮流與DG的不確定性增加了電壓越限的風險。傳統調壓設備由于機械特性和壽命問題,只能在很長的時間尺度內調度,缺乏快速響應的能力,無法準確調節具有高滲透率DG配電網的電壓[24]。靜止無功補償裝置(static var compensator,SVC)作為一種電力電子設備,能在短時間內提供連續的無功功率支持,可以用于含高滲透率DG配電網的電壓偏差抑制。但配電網電阻和電抗的比值較大,有功功率的注入對節點電壓的影響與無功功率相當,因此單一的無功功率補償手段可能無法較好地提高配電網絡的電壓質量。
為此,針對含高比例DG有源配電網的電壓越限問題,提出一種基于DDPG的電壓調控策略,將電壓調控問題建模為馬爾可夫決策過程(Markov decision-making processes,MDP),通過將復雜的物理模型轉換為數據樣本以學習電壓波動抑制的規律,利用策略網絡輸出連續確定性動作,僅在當前的狀態下尋找最優策略,而無需建立模型和全局信息。由于單一的SVC無功支持可能無法滿足電壓質量的要求,引入電池儲能系統(battery energy storage system,BESS)。BESS具有響應速度快和高效充放電的優點[25-26],且具備靈活的四象限運行能力,可以同時提供有功和無功支撐。利用BESS和SVC進行配電網的有功無功聯合調控,能夠有效改善配網末端或波動較大的局部電壓運行品質??紤]到儲能成本高昂、電池循環次數有限,無規律的充放電動作會加速儲能容量的衰減,將儲能壽命損耗和容量衰減納入優化,并考慮了儲能的動態運行效率。實現在提高配電網的電壓質量、改善電壓波動的同時兼顧儲能電池的低衰減長循環,提升應用儲能的經濟性。
本文考慮的配電網架構由風機、光伏、儲能、SVC以及負荷構成,旨在利用電池儲能元件和SVC實現電壓波動的抑制,并考慮儲能的動態運行效率和儲能的容量衰減特性,因此對儲能的動態運行特性機理進行了研究,并給出了系統的各項約束。
1.1.1 儲能動態效率
BESS的荷電狀態(state of charge,SOC)和輸出功率的關系可近似為:
(1)
式中:SOC,t為儲能電池t時刻的荷電狀態;EB表示儲能電池的額定容量;Pbess,t表示儲能電池t時刻的有功輸出功率,Pbess,t>0表示充電,反之表示放電;ηch表示充電效率;ηdis表示放電效率;Δt為時間間隔。
儲能的效率在電力系統優化建模中通常被假設為恒定常數,實際上電池的效率在運行過程中隨電池SOC和輸出功率而變化,具有非線性關系[27]。
在儲能參與系統的優化調度過程中,為了簡化方程,可以用二次多項式擬合儲能電池單元充放電效率和SOC、Pbess的關系[28],其中f0—f5、g0—g5均為系數:
(2)
(3)
式中:SOC為儲能電池的荷電狀態;Pbess為儲能電池的有功輸出功率。
1.1.2 儲能容量衰減和壽命損耗模型
儲能電池在運行過程中會伴隨著內部溶液濃度下降、溶質氧化等現象,引起電池內阻增加,導致容量的衰減。一般認為儲能電池容量衰減至額定容量的80%或內阻增加到原來的兩倍時,電池進入退役期,投入梯級利用或進行回收。電池健康狀態(state of health, SOH)可用于描述儲能電池容量保持程度,定義為可用容量和額定容量的比值:
(4)
式中:SOH指儲能電池的健康狀態;Esu表示儲能電池的可用容量。
BESS電池從滿SOC放電到特定SOC,再從特定SOC充電到滿SOC循環的總次數稱為儲能的生命周期。BESS的生命周期與電池的放電深度(depth of discharge, DOD)有關[29]:
(5)
DOD=1-SOC
(6)
式中:DOD表示電池的放電深度;Nlife(·)為擬合函數;h0—h4均為系數。
儲能的壽命損耗可以定義為關于電池SOC的函數,儲能電池的容量衰減可定義為與壽命損耗相關的函數,其關系式如下:
(7)
Lloss,t=|F(SOC,t)-F(SOC,t-1)|
(8)
(9)
SOH=G(LTloss)=b1e-b2LTloss+b3e-b4LTloss
(10)
式中:F(·)為儲能電池的壽命損耗與荷電狀態關系的原始函數;Lloss,t表示儲能電池在時刻t的壽命損耗;LTloss指初始時刻t0到當前時刻t的總壽命損耗;G(·)為儲能電池健康狀態與壽命損耗的擬合函數,如式(10)所示;b1~b4為擬合系數。
為簡便起見,將儲能的壽命近似劃分為J個階段,對SOH和壽命損耗的擬合關系進行分段線性化[30],可得:
SOH,t-SOH,t-1=?jLloss,t,j=1,2,3,…,J
(11)
(12)
式中:SOH,j0表示第j個階段的初始SOH;?j為第j個階段的容量衰減系數;LTloss,j表示j階段儲能電池的總壽命損耗。
1.1.3 儲能變流器
儲能變流器(power conversion system,PCS)是BESS除電池單元外另一重要組成部分,具備有功功率和無功功率雙向調節功能。PCS可通過充放電從電網吸納或提供有功能量,還可輸出連續可調的感性無功或容性無功。
PCS可以將系統的有功和無功輸出解耦,外環控制器檢測電網的有功和無功需求,內環控制器控制有功或無功的輸出,依據電網的實際運行需求在四個象限或坐標軸上運行,如圖1所示。
圖1 BESS有功和無功輸出范圍
儲能的輸出功率受電池SOC與額定視在功率的限制:
(13)
(14)
式中:SOC,max、SOC,min分別表示電池荷電狀態的上下限;Pbess,max表示BESS輸出有功功率上限;Qbess表示BESS輸出的無功功率;Sbess表示BESS視在功率;SBESS表示BESS額定視在功率。
系統的約束主要包括設備約束、安全電壓約束、潮流約束以及功率平衡約束。
1.2.1 SVC出力約束
SVC是一種基于晶閘管開關的無功補償設備,SVC可以為系統提供連續的無功支持,將電壓維持在適當的水平。BESS和SVC的有功無功聯合調控,能夠有效解決電壓越限問題,且減少BESS的充放電次數。SVC的運行受其最大輸出功率Qsvc,max的限制:
-Qsvc,max≤Qsvc,t≤Qsvc,max
(15)
式中:Qsvc,max為SVC最大輸出功率;Qsvc,t為SVC的t時刻輸出功率。
1.2.2 安全電壓約束
(16)
式中:Vi,t為t時刻節點i的電壓值;Vr為額定電壓值;Vi,max、Vi,min分別指節點i的電壓上下限,本文設定的電壓安全范圍為1±5%。
1.2.3 潮流約束
Pi=Vi∑j∈iVj(Gijcosθij+Bijsinθij)
(17)
Qi=Vi∑j∈iVj(Gijsinθij-Bijcosθij)
(18)
式中:Pi、Qi分別為節點i的有功功率與無功功率;Vi、Vj分別為節點i和與其相連的節點j的電壓;Gij、Bij分別為節點i和節點j之間的導納和電納;θij為節點i和j之間的相角差。
1.2.4 功率平衡約束
(19)
式中:Pload,i,t、Qload,i,t分別表示節點i處的有功和無功負荷;PWT,i,t、PPV,i,t分別表示節點i處的分布式風電、光伏輸出功率;Pbess,i,t、Qbess,i,t分別表示節點i處的儲能有功和無功出力;Pline,t表示從上級電網獲得的功率;Qsvc,i,t表示SVC的無功出力;i∈Ω,Ω表示節點集合。
復雜的潮流模型以及儲能的動態運行模型等使得所提出的電壓調控策略的非線性和非凸性增強,傳統基于模型的方法很難實現理想的優化效果,未來的不確定性使決策帶來的效果更加難以預測。MDP是對于此類問題的一種建模方法,馬爾可夫過程認為從一個狀態到下一個狀態的轉換僅取決于當前狀態和選擇的動作,可以在不確定性環境中執行決策。因此基于DRL的框架,將配電網的電壓調控問題建模為馬爾可夫決策過程,其中考慮了系統的各項約束。
MDP包含狀態空間S、動作空間A、獎勵函數R、狀態轉移概率P和折扣因子γ五個基本要素。馬爾可夫決策過程中,t+1時刻的動作和狀態信息僅與時刻t有關:
P(s′;s,a)=P{st=s′∣st-1=s,at-1=a}s,s′∈S,a∈A
(20)
式中:P(s′;s,a)表示在當前狀態s下執行動作a后,轉移到下一狀態s′的概率;st、st-1分別為t和t-1時刻的狀態;at-1表示t-1時刻的動作。
MDP具體建模如下:
1)狀態空間S:狀態空間給出了智能體的環境感知內容。本文中狀態信息st包含風力發電輸出功率PWT,t、光伏輸出功率PPV,t、負荷Pload,t、上級電網傳輸功率Pline,t-1以及儲能的荷電狀態SOC,t-1、電池健康狀態SOH,t-1、總壽命損耗LTloss,t-1。其中PWT,t、PPV,t、Pload,t屬于輸入信息,其他屬于輸出信息,受本身約束和決策的控制生成。
st={PWT,t,PPV,t,Pload,t,Pline,t-1,SOC,t-1,SOH,t-1,LTloss,t-1}
(21)
2)動作空間A:智能體根據學習到的控制策略采取動作at,智能體控制儲能的變流器和SVC的出力點,通過選擇最優的策略p,向獲得更高獎勵的方向更新。
at={Pbess,t,Qbess,t,Qsvc,t}
(22)
3)狀態轉移:狀態st到狀態st+1的狀態轉移可以定義為:
st+1=f(st,at,ωt)
(23)
式中:ωt表示在狀態轉移過程中的隨機擾動或噪聲。
式(23)表明狀態轉移不僅由當前狀態st和動作at決定,由于下一個狀態中負荷需求、風電和光伏出力未知,還受隨機性的影響。受負荷、天氣變化等因素的影響,還難以建立準確的隨機分布模型。因此本文利用DRL算法從不需要隨機性統計模型的系統數據樣本中學習狀態的轉換。
4)獎勵函數R:即時獎勵rt在時刻t后立即返回,智能體執行動作時獲得基于狀態信息st的at。
在DRL環境中,獎勵函數通常是策略的目標的拓展,所提出的電壓調控策略通過調控儲能和SVC減小系統電壓偏差,實現系統的削峰填谷,并考慮儲能的電池容量衰減成本,定義如下指標:
FTloss,t=λ1(1-SOH,t)
(24)
(25)
式中:FTloss,t表示儲能的衰減成本;λ1為儲能壽命損耗成本參數;考慮平緩系統的凈負荷曲線,降低與上級電網傳輸功率的波動,將傳輸功率波動作為評價削峰填谷的指標Fline,t;Pline,t、Pline,t-1分別為t和t-1時刻的上級電網傳輸功率;ΔPline,t表示當前時刻的上級電網傳輸功率與上一時刻的差值,即傳輸功率波動;λ2為懲罰參數。λ1和λ2數值的選擇應遵循將FTloss,t和Fline,t維持在同一數量級的原則。
引入懲罰函數來處理約束,并納入獎勵函數中進行優化,BESS的約束按如下的懲罰函數處理:
(26)
(27)
此外,考慮到最小化系統電壓偏差,設置如下的懲罰函數:
(28)
(29)
式(26)—(28)為懲罰項,意在利用負的獎勵值限制系統運行在約束范圍內。懲罰參數通常為負的很大的值并與模型緊密聯系,當BESS在給定約束范圍內時,懲罰項置零,而考慮到電壓偏差的最小化,電壓在安全運行范圍內時,懲罰項值較小。因此即時獎勵rt可以由如下的表達式給出:
(30)
DRL智能體執行動作并獲得獎勵,通過探索行動空間,學習最優策略最大化累積獎勵:
(31)
式中:R(st,t)表示在當前狀態下智能體獲得的獎勵;γ∈[0,1],表示貼現系數,反映了即時獎勵和未來獎勵的相對重要性。策略π是從狀態st到基于該狀態的采取動作at間的映射,這決定了智能體的行為。當前狀態st下的動作可以通過狀態-動作價值函數Qπ(s,a)評估:
Qπ(s,a)=Eπ[Rt∣s=st,a=at]
(32)
式中:Eπ[·]表示在策略π下的期望值操作,計算根據策略π執行動作所得到的回報Rt的期望值。
從MDP的角度來看,配電網電壓調控的目標為尋找最優策略π*以最大化式(32)中的價值函數:
(33)
以上將電壓調控策略轉化成MDP問題,可以看出,DRL的學習過程基于試錯和反饋機制,通過在不同狀態下嘗試不同的動作并觀察獲得獎勵值,并使它向獎勵值更大的方向逼近,可以靈活地應對不同的環境。
本文中DRL的決策框架如圖2所示,智能體通過與環境的交互獲取經驗,并找出最優的策略。
圖2 DRL決策框架
由于電力系統中負荷和新能源發電存在不確定性,通過傳統的優化方法難以確定最優策略π*。DDPG智能體可以從過去的高維歷史數據中學習最優策略,在非線性和多約束問題上具有很大的優勢,因此采用DDPG算法解決所提出具有連續動作空間的MDP問題。DDPG基于貝爾曼最優方程更新行為值函數:
Qμ(st,at)=Ert,st+1~E[r(st,at)+γQμ(st+1,μ(st+1))]
(34)
式中:Qμ(st,at)表示在狀態st下采取動作at的行為值函數;μ為當前策略函數,表示根據狀態選擇動作的策略;Ert,st+1~E[·]表示對即時回報rt和下一個狀態st+1進行期望值操作,其中rt和st+1根據環境的動態特性隨機生成。
DDPG基于Actor-Critic架構,使用兩種典型的深度神經網絡逼近Actor函數(θμ)和Critic函數(θQ),并分別擁有目標網絡即目標策略網絡θμ′和目標價值網絡θQ′。
價值網絡用于評估策略,輸入包括狀態st和動作at,輸出為Q值,表示在當前狀態下動作的價值,即在當前的負荷、DG出力以及儲能的容量和荷電狀態下,BESS和SVC的功率輸出對配電網電壓波動的抑制效果。價值網絡向最小化損失函數式(35)的方向迭代更新參數θQ。
(35)
yt=rt+Q′[st+1,μ′(st+1|θμ′)|θQ′]
(36)
式中:L表示損失函數的值;N表示樣本數量;θQ為價值網絡的參數;yt為目標Q值,表示在狀態st下采取動作at的期望累計獎勵;Q′表示目標價值網絡,θQ′為其參數;μ′表示目標策略,θμ′為其參數。
策略網絡以狀態st作為輸入,輸出動作at,即BESS和SVC在當前狀態下的最佳出力點。策略網絡輸出層包含tanh激活函數,所有輸出向量值的范圍為(-1,1)。策略網絡參數θμ的更新遵循確定性策略:
(37)
在算法中,通過在確定性策略中添加隨機噪聲Nt,以提高DDPG智能體在與配電網環境交互時的探索能力:
(38)
在改進的配電網IEEE 33系統中,對基于DDPG的電壓調控策略性能進行了測試。在標準IEEE 33系統的不同節點設置風電、光伏以及儲能,以應用在所提場景中。其中風機節點{17,32},光伏節點{8,21},儲能節點{18,25,33},具體算例系統見圖3。
圖3 改進的IEEE 33節點系統
選取一年的風光荷的數據[31]作為訓練集和測試集。儲能裝置的主要參數詳見附錄表A1,儲能運行效率模型系數見附錄表A2,生命周期Nlife與放電深度DOD擬合函數的系數見附錄表A3;容量衰減模型系數[30]見附錄表A4。本文獎勵函數中的參數根據同一數量級以及不能違背約束的原則選取,并在多次仿真訓練中對其進行了調整,具體數值見附錄表A5。
3.2.1 智能體訓練過程
將基于DDPG的電壓調控模型的訓練性能與基于SAC(soft actor-critic)的電壓調控模型的訓練性能進行了比較,以驗證所提算法的有效性。DDPG算法仿真的超參數設置見附錄表A6,智能體共進行了500次訓練以學習最佳的電壓調控策略,訓練過程的獎勵回報如圖4所示,每次訓練包含24個時隙,間隔為1 h。訓練過程開始階段,由于智能體沒有獲取在電壓調控方面的經驗,以較低的獎勵值開始探索,通過不斷地從歷史經驗中學習知識最大化獎勵回報,最終收斂在一定水平。由對比結果可知,在本文所提出的考慮儲能動態運行特性的電壓調控場景中,DDPG表現出了更好的性能,具有更快的收斂速度和更高的獎勵回報。
圖4 訓練過程的獎勵曲線
3.2.2 電壓調控模型的性能
含DG的配電網中,由于DG出力不穩定,且變化趨勢一般與負荷曲線不匹配,因此配電網饋線末端和接入DG的位置存在電壓越限的風險。本文通過調控BESS和SVC的出力,使各節點電壓在安全范圍內運行,減小電壓的偏差。通過測試日評估智能體的訓練效果,并隨機選擇了連續兩天進行測試。測試日中風光荷的功率曲線如圖5所示,仿真過程假設有功負荷和無功負荷曲線變化趨勢保持一致。
圖5 風光荷標幺功率
不同方法下測試日的電壓調控效果如表1所示,比較的方法包括所提出的DDPG算法和SAC算法。定義平均電壓偏差指標,對電壓的調控效果進行分析,圖6給出了測試日中每個節點處電壓的極值曲線。
表1 測試日電壓調控效果
圖6 電壓極值曲線
(39)
式中:ρ為電壓平均偏差指標;Nnode和NT分別表示節點數量和時間步的數量。
由表1可知,通過DDPG算法和SAC算法進行電壓調控后,平均電壓偏差較無調控時分別降低了80.81%和32.11%,表1同時給出了測試日中節點電壓的最高和最低值。圖6表明在DDPG算法的調控下,電壓整體水平更接近額定電壓,電壓偏差較無調控時明顯降低。因此所提出的基于DDPG算法的電壓調控策略,能夠找到更優的BESS有功/無功和SVC的無功出力點,整體提升電壓水平,減小電壓的波動。
DDPG智能體通過獎勵反饋值和環境的交互,尋找BESS和SVC最佳動作策略,以最小化電壓偏差。儲能的有功充放電功率和無功出力分別如圖7、圖8所示。
圖8 BESS無功功率
由圖7可看出,由于BESS1所處饋線同時設置了風機和光伏,DG的有功注入較為穩定,BESS1的SOC值波動最小,在夜間(21:00—24:00)其他儲能處于放電狀態時,BESS1進行充電。在測試日內,BESS1、BESS2和BESS3根據所處節點位置的功率需求在四象限內運行,為系統提供有功和無功支撐,初始SOC皆為0.5,SOC曲線表明儲能SOC值均處于0.1~0.9的范圍內,所設計的懲罰項能夠很好地約束BESS的運行。
SVC時序無功出力如圖9所示,可以看出SVC出力較為穩定,在多數時間內以輸出最大無功功率0.8 Mvar運行,來滿足系統的無功需求,能夠較好地均衡系統中無功的分布。但由于SVC無功補償量與電壓平方成正比,因此電壓波動時進行的無功補償無法達到較高的電壓質量。
圖9 SVC無功功率
由圖5給出的風電出力曲線可知,在13:00—16:00風機的出力開始增大,系統無功需求降低,因此BESS2發生無功倒吸現象,此時SVC的無功出力在一定程度上降低,在某些時刻也出現了無功倒吸現象,可見儲能輸出有功和無功功率與SVC相互配合,抑制系統內的電壓波動。BESS1所處饋線有功功率注入量大,為緩解帶來的過壓風險,系統需要更多的無功支持,因此BESS1輸出無功功率較高,而BESS3所處饋線無DG裝置,因此其無功出力變化趨勢與負荷變化趨勢大致相同。
3.2.3 不確定性場景影響
為了驗證所提出方法在應對系統負荷和DG出力的不確定性方面的效果,對某一天的負荷曲線和DG出力加上15%的正態分布偏差進行處理,并將DDPG算法得到的優化結果與粒子群算法(particle swarm optimization,PSO)進行對比,結果如表2所示。
由表2的結果可以看出,基于粒子群算法的日前調度策略,難以應對DG和負荷的不確定性。而DDPG算法可以在線跟蹤負荷和DG出力的變化,及時調整動作策略,應對不確定性場景時性能較粒子群提升69.33%,有效抑制節點電壓的波動,確保配電網的穩定運行。
3.2.4 儲能容量衰減影響
本文提出的電壓調控策略旨在實現配電網的短期優化,因此將儲能的總衰減成本折算在運行時期的每一天中。為了比較說明儲能的容量衰減對其工作性能的影響,考慮了儲能新投運時期和儲能衰減后時期兩種場景,并分析了僅BESS工作、BESS和SVC同時工作兩種情況下電壓曲線的變化情況。場景1中考慮系統內接入的儲能全部處于新投運時期,電池健康狀態為0.99,場景2中考慮兩個儲能已投運一段時期容量衰減至電池健康狀態為0.91,如表3所示。
表3 儲能初始電池健康狀態
利用訓練后的DDPG智能體進行了測試,兩種場景下的電壓如圖10所示。由1.1節對儲能壽命損耗和容量衰減的分析可知,儲能投入運行后,電池的充放電動作同時伴隨著損耗,且儲能后期衰減的速度更快,充放電效率有一定程度的降低。由圖10(a)可以看出儲能衰減后期的工作性能較新投運時期差,以平均電壓偏差為評價指標,抑制電壓波動性能下降了51.05%。BESS和SVC同時工作情況下電壓如圖10(b)所示,可以看出系統從SVC處獲取了額外的無功支持后,場景2下的電壓偏差有明顯的降低,說明本文所提出的有功無功聯合調控策略在儲能壽命的動態變化過程中,電壓調控性能仍處于較佳水平。
圖10 兩種場景下的電壓變化
針對含高滲透率DG配電網易發生電壓越限的問題,提出了基于DRL的電壓調控策略,通過對分布式儲能和SVC進行有功無功聯合控制減小系統節點電壓偏差,并考慮了儲能的壽命損耗和容量衰減模型,在兼顧儲能容量衰減成本的同時實現了非全信息下電壓波動的有效抑制。主要結論如下:
1) 本文將電壓調控問題推導為馬爾可夫決策過程,采用聯合調控儲能和SVC的策略,有效緩解了多重不確定性引起的電壓波動。
2) 基于DDPG算法實現了電壓調控的在線決策。相較于傳統粒子群方法,基于人工智能的策略在應對負荷和可再生能源發電的不確定性場景時,處理電壓越限問題的性能提升69.33%,具有更好的實時性和適應性。
3) 通過考慮儲能的動態運行特征和容量衰減,較為準確地模擬了儲能的運行。算例驗證表明,儲能衰減后期的工作性能較新投運時期有所下降,但所提出的有功無功聯合調控策略,在儲能壽命的動態變化過程中仍能保持良好的電壓調控性能。
本文所提的電壓控制策略僅實現了電壓波動的小時級控制,將其擴展到更短時間尺度的電壓控制是未來的研究工作之一。另外,基于DRL的電壓控制方法將約束轉化為了懲罰項,通過約束策略優化算法進一步地優化是本文后續的研究方向。