?

基于深度確定性策略梯度的主動配電網有功-無功協調優化調度

2023-11-01 01:54孫國強殷巖巖衛志農臧海祥楚云飛
電力建設 2023年11期
關鍵詞:離線調度狀態

孫國強,殷巖巖,衛志農,臧海祥,楚云飛

(河海大學能源與電氣學院,南京市 211100)

0 引 言

隨著分布式電源(distributed generation, DG)在配電層面的廣泛接入,配電系統正從無源網絡演變為有源配電網絡,即主動配電網(active distribution network, ADN)。同時,光伏發電(photovoltaic, PV)、風電(wind turbines, WT)的隨機性和波動性增加了ADN的不確定性,導致電壓、潮流越限等問題變得更加嚴重[1-2]。

目前,為了實現ADN的協調優化控制,國內外學者已經提出諸多基于模型的優化方法。例如,文獻[3]構建了ADN的混合整數非線性規劃模型和等效混合整數二次約束模型,用于配電網中的電壓管理。文獻[4]將非線性潮流約束進行二階錐松弛,從而將配電網經濟運行優化模型轉化為混合整數二階錐規劃問題,提高了求解精度。進一步,考慮到DG不確定性因素對配電網運行的影響,文獻[5]中構建了基于隨機規劃的多階段調度模型,驗證了該模型能在隨機狀態下自適應調整儲能裝置、換流站及需求響應決策。然而,隨機規劃需獲取不確定變量的概率分布參數[6],并采用大量場景刻畫不確定信息,導致準確性和求解效率偏低[7-8]。為了消除ADN優化配置模型中DG相關的不確定性變量,文獻[9]構建了魯棒優化框架,并采用漸緊線切割算法和列和約束生成算法相結合的方法對轉化模型求解,縮小了凸松弛間隙,提高了模型求解效率。文獻[10]計及新能源的預測誤差,基于離散不確定性域改進了現有魯棒優化方法,從而獲得了更廣泛的“惡劣場景集”。上述魯棒優化方法無需獲取不確定性量的概率分布,而是通過不確定性集來描述DG出力的不確定性,形式簡潔。但由于其在不確定性集的最惡劣實現情況下做出決策,因此可能導致優化結果過于保守[11-13]。

基于模型的方法在ADN協調優化控制方面取得了廣泛的成效。然而,此方法依賴于完整且明確的配電網物理模型,需要獲取詳細的網絡拓撲、線路參數、負荷功率等信息[14-15]。然而這些信息在現實獲得過程中經常有所缺失、準確性低。如果參數和物理模型不準確,將會導致不經濟甚至不切實際的調度決策[16]。此外,基于模型的方法計算復雜度高、存在維度災等問題,這使得模型計算十分耗時,難以實現在ADN中進行實時優化控制[17]。

近年來,深度強化學習(deep reinforcement learning, DRL)以其在線響應快、無需對DG的隨機性分布建模的獨特優勢[18-19],在電力系統領域獲得了廣泛關注。文獻[20]將能量儲存系統(energy storage systems, ESS)考慮到配電網的電壓控制中,并采用Q深度神經網絡來逼近ESS的最佳動作價值。文獻[21]提出了一種基于深度Q網絡的有功安全校正策略,在消除線路過載和調節機組出力上具有良好的效果,但需要對連續動作空間離散化,可能會帶來維度災難問題[22]。為了使DRL智能體學習連續狀態和動作空間之間的映射關系,文獻[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法應用到綜合能源經濟調度中。針對電壓控制問題,文獻[24]基于多智能體的DDPG算法協調優化光伏逆變器的無功功率輸出,但未考慮無功-電壓控制設備,如可投切電容器組(switchable capacitor banks, SCB)、有載調壓變壓器(on-load tap-changers, OLTC)等。針對配電系統優化控制問題,上述文獻側重于關注單一有功或無功資源控制,這在保證配電系統供電安全和降低運行成本方面存在一定局限性。此外,傳統DDPG方法中的經驗回放機制忽略了不同經驗的重要程度,可能存在訓練效率低、過度學習等問題[25]。另一方面,優先經驗回放(priority experience replay, PER)機制在機器人控制和游戲任務中的應用取得了巨大成功,提高了學習效率和策略穩定性[26]。

基于此,本文將PER機制結合到DDPG方法中,構建了一種基于PER-DDPG的ADN在線調度框架。首先,以ADN日運行成本最小為目標,在計及節點電壓偏移和潮流越限約束的基礎上,協調SCB、OLTC、微型燃氣輪機(micro-gas turbines, MT)和ESS等有功/無功資源,構建了ADN有功-無功協調調度模型。其次,將此模型轉化為馬爾科夫決策過程(Markov decision process, MDP),并基于PER-DDPG框架進行離線訓練及在線測試。仿真結果表明,相較于傳統的DDPG方法,本文所提出的基于優先經驗重放的DPPG方法可以實現對連續動作空間的精確控制,并通過高效的經驗學習以獲得安全、經濟的動作策略。本文研究有望為基于深度確定性策略梯度的有功-無功協調優化調度提供技術參考。

1 ADN有功-無功協調調度強化學習建模

本節首先構建了基于ADN的有功-無功協調調度數學模型。在計及潮流約束和配電網安全約束的基礎上,該模型旨在以ADN日運行成本最小為目標,在不同時段協調各有功/無功資源的出力。然后,本節將此數學模型轉化成基于MDP的調度模型,以充分利用DRL自適應源荷不確定性的優勢進行求解。

1.1 基于ADN的有功-無功協調調度數學模型

1.1.1 目標函數

本文的目標函數包括變電站的能源交易成本和MT的燃料成本:

(1)

1.1.2 約束條件

1.1.2.1 潮流約束

(2)

(3)

(4)

1.1.2.2 配電網安全約束

(5)

1.1.2.3 可控設備運行約束

1)SCB運行約束:

(6)

2)OLTC運行約束:

(7)

3)MT運行約束:

(8)

4)ESS運行約束:

(9)

1.2 基于MDP的調度模型

本節將ADN有功-無功協調優化調度問題建模為MDP。MDP通常由學習環境E、狀態空間S、動作空間A和獎勵空間R組成。在每個時段t,DRL智能體通過觀察ADN當前的狀態st∈S,執行動作at∈A,并從環境E中獲得獎勵值rt∈R,然后ADN的當前狀態st將根據狀態轉移概率函數p(st+1|st,at)轉換到下一狀態st+1。直至t達到總調度時段T時,此過程終止。t時段MDP的詳細制定描述如下。

1.2.1 狀態空間

(10)

狀態空間包括當前時段、ESS的荷電狀態、過去T個時段內的電價、過去T個時段內PV、WT的有功功率和過去T個時段內負荷的有功無功功率;狀態空間中的各個變量都是連續性變量;為充分利用新能源,本文假設PV和WT是不可調度資源,并以固定單位功率因數運行[27],故在狀態空間中不考慮新能源無功功率。

1.2.2 動作空間

(11)

1.2.3 獎勵函數

1.2.3.1 日運營成本項

(12)

1.2.3.2 約束違反項

鑒于ADN安全運行的重要性,獎勵函數中還應當考慮電壓違反和潮流越限的風險。因此,本文采用懲罰機制,對電壓違反和潮流越限進行懲罰。

1)電壓違反懲罰項:

(13)

2)潮流越限懲罰項:

(14)

綜上,獎勵函數定義如下:

(15)

式(15)表明,當潮流計算收斂時,獎勵函數的主要目標是使ADN的日運營成本最小,同時避免電壓違反。當潮流計算發散時,智能體將會受到一個較大的懲罰值。

1.2.4 狀態動作價值函數

為了在不同狀態下獲得最優動作,需要使用狀態-動作價值函數Qπ(st,at;θ)來描述在當前狀態st下執行動作at,并遵循策略π后所能帶來的預期獎勵,該策略由一組網絡參數θ來控制。狀態-動作價值函數如下式所示:

(16)

式中:π為從綜合狀態映射到調度計劃的策略,智能體在狀態st選擇何種動作at由策略π(st)=at決定;γ為折扣因子,用來平衡未來獎勵和即時獎勵,γ∈[0,1];E(·)為數學期望。

在ADN調度問題中,DRL智能體的目標是在與環境的不斷交互過程中找到最優策略π*,使ADN日運行成本最低。這個最優策略可以通過最大化狀態-動作價值函數來實現:

(17)

式中:Qπ*(st,at;θ)為最優狀態-動作價值函數。

2 基于DDPG的ADN有功-無功協調調度

2.1 PER-DDPG學習框架

為有效解決ADN有功-無功協調優化中存在的連續動作空間問題,本文構建了基于PER-DDPG算法的ADN在線調度框架,如圖1所示,該框架中的DDPG智能體由Actor網絡和Critic網絡組成,每個網絡都有自己的目標網絡以提高算法的穩定性。為了提高智能體的采樣效率,該框架引入了優先級經驗緩沖區B。在訓練過程中,智能體與ADN環境交互并收集若干組經驗單元et={st,at,rt,st+1},然后根據優先級pt對經驗單元進行重要性采樣。pt值越大,相應經驗單元的重要性越高,智能體從中學到經驗越多。

圖1 PER-DDPG算法學習框架

本文在文獻[25]的基礎上,對pt計算公式進行改進:

pt=|δt|+ε

(18)

式中:δt為時間差分(temporal difference, TD)誤差;

ε為較小正常數,用以確保每個經驗單元即使TD-誤差為零時仍有一定概率被抽樣。

在常規方法中,智能體往往更傾向于重放pt值較高的經驗單元,這可能會改變狀態訪問頻率,導致神經網絡的訓練過程出現振蕩或發散。針對上述問題,本文使用了重要性采樣權重來計算每個經驗單元對于權重變化的貢獻:

(19)

式中:wi為第i個經驗單元所占權重;pi為第i個經驗單元的優先級;Bsize為經驗緩沖區的大小;κ∈[0,1]。

接下來詳細介紹Critic網絡和Actor網絡在離線訓練階段的更新過程:

1)Critic網絡。

在訓練過程中,Critic網絡使用具有參數θQ的深度神經網絡來估計狀態-動作價值函數。智能體根據經驗優先級對一小批經驗單元進行抽樣,在每次抽樣中,Critic網絡試圖最小化以下損失函數:

(20)

(21)

(22)

2)Actor網絡。

在訓練過程中,Actor網絡用于學習動作策略和執行動作。Actor網絡中的參數化函數μ(st;θμ)可以確定性地將狀態映射到特定動作來指定當前策略。動作策略定義的目標如下:

J(θμ)=Est~B[Qπ(st,μ(st;θμ);θQ]

(23)

(24)

其次,基于動作參數θμ更新:

(25)

式中:ημ為Actor網絡的學習率。

2.2 離線訓練過程

本文所提PER-DDPG方法的離線訓練過程如圖2所示。在每一輪訓練中:首先,DDPG智能體的Actor網絡根據參數化函數μ(st;θμ)+Δμt制定SCB、OLTC、MT和ESS有功/無功資源的調度策略,Δμt為隨機噪聲。然后,智能體在當前狀態st下執行動作at,經潮流計算后獲得獎勵rt,并觀察到新的狀態st+1,歷史樣本通過上述交互被收集存儲在經驗緩沖區中的經驗單元et。最后,智能體根據優先經驗回放機制對經驗單元進行小批量采樣,并更新Actor和Critic估計網絡和目標網絡參數。當t達到T時,一個訓練集結束。重復以上步驟,直到訓練集數達到最大訓練集umax,離線訓練過程結束,保存此時最優的神經網絡模型。

圖2 PER-DDPG算法流程

3 算例分析

3.1 算例設置

為了驗證所提PER-DDPG方法在ADN有功-無功協調優化調度的有效性,本文采用如圖3所示修改的IEEE-34節點配電算例[27]進行仿真驗證。該配電系統接入了2個MT、1個ESS、3組PV和3臺WT,各設備參數詳見表1。在節點7、8之間以及節點19、20之間分別接入2個OLTC,均具有33檔調節位置,調節范圍在-10%~10%之間。2個SCB分別安裝在節點24和節點34,每個SCB共有4組運行單元,每組運行單元的無功功率為120 kvar。變電站的容量為2 500 kVA。配電網節點電壓的限制范圍為0.95~1.05 pu。為了獲取配電網電價、各節點負荷需求和新能源有功及無功功率數據,本文基于加州ISO開放存取同步信息系統時間序列數據[28]進行分析,并以1 h為時間段提取2018—2020三年的數據信息。其中,將2018—2019年的數據作為訓練集,2020年的數據作為測試集,用以驗證所提方法在ADN有功-無功協調優化調度問題上的有效性??傉{度時段T為24 h。

表1 各設備參數

圖3 修改后的IEEE-34節點標準配電系統

本文采用Python中Tensorflow 2.2.0實現所提算法,并基于OpenAI Gym標準搭建了ADN有功-無功協調優化調度學習環境。同時,為了進行潮流計算判斷收斂性,本文依賴電力系統分析包Pandapower。所有的算例仿真都在Intel(R) Core(TM) i7-11800H處理器2.30 GHz的工作站上進行。

3.2 離線訓練

本文所提PER-DDPG方法的詳細參數設置如表2所示。在本文所建立的MDP中,動作空間同時存在連續和離散動作。然而PER-DDPG方法只能處理連續動作空間。因此在智能體離線訓練之前,本文對離散動作進行了連續化處理,將離散-連續混合動作空間轉化成連續動作空間。在使用PER-DDPG方法進行訓練后,本文再將OLTC和SCB的連續動作值舍入到最近的整數值。

表2 所提方法參數設置

由于PER機制可以從本文提出的方法中單獨分離,因此本文將所提PER-DDPG方法與DDPG方法進行比較。表3展示了不同方法在離線訓練和在線測試(迭代一次)上的平均耗時對比。本文對每種方法使用不同的隨機種子運行5次,每次離線訓練的最大迭代次數為106。結果表明,兩種DRL方法均能實現秒級在線求解,實現ADN有功-無功協調優化在線調度策略。與DDPG方法相比,本文所提PER-DDPG方法的離線訓練時間和在線測試時間更短,計算資源損耗更小。

本文進一步比較了所提PER-DDPG方法和DDPG方法在不同隨機種子情況下的訓練過程性能,如圖4所示。實線代表各DRL智能體的平均獎勵值,陰影部分代表獎勵值的波動范圍。通過圖4可以看出,在智能體與ADN環境的交互學習過程中,PER-DDPG方法和DDPG方法的獎勵值逐步增加,并最終均可收斂到一個穩定值,表明兩種方法均可通過學習獲得使ADN日運行成本最小的經濟調度策略。其中,PER-DDPG方法迭代到約2×105次時出現了一定振蕩,這屬于訓練早期智能體探索ADN環境的正常行為,并不影響其總體收斂性。值得注意的是,PER-DDPG方法迭代到約5.7×104次時獲得獎勵值-19 500,而DDPG方法需要迭代到約17.1×104次時才能得到相同的獎勵值。因此,本文所提PER-DDPG方法的智能體能夠快速學習到成功樣本,積累得到一定的成功經驗,從而更迅速學到ADN有功-無功協調調度策略。此外,基于PER-DDPG方法的最終收斂穩定獎勵值為-9 500,而DDPG方法的最終穩定獎勵值相對較低,為-10 500。因此,本文所提出的PER-DDPG方法具有更快的收斂速度,未來折扣獎勵回報相較DDPG方法提升了9.52%。

圖4 不同算法下的訓練過程

3.3 在線測試表現

在實驗交互過程達到所設置的最大迭代次數后,離線訓練過程完成,本文保存此時訓練完成的最優神經網絡模型,并在測試集上進行測試。如圖5所示,測試集中PER-DDPG方法和DDPG方法的累積運行成本分別為243.07萬元和396.27萬元。結果表明,PER-DDPG方法在一年內能夠降低38.66%的ADN運行成本,相比之下,DDPG方法效果較為有限。

圖5 不同算法下測試過程的累計成本

本文所提PER-DDPG智能體在測試集中某天的調度決策結果如圖6所示。

圖6(a)展示了當天WT和PV的有功功率輸出變化。圖6(b)展示了負荷有功無功功率需求以及電價變化情況。由圖6(c)可知,智能體在低電價時段調度ESS進行充電以儲存能量;而在高電價時段,智能體調度ESS進行放電以滿足負荷運行需求,從而降低配變功率峰谷差。由圖6(d)—(e)可知,兩個MT的功率因數被限制在0.8以上,智能體根據當前電價和ADN負荷需求動態地調整MT的發電量。當負荷需求減少或電價下降時,智能體調度MT減小發電量以避免過剩的電力浪費;而當負荷需求增多或電價上漲時,智能體調度MT增大發電量以緩解ADN的運行壓力。在08:00—16:00之間,風電和光伏的總有功功率較大,ESS進行充電且MT減少輸出功率,以就地消納新能源,減少功率倒送。通過上述調度方式,一定程度上減小了新能源隨機性對配電系統的干擾。

圖6(f)—(g)分別展現了OLTC的擋位及SCB的運行數量變化情況,均滿足調度周期內動作次數不宜過多的規定。在12:00—17:00時,風電和光伏發電出力較大,SCB減少運行數量,防止因新能源功率倒送引起電壓越限。

不同時段各節點的電壓分布情況如圖7所示。由圖7可知,在無功電壓調節設備SCB和OLTC的共同作用下,ADN的各節點電壓都被限制在安全范圍0.95~1.05 pu內。其中,在14:00時節點22上的電壓最低,為0.970 7 pu;在15:00時節點5上的電壓最高,為1.001 3 pu。

圖7 不同節點的電壓分布

從算例結果可以看出,經本文提出的PER-DDPG方法離線訓練后,智能體能夠在線調度ESS、MT、OLTC和SCB有功/無功資源動作,并與PV及WT協同作用,以具有成本效益的方式響應ADN電力負荷需求。該方法在新能源消納、削峰填谷和需求響應等方面具有良好的效果。

4 結 論

本文針對ADN的有功-無功協調優化調度問題,在DDPG方法的基礎上添加了PER機制,提出一種基于深度確定性策略梯度的主動配電網有功-無功協調優化調度策略?;谒憷治?得到如下結論:

1)本文所設計的MDP模型最大程度地模擬了ADN實際環境,不依賴于任何物理模型,避免了對新能源、負荷及電價的不確定性建模,具有實際應用價值。

2)采用本文所提出的PER-DDPG框架進行離線訓練得到的最優神經網絡模型可以在線生成ADN調度策略,能夠有效解決電壓和潮流越限的問題,并同時最小化日常運行成本。

3)在離線訓練過程中,本文所提PER-DDPG方法相較于DDPG方法具有更高的未來折扣獎勵和更快的收斂速度。

猜你喜歡
離線調度狀態
異步電機離線參數辨識方法
呼吸閥離線檢驗工藝與評定探討
淺談ATC離線基礎數據的準備
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
一種基于負載均衡的Kubernetes調度改進算法
狀態聯想
虛擬機實時遷移調度算法
離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
生命的另一種狀態
堅持是成功前的狀態
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合