?

基于深度強化學習的多能流樓宇低碳調度方法

2024-03-07 08:06李逸超杜佳瑋
浙江電力 2024年2期
關鍵詞:燃氣輪機配額樓宇

胥 棟,李逸超,李 赟,徐 剛,杜佳瑋

(國網上海市電力公司浦東供電公司,上海 200122)

0 引言

隨著“雙碳”戰略的提出,低碳化成為中國未來能源行業發展的必然趨勢[1-2]?!疤歼_峰·碳中和”這一要求對中國能源革命進展提出革命性要求,能源結構的調整和各類可再生能源的高效利用成為必然的研究趨勢。而“綜合能源系統”概念的提出和實現為這一研究趨勢提供了有效的解決途徑。中國目前城市化高速發展,樓宇耗能占比高升。因此,在低碳背景下,以單樓宇為研究對象的綜合能源協調優化研究成為新一輪的研究熱點。但是,多種能源背景下的樓宇協調優化調度面臨著用戶多樣化、能量種類多樣化、多種能源交易復雜化以及能量調度主體多元化等難題[3]。在上述背景下,鮮有研究成果聚焦于樓宇的低碳特性。因此,目前亟須探究如何在多能流背景下,既能提升樓宇綜合能源利用效率,又能降低碳排放量的方法。

面對樓宇眾多且能耗占比攀升的現實情況,許多學者將樓宇與綜合能源系統技術相結合,形成綜合能源背景下的樓宇用電系統,提升多種能源的利用效率,同時降低能耗。文獻[4]建立了光伏發電系統、中央空調系統、冷熱電聯供系統、能量儲存系統和儲能元件5種能源系統模型,提出了基于冷電聯供系統的建筑樓宇冷-電綜合能源系統優化調度模型;文獻[5]在保護區域電-熱綜合能源系統多主體運營系統運行參數隱私的情況下,充分挖掘不同供熱模式下樓宇集群儲能的潛力,建立了一種考慮樓宇不同供熱模式的區域電-熱綜合能源系統分布式協調優化調度模型。

在“雙碳”戰略的大背景下,僅僅考慮經濟性和安全性兩方面優化已難以滿足低碳的政策要求。因此,必須將碳排放量納入多能流網智能樓宇優化調度模型中。文獻[6]提出了一種考慮V2B(電動汽車接入樓宇)智慧充電樁群的低碳樓宇優化調度模型;文獻[7]考慮氫儲能系統,提出了一種“雙碳”背景下分布式的智慧園區多樓宇協調調度方法;文獻[8]考慮3 種不同類型的樓宇,在考慮光伏不確定性的影響下,提出一種多類型樓宇電能-碳排放權聯合分布式交易方法。但上述研究成果中的能源主體都以光伏、氫儲能為主,包含的能源種類不全。

對于多研究主體的多目標優化問題,傳統的求解算法主要通過加權求和的方式將其轉化成單目標問題進行求解,但是多個目標的權重占比依賴于決策者對優化目標的偏好,在實際中很難確定[9]。在上述文獻中,使用頻率較高的求解算法為ADMM(交替方法乘子法)。ADMM 具有實現簡單、隱私保護性強、收斂性好等優點而被廣泛應用于樓宇的分布式交易中。文獻[10]提出了一種樓宇群兩階段能量共享策略,建立了基于非合作博弈的自私樓宇能量共享模型,并采用ADMM實現分布式求解;文獻[11]提出基于電能共享的綜合能源樓宇能量管理框架,并基于ADMM進行分布式調度。近年來,深度強化學習算法在各行各領域中廣泛應用,并取得了不俗的表現。深度強化學習具備高速精準的決策能力,在解決多目標優化問題、順序決策問題上有著顯著的優勢[12]。文獻[13]在分時電價背景下建立了一種基于DPG(深度策略梯度)算法的智能樓宇群能量優化方法,所提方法證明了類似DPG的深度強化學習算法對于多目標優化問題的適用性及求解的快速性。

本文建立了一種涵蓋多種能源的多能流智慧樓宇低碳調度模型。首先,構建了冷-熱-電綜合能源參與的智慧樓宇低碳調度數學模型??紤]多種碳排放來源主體,建立了基于無償碳排放權配額的階梯型低碳交易模型。所建立的數學模型考慮的能源設備全面,利用不同調節資源的互補特性,保證智慧樓宇的經濟最優性,并且有效地實現其綜合能源系統的低碳調度。然后,為了利用Rainbow算法對所搭建的多能流智慧樓宇低碳調度模型進行求解,將數學模型依據定義轉化為MDP(馬爾可夫決策過程)。Rainbow 算法是一種以DQN(深度Q 網絡)算法為基礎,將各種改進算法相互融合的組合算法,在決策領域得到廣泛應用[14]。最后,通過算例證明了所提方法在線調度負荷的有效性和優越性。

1 計及多能流網的智慧樓宇低碳調度架構

本文的研究對象系統架構如圖1所示。該系統分為能源供給側、智慧樓宇側和負荷側。

圖1 計及多能流網的智慧樓宇低碳調度架構Fig.1 The low-carbon scheduling architecture for smart buildings with multi-energy flow networks

能源供給側考慮了配電網、碳市場和天然氣市場,配電網與天然氣市場共同向樓宇內部供能,但不支持樓宇電能與燃氣返送。碳市場與樓宇內部的碳排放配額量進行交易;負荷側含電、熱、冷、氣4種負荷類型。電負荷由樓頂光伏機組、燃氣輪機供電,熱負荷由燃氣輪機與燃氣鍋爐共同供熱,冷負荷由中央空調和PLBR(光伏溴化鋰制冷機)共同制冷。氣負荷由天然氣市場直接供氣。智慧樓宇側主要配備燃氣輪機、燃氣鍋爐、蓄熱池、中央空調、PLBR、碳捕集系統等設備。其中,中央空調節能和可再生能源發電是該運行模式下樓宇的主要碳減排方式,樓宇經過碳捕集及封存技術改造,通過捕捉到的CO2配額向碳市場進行交易。同時,樓宇也可以向碳市場購買碳配額以支撐新能源出力不足的情況。本文提出的計及多能流網的智慧樓宇低碳調度架構能夠利用不同能流資源的時空互補性,有效提升樓宇綜合能源系統調度的經濟性和低碳性。

2 多能流低碳樓宇調度問題的數學描述

首先,對多能流低碳樓宇設備進行數學建模并給出相應的約束條件;然后,采用基準線法確定低碳樓宇無償碳排放權配額并引入階梯型碳交易模型;最后,考慮低碳因素,以最小化多能流樓宇運行成本為優化目標構建樓宇優化調度模型。

2.1 多能流低碳樓宇設備的數學模型

1)多能流功率平衡約束

多能流低碳樓宇電、熱、冷、氣功率平衡約束如式(1)—(4)所示。

2)樓頂光伏設備建模及約束

樓頂光伏的輸出功率模型及其約束條件如式(5)和式(6)所示。

3)燃氣輪機設備建模及約束

燃氣輪機輸出電功率、熱功率模型及其約束條件如式(7)—(11)所示。

4)燃氣鍋爐設備建模及約束

燃氣鍋爐通過燃燒天然氣制熱,其輸出熱功率模型及其約束條件如式(12)和式(13)所示。

5)中央空調設備建模及約束

本文考慮中央空調,空調通過消耗電能制冷,可通過輸入的電功率計算其制冷量,其輸出的制冷量模型及其約束條件如式(14)和式(15)所示。

6)PLBR設備建模及約束

PLBR利用余熱作為驅動熱源制冷,其輸出冷功率模型及其約束條件如式(16)和式(17)所示。

7)碳捕集設備建模及約束

碳捕集設備須考慮其處理能耗,其消耗功率模型及其約束條件如式(18)和式(19)所示。

8)蓄熱槽設備建模及約束

當蓄熱槽放熱、儲熱時,其功率模型及其約束條件如式(21)—(25)所示。

2.2 階梯型碳排放權交易機制

碳排放權的交易實質上是主體被賦予一定的碳排放權后,由于環境的原因,把碳排放權這種權力指標作為商品投入市場交易。碳交易帶來的利益可以激發主體對于降低碳排放量的意愿,以達到控制總碳排放量的目的。

2.2.1 初始碳排放權配額

目前,中國碳市場大多選擇對初始碳排放權配額進行無償分配[15],在無償分配中監管部門通常主要使用基準線法來確定初始碳排放配額[16]?;鶞示€法是通過參考行業整體排放數據水平設置排放強度,并根據該基礎發放配額。

對于低碳樓宇來說,須對燃氣輪機、燃氣鍋爐和配電網購電的碳排放權初始配額,碳排放權配額可以根據發電量或發熱量乘以碳排放權分配系數得到,其計算公式如式(26)—(30)所示。

2.2.2 碳排放量計算

對于低碳樓宇來說,碳排放量主要來自燃氣輪機、燃氣鍋爐、配電網購電和中央空調。本文引入生命周期評價法[17]計算碳排放量,該方法充分考慮了每條能流的碳軌跡,可以更加準確地計算出系統總碳排放量,其計算方法如式(31)—(36)所示。

2.2.3 獎懲階梯型碳交易成本模型

為了鼓勵樓宇運營商積極參與碳交易市場,本文在傳統階梯型碳交易模型的基礎上引入獎懲機制。當樓宇的碳排放量小于無償的初始碳排放權配額時,樓宇可以向碳市場出售多余的配額并獲得一定額度的獎勵補貼,獎勵補貼的計算方式是階梯式的,換言之,剩余的配額越多,獲益越高;反之,當樓宇的碳排放量大于初始碳排放配額時則需要向碳市場購買額外的配額。同樣,懲罰的計算方式也與此相似,即碳排放量越大,交易價格越高。獎懲階梯型碳交易成本計算模型如式(37)和式(38)所示。

2.3 目標函數

本文構建的目標函數從經濟性和低碳性兩個角度出發,對多能流樓宇以總運行成本最小為目標函數,建立優化低碳調度模型,其目標函數如式(39)所示。

1)樓宇向配電網購電成本

樓宇向配電網購電成本如式(40)所示。

2)燃氣輪機的運行成本

燃氣輪機的運行成本如式(41)所示:

3)燃氣鍋爐的運行成本

燃氣鍋爐的運行成本如式(42)所示。

4)碳捕集設備的運行成本

碳捕集設備的運行成本如式(43)所示。

5)設備運行維護成本

設備運行維護成本如式(44)所示。

式中:N為樓宇中設備的數量;ct,j為t時刻設備j輸出單位功率的運行維護成本;Pt,j為t時刻設備j輸出的功率。

3 多能流樓宇低碳調度問題的MDP模型

強化學習算法的優化基礎是將優化調度模型轉換為MDP 模型。MDP 模型假設所有狀態信息均無誤地傳遞給決策者;決策者按照強化學習算法的原則來求解MDP模型,得到訓練動作;在執行訓練之后,新狀態被更新至決策者,從而進行新一輪訓練迭代。因此,基于深度強化學習算法的多能流低碳調度問題,需要將第2章中搭建的數學模型轉換為MDP模型進行描述。具體構建架構如圖2所示。

圖2 深度強化學習方法構建過程Fig.2 The construction process of deep reinforcement learning

根據MDP模型的定義,將所提出的多能流低碳調度問題定義為由狀態空間St、行動空間At、獎勵函數Rt、轉移概率Pt及累計折扣回報衰減系數γ組成的五元組(St,At,Rt,Pt,γ)。

3.1 狀態空間

3.2 動作空間

3.3 獎勵函數

獎勵即智能體感知到外界環境并采取行動后所獲得的獎賞值。對于所提出的多能流樓宇低碳調度問題的MDP模型,認為其中的獎勵函數Rt為目標函數Jt的負值,如式(47)所示。

3.4 狀態轉移概率

在優化調度過程中,不同可調度設備執行模型下發的優化動作后,樓宇的運行狀態是可能發生改變的。于是,定義樓宇運行狀態發生改變的概率為所建立的MDP模型的狀態轉移概率[18],其數值一般由歷史運行數據庫決定,其表示形式如式(48)所示。

式中:M和L分別為樓宇正常運行狀態和異常運行狀態的數量;PA為M×M階轉移概率矩陣,表示樓宇運行狀態從正常狀態轉移到另一種正常狀態的概率;PB為M×L階轉移概率矩陣,表示樓宇運行狀態從正常狀態轉移到越限狀態的概率;0L×M為L×M階零矩陣;IL×L為L×L階單位矩陣。

4 Rainbow算法的求解原理

采用目前較為流行的DQN算法的改進版——Rainbow 算法來建立多能流樓宇低碳調度MDP 模型。Rainbow 算法集成了多種基于DQN 的改進機制,如Double DQN、Dueling DQN、優先重放緩沖區和dropout 層。它解決了經典DQN 算法在收斂性、泛化性和穩定性方面的不足。其應用過程如圖3所示。

圖3 Rainbow算法的應用過程Fig.3 The application process of Rainbow algorithm

使用Rainbow 算法求解第3 章所搭建的MDP模型的求解過程分為兩個部分:訓練過程和應用過程。其中,訓練過程是算法智能體通過與環境互動擬合出狀態到最優動作集(樓宇控制設備運行功率)之間的復雜映射關系的過程,評判標準以所定義的獎勵函數最大化為目標優化算法網絡參數。訓練迭代過程中的損失函數如式(49)所示。

式中:Q(St,At)為動作-價值函數,其具體算法如式(50)所示。

式中:v(St)為狀態評估值,用于評估當前狀態的好壞;A(St,At)為動作優勢評估值,表明當前狀態下某一個動作的好壞;|A|為動作空間的設備動作總數。

訓練過程結束后,直接利用收斂的算法網絡進行決策,制定多能流樓宇低碳協調調度的最優策略。其訓練流程如圖4所示。

圖4 Rainbow算法的訓練過程Fig.4 The training process of Rainbow algorithm

5 算例分析

5.1 算例描述

參考文獻[19-20]進行設備參數設置,對上文所述的多能流樓宇低碳調度策略進行驗證。算例系統包含一套樓頂光伏設備、一臺燃氣輪機、一臺燃氣鍋爐、一臺碳捕集設備、一個蓄熱槽、若干臺中央空調和若干臺PLBR。配電網購電分時購電價格如圖5所示。設置24 h 作為一個調度周期。仿真硬件參數如表1所示。

表1 硬件配置Table 1 Hardware configuration

圖5 分時電價Fig.5 Time-of-use electricity price

5.2 訓練過程

訓練1 200 次的時間為120.45 min。由圖6 可知,智能體通過逐步學習的方式來獲得更多的獎勵。在訓練初期,智能體沒有經驗,以隨機選擇動作的方式來探索決策環境。因此,在0~50次的訓練過程中,獎勵出現了明顯的振蕩。200 次往后,智能體根據前期積累的學習經驗來模擬最優策略動作,獎勵值也趨于穩定在1.4萬元左右。

圖6 平均獎勵Fig.6 Average reward

由圖7可知,訓練過程通過追求設定損失以達到收斂穩定。在0~50次的訓練過程中,由于智能體的隨機動作導致損失值較高。后續訓練過程隨著智能體逐漸積累經驗,其訓練損失值也逐步穩定在一個低值。

圖7 平均損失Fig.7 Average loss

5.3 多能流樓宇低碳優化調度結果分析

訓練完成后,多能流樓宇可以適應動態變化的環境并完成低碳調度。中國上海某一夏季典型日該樓宇電、熱、冷3種負荷的預測值及各單元低碳調度結果分別如圖8—10所示。需要說明的是,由于氣負荷直接由天然氣市場供給,本文暫不考慮其調度問題。同時,碳排放和碳捕集情況如圖11所示。

圖8 電負荷平衡Fig.8 Power load balance

圖9 熱負荷平衡Fig.9 Heating load balance

由圖8—10 可知,在00:00—06:00 時段,樓頂光伏幾乎沒有出力,此時主要通過配電網購電的方式進行電能供給,但電負荷需求較小,因此較小的燃氣輪機出力即可滿足負荷需求,CO2排放量接近于0。此時,中央空調大量吸收富余的電能并轉換成冷能供應給冷負荷。同時在這個時間段熱負荷需求較大,主要由燃氣輪機、燃氣鍋爐、蓄熱槽提供熱能。

在07:00—17:00 時段,光伏出力較大,電、冷負荷呈上升趨勢,熱負荷呈下降趨勢。由于電負荷大量增加,燃氣輪機增加出力,向配電網大量購電,導致CO2排放量大大增加。熱負荷的需求相較于夜晚降低,主要由燃氣輪機提供,此時蓄熱槽進行儲熱。多余的熱能通過PLBR 轉換成冷能供應給冷負荷。

在18:00—23:00 時段,電、冷負荷呈下降趨勢,熱負荷呈上升趨勢。此時,光伏不再出力,樓宇主要通過配電網購電的方式進行電能供給。燃氣輪機出力也減小,發電排放的CO2幾乎全部被捕集,因此碳捕集設備能耗有所增大。由于夜晚溫度下降,熱負荷需求增加,重新由燃氣輪機及燃氣鍋爐提供熱能,蓄熱槽放熱。冷負荷通過中央空調吸收電能提供。

5.4 與其他方法的對比

為了綜合評價本文所提算法的效果,選取傳統基于Cplex求解器的優化結果和使用其他深度強化學習算法的優化結果作為對比算法。對比結果如表2所示,主要從決策結果、訓練時間、決策時間3個方面進行對比。

表2 算法對比Table 2 Comparison of algorithms

由表2可知,Rainbow算法的整體性能優于傳統的Cplex 算法。相較于其他深度強化學習算法,DQN 的收斂性能、決策時間均最差。作為DQN算法的改進算法,Dueling DQN 的性能有較大提升,但與Rainbow 算法相比,性能仍有一定差距??梢钥闯?,Rainbow算法以訓練時間為代價,計算出了更優的調度策略。以Cplex算法的優化結果為基準值,Rainbow算法的運行成本相較于其他算法分別降低了7.34%、5.78%和4.25%。

6 結語

本文提出一種基于深度強化學習的多能流樓宇低碳調度方法。首先,根據智慧樓宇的實際碳排放量建立了一種獎懲階梯型碳排放權交易機制。其次,面向碳市場和多能流耦合網絡,以最小化運行成本為目標函數,建立多能流低碳樓宇調度模型,考慮到智慧樓宇負荷用能行為動態特性明顯的特點,將該調度問題轉換為深度強化學習框架的MDP。然后,利用Rainbow 算法聯合智慧樓宇高維負荷用能行為歷史數據庫進行優化調度問題的求解。最后,通過仿真分析驗證了所提優化調度模型的可行性及有效性。主要結論如下:

1)獎懲階梯型碳排放權交易機制的引入能有效降低智慧樓宇45.6%的碳排放量并消納25.1%的新能源多余出力。

2)本文所提出的Rainbow 算法克服了傳統深度強化學習算法的狀態和動作空間維度低的問題。同時相較于傳統的優化算法,Rainbow算法的整體決策精度平均提升5.79%。

在今后的研究中將進一步考慮電力系統、天然氣系統、熱力系統、碳系統的信息耦合隱私保護,并探索多個智慧樓宇的協同優化調度方法。

猜你喜歡
燃氣輪機配額樓宇
通信生產樓宇建設項目造價問題分析
碳減排量及碳配額的區別
魚粉:秘魯A季配額低于預期,內外盤短期大幅上漲
商務樓宇治理中黨建融入的邏輯與路徑——基于廣州S樓宇的觀察與思考
魚粉:秘魯A季配額公布,國內外魚粉價格反彈
智美兼具的精品——評測君和睿通Homates H10樓宇對講室內門口機
碳排放權交易配額拍賣機制研究
高層樓宇滅火裝備
《燃氣輪機技術》2014年索引
SGT5-4000F(4)燃氣輪機夏季最大負荷研究及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合