?

基于深度強化學習的配電網負荷轉供控制方法

2022-07-20 01:44王光華李曉影宋秉睿
電力自動化設備 2022年7期
關鍵詞:配電網負荷狀態

王光華,李曉影,宋秉睿,張 沛

(1. 國網河北省電力有限公司保定供電分公司,河北保定 071000;2. 天津相和電氣科技有限公司,天津 300042)

0 引言

配電網具有閉環設計、開環運行的特點,聯絡開關為常開開關,通常在運行情況下保持斷開狀態,用于緊急備用轉移,分段開關為常閉開關,通常在運行情況下保持閉合狀態,其主要功能是隔離故障。當采用輻射狀結構運行的配電網發生故障時,故障線路下游的負荷都會中斷供電,需要盡快地切除故障設備,并快速地恢復下游失電負荷用戶。負荷轉供通過聯絡開關和分段開關的操作與不同組合,改變供電的路徑,在滿足配電網開環方式運行、電壓幅值和載流量等基本約束的前提下,將故障或檢修停電范圍內以及重載區域內的線路負荷轉帶至其余配電線路,從而達到降低故障或檢修帶來的失電損失和減少過載配電線路的目的,提高配電網運行的可靠性、經濟性與客戶滿意度[1]。

隨著城市規模的快速擴張以及電能替代的不斷推進,各行各業對電力的需求迅速增長,配電網節點數大量增加,結構愈加復雜,配電網故障后拓撲變化不確定性較大,開關的組合與供電路徑的選擇出現了“組合爆炸”的問題。而且城市電網建設相對較為滯后,導致電網結構的不合理等問題比較突出,故障后轉供裕度不足等問題更加大了負荷轉供的難度[2]。目前大多數配電網公司負荷轉供主要采取的方法為人工經驗決策方法,方案的優劣依賴于運行人員的經驗水平,人為失誤可能導致負荷損失[3]。

目前,負荷轉供的求解方法大致有以下幾類。①啟發式算法有分層樹搜索法[4]、支路交換法[5],利用啟發式規則來減小搜索空間和降低問題的復雜度比較簡單直觀,計算過程中重復使用規則且進行多次仿真計算,解的優劣依賴于規則的制定與配電網初始狀態,影響了速度與解的質量。②數學優化算法有多階段優化法[6]、非線性規劃法[7]、動態規劃法[8],將負荷轉供轉化為對數學問題的求解,但是當配電網絡結構龐大復雜、維數高時易出現“組合爆炸”的問題。③專家系統法[9]能夠調用已經保存的策略庫,實時性好,適用性廣,但是庫的建立和集成費時費力,且當配電網建設發生變化時,專家系統需要不斷進行調整。④隨機搜索算法有禁忌算法[10]、遺傳算法[11-12]、粒子群優化算法[13],這些算法魯棒性較好,但是搜索過程范圍較大,需要進行大量的仿真計算,可能不收斂,算法的優化選取規則復雜,所用的時間較長。已有的研究方法都將負荷轉供視為優化問題或者搜索問題來進行求解,盡管都采取了近似簡化方法或縮小搜索空間的方式,但由于配電網拓撲存在較大不確定性,轉供路徑存在“組合爆炸”的問題,故障后進行大量計算無法滿足故障恢復的時效性要求,只能犧牲求解質量來達到速度要求,難以解決求解質量與速度間的矛盾。目前,應用強化學習算法求解配電網負荷轉供問題的研究仍為空白。負荷轉供解決方案是由一系列開關動作構成,是一個連續的控制過程,而配電網的狀態只取決于上一時刻的狀態和動作,與歷史狀態無關,因此本文將負荷轉供過程視為一個馬爾可夫決策過程MDP(Markov Decision Process)[14],應用強化學習RL(Reinforcement Learning)理論來處理這一問題[15]。

為此,本文提出了基于深度強化學習DRL(Deep Reinforcement Learning)的配電網負荷轉供控制方法,采用Dueling 深度Q 網絡DQN(Deep QNetwork)算法,與配電網實時電氣、拓撲數據進行交互,對聯絡開關與分段開關進行控制,自適應配電網拓撲變化的不確定性;針對算法動作策略加入了預模擬機制,調整了動作與學習的比例并采用自適應優化算法進行求解,提高了算法的收斂速度與魯棒性,當配電網發生故障時可以即時給出高質量的轉供決策方案。

1 負荷轉供的強化學習模型

強化學習是一個與環境不斷進行交互,獲得反饋,更新策略,不斷迭代直至學習到最優策略的過程。配電網作為強化學習的環境,在每一時刻t,可以為智能體提供當前配電網狀態空間S,智能體分析決策的結果為開關動作A,將動作施加在環境上,環境發生的狀態轉移概率為P,環境反饋給智能體即時獎勵值為R。強化學習智能體目標為通過有限的步數最大化累積獎勵值,從而找到最優策略。負荷轉供的強化學習模型如圖1所示。圖中:V為電壓向量;I為電流向量;Sw為配電網中支路的開關狀態向量;F為支路故障狀態向量。

圖1 負荷轉供的強化學習模型Fig.1 Reinforcement learning model for load transfer

1.1 狀態空間

狀態空間應盡可能考慮會對決策產生影響的因素。對于負荷轉供問題,從數值角度出發,節點的電壓、支路的電流反映了用戶電壓質量與線路載荷能力,是關鍵的分析數據;從空間角度出發,配電網的拓撲狀態以及故障的位置信息可以作為選取合適的轉供路徑的依據。因此在強化學習中選擇這些數據構建狀態空間S,即:

1.2 動作空間與狀態轉移概率

一次完整的負荷轉供操作由一系列聯絡開關與分段開關的投切所構成,為了防止狀態空間過大,本文選取1次動作只投切1個開關的方式,所以相鄰的2個狀態之間,拓撲上的區別只有1個開關。此外負荷轉供應該在有限的動作數內結束,應設置主動結束本次轉供的動作。所以智能體的動作空間選取為0、1、…、2NS,其中NS為可操作的支路數量。當動作值為2NS時代表不采取任何操作并退出,本次決策結束,當動作值為0、1、…、2NS-1 時,對A進行如下計算:

式中:x為A除以2 得到的余數;y為動作支路的編號。由于每條線路用2 個相鄰的整數控制其投入或切除,用相鄰奇偶位表示線路y的2 種動作狀態,具體如下:

這樣即可保證每次動作1 條支路或者直接完成轉供決策。在動作后若出現了電壓越界、電流過載、動作次數超限等情況,則狀態轉移至失敗退出狀態;若恢復了全部非故障區域內的負荷,且配電網呈單輻射狀,則狀態轉移至成功轉供狀態。由于有些情況下需要主動切除部分負荷以防止過載,因此智能體主動退出狀態也會轉移至結束狀態。除此之外,任何其他狀態都為過渡狀態。

1.3 獎勵函數

負荷轉供首先要保證電網在約束范圍內運行,以恢復用戶供電,實現最佳的電能質量與經濟效益為目標。本文將獎勵函數分為獎勵與懲罰2 個部分,用于最終評價指導智能體的動作。

1)獎勵部分。

負荷轉供的首要目標就是盡可能恢復所有用戶供電,因此最重要的就是負荷恢復量。將動作累積恢復負荷量RL作為目標函數的正比部分。

式中:Nop為總動作次數;Pres,k為第k次動作所恢復的負荷量。

轉供應該在盡可能少的動作次數下完成,以降低運維的成本與失誤的可能性,同時也節省操作的時間,防止配電網結構變化過大,為故障消除后恢復原運行方式增加難度。因此本文考慮將動作次數Nop作為目標函數的反比部分。

配電網的線損也是重要的成本因素,本文利用帶電線路的阻抗參數,對配電網的線損情況進行評估,計算得到近似線損值ΔP為:

式中:l為帶電線路總數;Ii、ri分別為流過第i條線路的電流和第i條線路的電阻。

目標函數RT可根據各影響因素正反比關系計算得到,同時為便于調節各因素對RT的影響程度,以達到最佳訓練效果,對各因素值分別添加偏置量a1、b1、c1,得到RT的計算公式如下:

2)懲罰部分。

維持正常的節點電壓是保證配電網正常運行的基本要求,電壓應保持在偏差為±7%的容許范圍內[16],為了防止智能體動作時不滿足約束條件,對于超出該范圍的電壓,予以高懲罰,對于范圍內的動作不設置懲罰。

電壓越限后狀態應轉移至失敗退出狀態,電壓懲罰PVolt計算方法如下:

式中:Ui為節點i電壓的標幺值;PU為電壓越限后的懲罰值;Ui.max、Ui.min分別為節點i電壓的上、下限,通常取1.07 p.u.和0.93 p.u.。

當傳輸容量超過線路與變壓器的極限值時,易引發設備二次故障,本文取設備電流極限值作為運行上限,電流越限后狀態轉移至失敗退出狀態,電流懲罰PLim計算方法如下:

式中:PI為電流越限后的懲罰值;Ij為設備j的電流值;Ij.max為設備j的電流值上限。

配電網正常運行時應呈輻射狀,但也允許存在環網作為短時過渡狀態,不允許作為長期運行狀態出現,因此設置環網懲罰PLoop時應分情況考慮,即:

式中:Pf為結束狀態下存在環網的懲罰值;Pm為過渡狀態下存在環網的懲罰值;gn為已恢復的區域;GR為不包含分布式電源時所有配電網輻射狀結構集合。

當智能體采取無效的操作,如對已經閉合的開關執行閉合動作,即采取重復操作,以及對故障打開線路進行動作時,該動作視為無效,給予無效動作懲罰PAct,即:

式中:PA為智能體采取無效動作時的懲罰值;ak為第k次的動作;OA為對故障打開線路進行動作的集合。

獎勵函數中約束項RP可通過求和得到,正常狀態下有:

最終模型的獎勵函數R由獎勵部分RT與懲罰部分RP構成,即:

2 基于深度學習的負荷轉供算法

2.1 Dueling DQN深度強化學習算法

Q 學習是強化學習的主要算法之一,采用動作-價值函數Q(s,a)來評估策略的優劣,即在某一狀態s下,采取動作a能夠獲得獎勵的期望,Q學習將狀態和動作構建成一張表來存儲Q值,在不斷更新學習中,根據Q值來選取能夠獲得最大收益的動作。

根據Bellman 方程求解馬爾可夫決策過程的最佳決策序列,在某狀態下可能選擇一系列動作構成最終決策π,狀態值函數Qπ(s,a)表明每個狀態的值不僅由當前狀態決定還由后續狀態決定,Qπ(s,a)計算方法如下:

式中:s0為當前狀態;a0為當前狀態下所執行的動作;γ為折扣因子,γ∈[0,1]表征未來回報相對于當前回報的重要程度;Ri為第i次動作后獲得的即時獎勵;Eπ[·]表示針對策略π求[·]期望。

由于負荷轉供過程由多次開關動作組成,每次動作的好壞不僅與當前狀態有關,而且會影響未來的動作,進而影響最終轉供方案的優劣。所以式(14)完全符合負荷轉供的目標,即Q(s,a)與之后做的所有可能的動作所獲得的獎勵都有關,即強化學習的目的是學習到整個負荷轉供過程的最優控制策略。

負荷轉供的強化學習模型是基于配電網運行數據進行決策的,其狀態空間是由電壓、電流等連續變量構成的連續空間,但Q 學習采用Q值表來存儲狀態與動作的映射關系,在連續狀態空間的情況下難以適用。因此本文采用深度強化學習,即DQN[17]算法進行求解。DQN使用深度神經網絡產生Q值將狀態和動作相互映射,從大量訓練中不斷調整網絡參數,在線尋求滿足最大回報的最優控制策略。

DQN 算法訓練過程中在同一網絡利用相同的Q值選擇動作和評估動作,這種情況下DQN 容易過高估計動作的Q值,過高估計的Q值易導致最終結果存在偏差,從而難以求得最優解。Double DQN[18]對DQN 算法的更新計算方式進行了改進,由于目標網絡比主網絡更新滯后,Double DQN 不直接全部采用目標網絡計算Q值,而在估計下一狀態時先根據主網絡選擇動作,再用目標網絡計算Q值,這樣避免了盲目地過高估計Q值,提高了精確度,但其仍未考慮環境因素的影響,實際使用受到一定制約。在配電網轉供過程中,不同配電網狀態下采取相同的動作可能帶來完全不同的后果,為了能夠同時考慮配電網環境因素的影響與動作帶來的回報,本文采用考慮環境影響的Dueling DQN 算法,將Q值函數分為配電網環境信息回報和動作回報,使學習的目標更明確,其神經網絡結構圖見附錄A圖A1。Dueling DQN 將狀態向量作為輸入,輸出一個包含每個動作Q值的向量,神經網絡中價值函數標量V(st)僅與狀態有關,與動作無關,其值表現了當前配電網狀態的優劣;優勢函數向量A(at)進行了中心化處理,消除了配電網環境對開關動作的影響,體現了各開關動作之間的可辨識性,用來評估動作所帶來的額外收益:

式中:ω、α、β分別為公共隱藏層參數、價值函數層參數、優勢函數層參數;A為所有動作的集合,| |A 表示集合A 中的元素個數,即狀態s下的動作數;a′為狀態s′下具有最大Q值的動作,其中s′為狀態s的下一狀態。A對向量A進行了中心化處理,突出了動作的差異,體現特定狀態下各開關動作的優劣對比。

2.2 改進訓練收斂效果與模型泛化

1)預模擬-貪婪動作策略。

配電網負荷轉供往往動作數量較多,且整個轉供過程可能的動作組合極多,傳統隨機貪婪策略(ε-greedy)在前期選擇動作隨機探索時效率較低,在較大的動作空間內極易陷入局部最優動作,即使偶爾隨機動作跳出局部最優,也難以影響學習的方向。且在選擇最優動作時,神經網絡對不常見的或復雜的故障狀態缺乏泛化能力,可能選擇次優的或完全錯誤的動作,這在實際應用中可能導致嚴重的后果。

為了解決這一問題,本文采用了改進的預模擬-貪婪動作策略,預模擬時首先采用集合對比的方式篩選排除無效/重復動作,該過程中無需進行仿真計算;其次保持原順序取出前k個動作仿真預模擬,排除越限動作;然后分別按照負荷恢復量、線損值、Q值對動作進行三級排序;最后輸出預模擬最優的動作作為真實動作??紤]到修改了算法原本的動作機制,可能導致算法收斂性出現問題,本文保留了一定比例的貪婪動作,具體如圖2所示。

圖2 預模擬-貪婪動作策略Fig.2 Pre-simulation-greedy action strategy

本文中預模擬-貪婪動作策略采用了一定數值的有限的預模擬動作數量,可以保證較大動作空間內的模擬仿真次數與時間。并且集合對比方法無需經過仿真計算即可排除大量無效動作,縮小了解空間范圍,使強化學習訓練時更容易找到最佳動作,加快了訓練的速度;同時由于輸入數據為大量配電網運行數據,失電時會引起大量輸入數據的突變,變化過大的輸入數據常常會導致神經網絡學習振蕩且難以收斂,保留一定程度貪婪動作策略中的動作機制能保證在波動數據下的訓練效果與收斂性,使得神經網絡能夠清晰地辨別各狀態下Q值最大的動作與真正的最優動作。

2)調整智能體學習頻率。

在常規Dueling DQN 算法中,智能體每動作一次就要計算一次誤差,更新學習一次,但實際上高頻率的學習并不會提高神經網絡的訓練速度,在本文中高維度輸入輸出、神經網絡參數龐大的情況下,反而會出現神經網絡參數反復振蕩的情況,導致參數難以收斂,學習速度較慢。因此本文調整了智能體學習頻率,并在算例中確定最適合算法的比例關系,提高算法的學習能力。

3)Adadelta優化算法。

在訓練神經網絡過程中,傳統隨機梯度下降法、Momentum 等優化算法采用固定學習率,收斂速度較慢且容易陷入局部最優解;自適應學習率優化算法AdaGrad 對不同參數自動調節不同學習率,學習速度較快,但隨著迭代次數增加學習率趨近于0;本文采用的Adadelta 優化算法可以加速神經網絡的訓練,無需設定學習率反復試錯,而且避免了學習率越來越低的問題。

2.3 算法流程

基于深度強化學習的配電網負荷轉供算法流程如圖3所示,具體流程步驟見附錄B。

圖3 基于深度強化學習的配電網負荷轉供方法流程圖Fig.3 Flowchart of load transfer method of distribution network based on deep reinforcement learning

3 算例分析

為了驗證本文算法的有效性,采用IEEE 33 節點配電系統進行驗證,該配電系統包含33 個節點以及37條支路,其中分段開關和聯絡開關分別有32個和5 個。配電系統基準電壓為12.66 kV,總負荷為3 826.06 kW+j2 366.49 kvar,基準功率為10 MV·A,其拓撲結構如圖4所示。

圖4 IEEE 33節點配電系統結構Fig.4 Structure of IEEE 33-bus distribution system

3.1 訓練過程

利用OpenDSS 仿真數據作為樣本故障數據,在制造樣本數據的過程中,采用了隨機生成故障點的方法。即在32個分段開關中隨機選取1個開關發生故障并直接打開,其中各開關被選取的概率相同。5條常開聯絡線由于作為備用線路,不發生任何故障。每回合開始動作之前,切除故障線路并進行仿真,確定配電網的初始狀態,在此狀態下,智能體選擇操作故障線路將受到懲罰,并在狀態轉移至結束狀態時結束此回合,自動生成新的隨機故障,開始下一回合的負荷轉供。

Dueling DQN 算法中公共隱藏層為2層,分別含有512和256個神經元,價值函數層與優勢函數層均為1層,價值函數有1個神經元,輸出為標量,優勢函數有75 個神經元,輸出為與動作數相同的向量。激活函數均采用線性修正單元ReLU,批處理數量為200,折扣因子γ為0.9,探索值ε取0.95,經驗池可存儲1 000 條經驗數據,Adadelta 優化算法無需設定學習率,目標網絡參數每200回合更新一次。

本文算法在50 000 次動作回合后收斂,在轉供決策時,動作的負荷恢復量等多方面接近最優,如圖5所示。

圖5 動作次數與負荷恢復量訓練效果Fig.5 Training effect of action times and load restoration

由圖5 可知,訓練初期智能體對配電網轉供環境不熟悉,初期動作次數較多且供電負荷比例低,轉供控制效果較差;隨著訓練次數的不斷增加,智能體不斷與環境進行交互獲得經驗,學習到了用較少動作次數恢復更多負荷的方法,實現了負荷轉供的最佳決策控制。

在共計14 652 個回合的轉供訓練過程中,由于存在一定比例的探索性隨機動作以及無法實現完全轉供的情況,所以最終有8874次轉供控制實現了恢復全部負荷。圖6 為恢復全部負荷的情況下線損率隨訓練次數的變化情況,可見在后期智能體學習到了最佳運行成本的控制策略。

圖6 線損率訓練效果Fig.6 Training effect of line loss rate

3.2 負荷轉供結果對比

對故障發生后的配電網的負荷轉供進行測試。設支路12-13 發生永久性故障并進行隔離后,故障點下游負荷點13—17為失電區域,可供轉供直接使用的聯絡線有8-14、17-32,但這2條聯絡線單獨對失電負荷轉供時都會發生電壓越下限的情況,必須采用多次動作轉移負荷再進行轉供,分別采用本文算法與傳統強化學習算法、文獻[19]中的啟發式混合算法進行對比,其結果如表1 所示,表中網損率由網絡損耗除以網絡總傳輸功率計算得到。

表1 負荷轉供結果對比Table 1 Comparison of load transfer results

從表1 中可知,本文算法將重載線路上的部分負荷經過2 條聯絡線轉移至輕載線路上,在較少的動作次數內恢復全部負荷,且達到較低的網損水平;傳統強化學習算法基本所有的嘗試動作都會導致越限,所以最終切除部分負荷;啟發式混合算法轉移負荷后仍采用重載線路轉供,恢復所有負荷后網損率比本文算法高出0.4%,由此可見本文算法基本實現給出了最佳控制策略。

對于不同故障下配電網的拓撲變化,即配電網狀態信息發生變化,本文算法也可以即時給出轉供方案,表2 為采用本文算法時部分故障情況下的動作輸出??梢娫谵D供會引起電壓越限時,智能體會切除較小的負荷以保證正常供電。在保證不越限的前提下,優先執行各方面綜合最優的動作。

表2 不同故障下的動作輸出Table 2 Action output under different faults

負荷轉供方案需要多次進行動作,產生動作“組合爆炸”的問題導致實際求解的空間極大。本文算例中的37 條支路,由于每條支路分為開、關2 種狀態,每次動作空間大小為74,在某故障下需要3次動作進行轉供時其動作組合數為405 224 個,需要5 次動作進行轉供時其動作組合數則達到約2.2×109個。而對于不同的故障也需要求解不同的動作。本文算法在50 000 次動作時訓練趨于收斂,實現故障時能夠從極大的動作組合中找到接近最優的動作策略并即時給出。

由于基于深度強化學習的配電網負荷轉供控制方法具有離線學習、在線應用的特點,在線時無需在故障后花費大量時間仿真迭代,本文將單次動作的預模擬仿真數設置為5,即每次動作仿真5 次,其單個動作時間基本為0.04 s,所以決策時間主要取決于動作次數,在本文算例中大部分故障動作次數都為1~5 次,在線應用時求解過程的總仿真次數通常不超過25次,決策時間約為0.04~0.20 s,啟發式混合算法與遺傳算法在IEEE 33 節點系統及更小的系統中決策時間分別為0.808 s 及20.80 s[20],本文算法決策時間遠小于故障后其他算法的仿真計算時間。因此訓練完成的深度強化學習負荷轉供模型可以即時給出控制策略,可以在極短的時間內恢復供電,實現較高的經濟效益。

3.3 訓練效果對比分析

為驗證本文提出的基于Dueling DQN 的配電網負荷轉供控制方法的有效性,將基于Dueling DQN算法的調度方法與DQN、Double DQN 算法進行對比,對其設置相同的獎勵函數,訓練過程動作所獲得的平均獎勵值對比見附錄C圖C1。

為了提升動作獎勵以及加快訓練速度,采用了預模擬-貪婪動作策略的動作選取方式,改進前原強化學習模型在120 000 次動作時平均獎勵值仍然振蕩,選擇動作的效率低下,仍然存在大量動作,平均獎勵為0.37,本文方法在60 000 次動作后即趨于穩定收斂,基本不會出現無效動作,平均獎勵接近0.8。而相對于預模擬完全取代最大Q值選擇方式,在波動較小的輸入數據訓練樣本上展現了較好的收斂效果,在波動較大的輸入數據樣本上后者可能會完全不收斂。因此,本文方法具有較好的收斂能力與魯棒性,大幅降低了訓練模型所需的計算量。

通過設置不同的比例在相同動作次數60000次時對比其平均獎勵的大小,如表3 所示??梢娖渥畲螵剟畛霈F在動作學習比例為5時,比例為4、5時的平均獎勵非常接近,但比例為4 時的學習次數較多,所以會花費更多的時間進行學習。因此確定動作與學習的比例為5,即每5 次動作進行1 次學習時,本文算法具有最好的學習效果。

表3 不同動作-學習比例比較Table 3 Comparison of different action-learning ratios

本文提出的預模擬-貪婪動作策略防止了訓練過程中預模擬動作屏蔽Q值最大動作,使Q值最大動作有更多實際驗證的機會,避免了學習過程中對Q值的過高估計,結果顯示預模擬-貪婪動作策略訓練過程收斂趨勢穩定,驗證了本文算法的穩定性與收斂能力。全部采用預模擬動作與保留一定比例貪婪動作策略的損失函數對比見附錄C圖C2。

4 結論

本文利用數據驅動思維,將強化學習方法應用于負荷轉供控制。直接分析電網運行環境信息,從中提取有效信息并構建強化學習模型,通過控制配電網開關進而實現負荷轉供,自適應配電網拓撲變化的不確定性,對于不同故障、故障類型和運行方式的控制策略分析無需調整模型。

本文算法通過改進動作機制提高了決策收益,加快了算法的訓練速度。相對于傳統算法,其具有離線學習、在線應用的特點,將計算量轉移至離線,通過大量的離線學習積累經驗,在配電網發生故障后能夠快速地進行線上計算,在極短時間內為運行人員提供有效的控制策略,減少停電損失并降低運行成本,這對于提高客戶供電滿意度有著重要意義。

附錄見本刊網絡版(http://www.epae.cn)。

猜你喜歡
配電網負荷狀態
人造革合成革拉伸負荷測量不確定度評定
3項標準中維持熱負荷要求對比分析
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
配電網FTU配置優化方法研究
狀態聯想
10千伏配電網線損原因與管理策略探析
關于城市10kV配電網自動化實施的探討
生命的另一種狀態
堅持是成功前的狀態
SGT5-4000F(4)燃氣輪機夏季最大負荷研究及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合