?

基于分層強化學習的電動汽車充電引導方法

2022-10-15 09:05江昌旭蘇慶列
電力自動化設備 2022年10期
關鍵詞:等待時間充電站目的地

詹 華,江昌旭,蘇慶列

(1. 福建船政交通職業學院 汽車學院,福建 福州 350007;2. 福州大學 電氣工程與自動化學院,福建 福州 350108)

0 引言

近年來,在全球能源緊缺和環境惡化的背景下,電動汽車由于其節能、環保等優勢在國內外得到了廣泛推廣[1]。隨著越來越多的電動汽車涌入,原有的充電站規模很有可能無法滿足其充電需求,由此可能會出現嚴重的充電排隊的現象,這不僅浪費駕駛人員單位時間產出率,而且嚴重時可能影響配電網電能質量。如何制定有效的電動汽車充電引導策略(包括電動汽車充電目的地策略和充電路徑策略)以降低電動汽車總充電費用,是未來電動汽車大規模普及的基礎和保障[2-3]。

目前,國內外學者對電動汽車充電引導問題進行了廣泛研究。文獻[4-5]通過排隊論模型建立充電服務定價模型和采用電力系統節點邊際電價最優模型對電動汽車充電電價進行優化,以引導電動汽車前往電價較低的充電站進行充電,實現電動汽車總成本最小化。文獻[6]結合最短路徑算法和排隊論M/G/k 模型,提出了一種考慮下一目的地導向下的電動汽車充電引導模型,并采用粒子群優化算法進行求解。文獻[7]提出了一種考慮交通和電網狀態的電動汽車快速充電引導系統,采用三相最優潮流計算充電站最大可用充電功率,然后電動汽車終端以充電總時間最小為目標對充電引導策略進行優化。然而,以上大部分文獻在構建電動汽車充電引導優化模型時進行了大量假設,同時沒有考慮到各種不確定性因素對充電引導策略的影響。

實際上,電動汽車充電行為涉及交通、充電站等多個主體,包含了大量的不確定性因素,如交通路況的不確定性、充電站排隊時間的不確定性等,造成了電動汽車充電行為具有較強的不確定性。為了更好地處理這些隨機變量,有學者采用強化學習RL(Reinforcement Learning)方法解決電動汽車充電引導問題。該方法屬于一種免模型算法,其通過與環境不斷交互形成一種從狀態到動作的映射,以最大化長期累積回報。由于表格型強化學習缺乏有效的機制對高維狀態進行描述,基于神經網絡的深度強化學習DRL(Deep Reinforcement Learning)算法具有較好的泛化性能,能夠以端到端的方式接近全局最優解,被廣泛應用于各個領域[8-10],如圍棋、自動控制[11-12]、自動駕駛[13]等。文獻[14-15]在考慮充電時間、充電需求、可再生能源間歇性和批發市場電價不確定環境下,采用概率模型和免模型的線性強化學習方法對電動汽車充電電價進行優化,以此引導電動汽車充電。文獻[16-17]提出了一種基于深度Q網絡強化學習DQN(Deep Q Network)的電動汽車充電引導方法,旨在尋找最優充電路徑或充電目的地以最大限度地減少電動汽車的充電總成本。文獻[18]提出一種雙層充電服務定價模型以實現電動汽車充電引導,提出的模型考慮了起訖點交通需求的不確定性,采用基于梯度和無梯度的深度強化學習解決雙層隨機優化問題。然而,以上大部分文獻在制定電動汽車充電引導策略時要么僅對電動汽車充電目的地進行優化,并采用最短路徑算法(如Dijkstra[19]、Floyd算法)生成充電路徑;要么在充電目的已知前提下對充電路徑進行優化;沒有同時考慮到電動汽車充電目的地優化以及充電路徑規劃,導致優化得到的結果可能并不是最優的策略,從而影響最終的尋優效果。

針對以上問題,本文提出了一種基于分層增強深度Q 網絡強化學習HEDQN(Hierarchical Enhanced Deep Q Network)的電動汽車充電引導方法,以制定最優的電動汽車充電引導策略,實現最小化電動汽車充電總費用。所提出的HEDQN 方法采用基于Huber損失函數的雙競爭型深度Q網絡算法,并包含2 層增強深度Q 網絡eDQN(enhanced DQN)算法,分別對電動汽車充電引導目的地和充電路徑進行優化決策,以此通過目標的分解來實現更高的求解效率和得到更優的充電引導策略方案。最后,采用某城市實際的交通網絡數據進行算例分析,并與現有的其他方法結果進行對比,以驗證所提方法的有效性和適應性。

1 電動汽車充電引導數學模型

電動汽車充電引導行為涉及交通、電力、充電站、電動汽車等多個主體,包含了大量的不確定性因素,如電動汽車初始荷電狀態SOC(State Of Charge)的不確定性、交通路況的不確定性、充電排隊時間的不確定性等,這些不確定因素造成電動汽車充電行為具有較強的不確定性。當電動汽車需要進行充電時,電動汽車用戶首先根據當前車輛狀況、交通系統和充電站狀態選定某個目標充電站進行充電,然后在此基礎上確定一條最優的行駛路線,使得電動汽車盡快到達充電目的地,同時期望充電的花費盡可能小。因此,可以將以上電動汽車充電引導問題構建為雙層隨機優化模型,其數學模型為:

以上數學模型包含了電動汽車充電決策時的剩余電量、行駛速度、充電等待時間等多重隨機變量。因此,式(1)—(9)構建的模型為雙層隨機優化模型。上層模型(式(1))為充電引導目的地優化模型,即最小化電動汽車充電費用和前往充電站的旅途費用,其目的是在考慮電動汽車初始SOC、電動汽車行駛速度和電動汽車充電等待時間多重不確定因素下決策出最優的充電目的地,以降低電動汽車總充電費用;下層模型(式(2))為電動汽車充電路徑優化模型,其目的是在充電目的地確定的情況下,電動汽車用戶根據當前車輛的狀態和交通系統狀況選擇最優的充電路徑前往充電目的地,以降低電動汽車旅途費用;式(3)表示電動汽車充電費用,由在充電站k充電的電量費用(見式(4))和充電等待時間的費用組成;式(5)表示電動汽車剩余電量變化情況;式(6)表示電動汽車旅途費用,由在道路l上消耗電量的費用(見式(7))和通過道路l所需要的時間費用(見式(8))組成。

2 基于分層強化學習的電動汽車充電引導系統

本文涉及的電動汽車充電引導策略不僅包括電動汽車充電目的地策略,還包括前往充電目的地的充電路徑策略,并且這些動作決策變量都是離散型的。為了更加準確、高效地求解以上雙層隨機優化問題,本文提出了一種基于分層強化學習的電動汽車充電引導策略方法。

2.1 馬爾可夫決策過程

本文構建的電動汽車充電引導模型實際上是一個雙層隨機優化模型,為了更好地利用分層強化學習方法進行求解,首先需要將該問題轉換為一個未知轉移概率的馬爾可夫決策過程MDP(Markov De-

2.2 基于HEDQN的電動汽車充電引導系統架構

2.2.1 HEDQN算法基本架構

2.2.2 基于HEDQN的電動汽車充電引導方法

本文涉及的電動汽車充電引導問題可以分為充電目的地和充電路徑雙層隨機優化問題。不同的任務涉及的主體和目標都不一樣,若采用傳統單層強化學習,則其狀態、行為空間將急劇增加,不僅會影響到強化學習的效率,還會對最優策略的獲取造成影響。此外,考慮多種不確定性因素的雙層隨機優化決策問題本身比較適合使用分層強化學習進行解決。因此,本文提出了HEDQN 算法對電動汽車的充電目的地和充電路徑進行決策,以此獲得電動汽車充電引導策略,從而達到降低充電費用和旅途費用目的。下層eDQN 的目標為最大化其內部收益,即:

式中:s′和a′分別為下一狀態及其動作行為;yt表示使用目標網絡得到目標Q值;θ~為目標網絡的參數,每經過一定的迭代次數,該值根據當前網絡的參數θt進行更新。

本文eDQN 算法主要對式(18)—(21)進行了以下三方面的改進。

1)eDQN改進策略1:深度雙Q網絡。

傳統DQN 算法在計算目標網絡Q值時使用式(21),每次都選取下一個狀態中最大的Q值所對應的動作,即選擇和評估動作都是基于目標網絡的參數θ~,這會引起強化學習算法在學習過程中出現過高估計Q值的問題。對此,本文采用深度雙Q 網絡[8]中的策略,即采用當前網絡θt來選擇下一狀態的最優動作,然后用目標網絡θ~來評估動作的Q值,即充分利用DQN的2個神經網絡將動作選擇和策略評估分離開,以降低過高估計Q值的風險。因此,在計算損失函數時,目標網絡Q值式(21)可以修改為:

2)eDQN改進策略2:競爭DQN。

原DQN 中,深度神經網絡提取的特性直接通過輸出層輸出相應動作的Q值。為了更準確地評估在某一狀態和行為下的Q值,同時加快收斂速度,本文采用競爭DQN[9]對狀態和動作進行分層學習。該策略將經過深度神經網絡提取的特征分流到全連接層中的2 條支路中:一條支路表示標量狀態值函數V(s),另外一條支路表示在狀態s下的動作優勢值函數A(s,a)。

式中:ψt為V(s)所在支路的神經網絡參數;?t為A(s,a)所在支路的神經網絡參數。

3)eDQN改進策略3:Huber損失函數。

盡管MSE 構造的損失函數隨著誤差的減少,其梯度呈線性遞減,該性質有利于算法收斂,但是當誤差大于1 時,誤差平方將會急劇增大,從而使得模型偏向于懲罰誤差較大的點,即將賦予離群點更高的權重,導致犧牲其他正常點的預測效果,從而使模型的整體性能下降。在平均絕對誤差MAE(Mean Absolute Error)大于1 時,其懲罰力度保持不變,但是在誤差等于0 點處不可導,從而導致求解比較困難。同時,MAE 的梯度恒為1,即使對較小的損失值其梯度也不變,因此不利于算法的學習和收斂。為了改善這種狀況,本文采用結合MSE和MAE 兩者優勢的Huber 損失函數,它能夠減少離群點敏感度,同時實現處處可導,該損失函數為:

式中:δ為Huber損失函數參數,該值決定了Huber損失函數對MSE和MAE的偏重程度。

2.3 算法流程

3 案例分析

3.1 環境及參數設置

本文選取某市交通地圖,其包含39 個節點、67條線路和3 座電動汽車快充電站,如附錄B 圖B1 所示。根據市政部門城市道路規劃以及交通部門車輛監測可以得到各線路的平均行駛速度。電動汽車行駛時,假設其速度服從截斷正態分布,其最大值為對應路段的最大行駛速度[16]。

電動汽車電池容量為64 kW·h,每千米耗電量α為0.21 kW·h/km。由于5 號和32 號充電站離中心區位置稍遠,該充電站的電價參考某市公布的峰谷平電價分時電價,如表1所示。同時,由于22號充電站靠近中心區,其車流量較大,為了降低大量電動汽車同時涌入22 號充電站進行充電進一步增加充電等待時間概率,將22 號充電站的電價在傳統峰谷平分時電價基礎上增加0.3元/(kW·h)。由于本文主要的關注點在于電動汽車用戶如何根據當前觀測狀態作出最優充電目的地和充電路徑決策,因此本文借鑒文獻[3,16]將5號和32號充電站的充電等待時間設置為正態分布。同時,由于22 號充電站靠近中心區,其車流量較大,充電等待時間也長于5號和32號充電站,因此在原有的充電等待時間分布基礎上其均值增加20 min。另外,根據全國平均工資,可以得到單位時間價值為8.790 3 元/h[20]。本文設置充電次數M=3,仿真開始時電動汽車隨機分布在地圖節點上,假設初始SOC 服從均勻分布U(0.4,0.6)。此外,HEDQN 的參數設置如附錄B 表B1 所示[10,12]。值得注意的是,這些參數僅在初始化時進行設置,之后不會隨著環境的變化而改變。

表1 電動汽車充電站電價和充電等待時間分布Table 1 EV charging price and distribution of charging waiting time

3.2 學習速率α參數確定

深度強化學習算法涉及較多超參數,如學習速率α、折扣因子γ、批大小等。其中,本研究中的α對HEDQN 效果有較大的影響。α越大,權重更新的幅度越大。若α過大,則有可能在梯度下降過程中直接跳過最低點,導致網絡收斂到局部最優點,甚至有可能使訓練變得發散。為了能夠有效確定HEDQN算法的最優學習速率,本文在不同的α下分別對電動汽車充電引導獎勵函數、HEDQN 損失函數值和電動汽車充電引導各項指標進行比較分析。

不同α下基于HEDQN 算法的電動汽車充電引導性能比較如圖1 所示。從圖1(a)可以得出,在訓練前1500輪迭代,即在訓練開始階段電動汽車充電引導獎勵函數值經歷了較大的波動,且其獎勵函數遠低于收斂時的平均值。這主要有2 個原因:一是由于在開始階段充電路徑和充電目的地決策采用隨機搜索,以快速地進行不同充電路徑和充電目的地的嘗試,以便找到較優的充電引導策略;二是由于在訓練前期處于探索階段,神經網絡的權重參數并未達到最優,導致其得到的策略有較大的波動。當α=10-2時,由于學習速率設置過大,其在經過30 000 輪迭代后算法逐漸開始發散;當α=10-3或10-4時,同樣由于學習速率設置過大,導致算法在經過1500輪迭代后,電動汽車充電引導獎勵函數從-94 逐漸下降到-104,最終收斂到一個局部最優點,如圖1(a)所示;當α=10-5時,經過6 000 輪迭代后強化學習算法的獎勵函數快速收斂,其獎勵函數值基本趨于平穩,此時其損失函數值波動范圍也較小,見圖1(b)、(c)。

圖1 不同學習速率下基于HEDQN算法的電動汽車充電引導性能比較Fig.1 Performance comparison of EV charging navigation based on HEDQN algorithm under different learning rates

為了更加直觀地比較不同α對電動汽車充電引導策略的影響,表2 給出了電動汽車充電引導各項指標。從表中可知,當α=10-5時,最終的單次充電平均費用最低,為31.77 元。因此,本文的學習速率最終確定為α=10-5。

表2 不同學習速率下電動汽車充電引導各指標對比Table 2 Comparison of various indicators of EV charging navigation under different learning rates

3.3 電動汽車決策性能分析

1)同一充電站中電動汽車決策地點統計結果對比分析。

為了驗證所提基于HEDQN 的電動汽車充電引導方法的有效性,本文對最后1000輪迭代的結果與基于Dijkstra 最短路徑的就近推薦DIS(DIStance)算法的結果進行比較和分析。圖2 展示了基于就近推薦DIS 算法和基于HEDQN 的電動汽車充電引導方法對5 號充電站中電動汽車在不同地點決策比例的統計結果(為了節省篇幅,選擇5 號充電站進行詳細分析)。從圖2中可知,當采用就近推薦DIS算法時,電動汽車選擇5 號充電站的地點絕大部分位于地圖的左上方(如附錄B 圖B1 所示),即位于5 號充電站附近。另外,由于11、12號節點距離5號充電站的路程相比22 號充電站更遠,因此基于就近推薦DIS 算法會直接選擇22 號充電站進行充電。相比于就近推薦DIS 算法,基于HEDQN 的電動汽車充電引導方法選擇5 號充電站進行充電的地點更多,其新增了11、12、16、19、20 等多個地點。盡管這些位置相比其他充電站位置更遠,所需的旅途費用(充電路上消耗的電量費用和時間費用之和)也會略微增加,但是決策時刻其總的充電費用(充電時電費和充電等待時間費用之和)會更低。例如,當電動汽車在11 號節點采用就近推薦DIS算法前往22號充電站充電時其平均旅途費用僅為7.433元,單次平均充電費用為48.932元,而采用基于HEDQN 的電動汽車充電引導方法其前往5 號充電站平均旅途費用9.756 元,但是單次平均充電費用僅需37.142元,減少了24.09%。

圖2 不同算法下5號充電站中電動汽車在不同地點決策比例分析Fig.2 Ratio of EV charging decision in different locations at charging station No.5 under different algorithms

2)電動汽車在不同位置選擇各充電目的地比例。

電動汽車在不同地點時選擇各充電站的比例如附錄B 圖B2 所示。從圖中可知,電動汽車在絕大多數節點上其充電策略保持不變,這些節點大部分都距離某個充電站位置較近或處于外環上面。如:4、6、7號節點和23號節點分別距離5號充電站和22號充電站距離最近,其選擇5 號和22 號充電站的概率接近于1。電動汽車在其他節點上需要根據當前的狀態,比如充電時刻、充電決策時的剩余電量、充電電價、等待時間等情況進行進一步決策,以最小化充電的總費用(包括旅途費用和充電費用)。如:當電動汽車的充電決策時間接近高峰電價時(如18:30),電動汽車位于29 號和30 號節點時,其距離22 號充電站較近,為了避免去更遠的32 號充電站充電而導致電動汽車在高峰電價時充電,此時HEDQN 算法將給出在22 號充電站進行充電的策略,以減少旅途費用(包括旅途的電量費用和時間費用)。在其他時間點,電動汽車將盡量避開22 號充電站進行充電,因為該充電站的電價較高,并且等待時間較長。

3)不同算法下電動汽車充電引導各項指標比較。

本文將所提出的基于HEDQN 的電動汽車充電引導方法與就近推薦DIS算法[19]、單層DQN算法[16-17]和傳統的分層深度Q 網絡hDQN(hierarchical Deep Q Network)算法[10]在電動汽車充電引導各項指標進行比較,以進一步驗證電動汽車充電引導在充電路徑和充電目的地上決策的有效性和正確性。

圖3 為不同算法下電動汽車充電引導獎勵函數曲線。從圖中可知,3 種強化學習算法都能快速地通過調整神經網絡權重對電動汽車充電引導策略進行學習,在經歷過短暫的學習后達到收斂狀態。相比于單層DQN 算法和傳統hDQN 算法,所提HEDQN算法通過對Q值估計、神經網絡結構和損失函數改進能夠有效地提升算法的搜索效率,能夠獲得更高的獎勵函數,從而得到更優的充電引導策略。

圖3 不同算法下電動汽車充電引導獎勵函數Fig.3 Reward of EV charging navigation under different algorithms

為了定量描述不同算法下電動汽車充電引導效果,本文采用最后1000輪迭代的單次充電平均決策次數、平均行駛距離、平均等待時間和平均費用等指標對不同算法進行比較分析,對比結果如表3 所示。從表中可知,就近推薦DIS 算法的單次充電平均決策步數和平均行駛距離均最小,但是由于其只依據最短距離來選擇充電目的地和充電路徑,而忽略了充電道路行駛速度、充電站電價等因素,從而導致其平均等待時間過長,造成其單次充電平均費用相比于其他算法都高。傳統hDQN 算法將電動汽車充電引導問題劃分為2 個子問題求解,降低了問題的求解規模,有助于加快計算的求解速度和提升算法的策略搜索能力,因此其單次充電平均費用優于單層DQN 算法和就近推薦DIS 算法。與此同時,所提基于HEDQN 的電動汽車充電引導方法的單次充電平均行駛距離為14.80 km、平均費用為31.77 元,與就近推薦DIS 算法相比,盡管其充電平均行駛距離增加了約20%,但是其平均的充電費用減少了約10%。因此,從以上的分析結果表明了本文所提基于HEDQN 的電動汽車充電引導方法能夠在多重不確性因素獲得更優的充電引導策略,從而驗證了所提方法的有效性。

表3 不同算法下電動汽車充電引導各指標對比Table 3 Comparison of various indicators of EV charging navigation under different algorithms

3.4 基于HEDQN 的電動汽車充電引導環境適應性分析

為了驗證本文所提算法的適應性能,現假設22號充電站和32號充電站的電價調換,即設定32號充電站的價格最高。圖4 為基于HEDQN 算法在環境發生變換后的電動汽車充電目的地決策損失函數和充電路徑決策損失函數值。

圖4 環境發生變化后基于HEDQN算法的電動汽車充電引導損失函數Fig.4 Loss of EV charging navigation based on HEDQN algorithm after simulation environment changes

當環境發生變化后,HEDQN 算法在已有經驗的基礎上繼續學習,從而保證電動汽車充電引導策略的最優性。從圖4 中可知,HEDQN 算法在環境發生變化后其損失函數值突增,然后隨著算法迭代的進行,只需要經過5 000 步仿真基本收斂,其相比于3.2節隨機權重初始的收斂速度提升了10 倍以上,由此驗證了本文所提算法的自適應能力。

當環境發生變化后電動汽車在不同地點時選擇各充電站的比例如附錄B 圖B3 所示。通過對比圖B2、B3 可知,較多的電動汽車從32 號充電站改換到22 號充電站進行充電。具體地,電動汽車在不同位置選擇32 號充電站進行充電的比例從49.20%下降到10.50%;而電動汽車在不同位置選擇22 號充電站進行充電的比例從9.20%上升到46.95%。

4 結論

本文提出了一種基于HEDQN 的電動汽車充電引導方法,有效地解決了多種隨機因素下的電動汽車充電目的地和充電路徑決策問題。與已有就近推薦DIS 算法、單層DQN 算法和傳統hDQN 算法相比,所提HEDQN算法具有以下優勢:

1)所提HEDQN 算法相比單層DQN 算法和傳統hDQN算法具有更快的收斂性能;

2)所提HEDQN 算法通過對Q值估計、神經網絡結構和損失函數改進能夠有效地提升算法的搜索效率,獲得更高的獎勵函數,從而得到更優的充電引導策略,有效降低電動汽車總充電費用;

3)當環境發生變化后所提HEDQN 算法僅經歷5 000 步仿真即可收斂,并且相比隨機權重初始的收斂速度提升了10 倍以上,由此表明HEDQN 算法具有較強的適應性。

因此,本文所提基于HEDQN 的電動汽車充電引導方法能夠充分考慮電動汽車行駛速度和充電等待時間的隨機性,在不同的時間、交通和電力系統環境狀態下能夠決策出較優的電動汽車充電目的地和行駛路徑。在未來的研究中,將會考慮加入電網的詳細模型,以此考慮電力-交通耦合系統更加復雜的交互影響機理。

附錄見本刊網絡版(http://www.epae.cn)。

猜你喜歡
等待時間充電站目的地
計及需求敏感性的電動私家車充電站規劃
戀愛中的城市
迷宮彎彎繞
“首充”
你承受不起讓每個客戶都滿意
動物可笑堂
為什么特斯拉宣布不再完全免費提供超級充電樁服務?
顧客等待心理的十條原則
顧客等待心理的十條原則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合