?

基于逆強化學習的混合動力汽車能量管理策略研究*

2023-11-09 03:56齊春陽宋傳學宋世欣靳立強
汽車工程 2023年10期
關鍵詞:逆向管理策略轉矩

齊春陽,宋傳學,宋世欣,靳立強,王 達,肖 峰

(1.吉林大學,汽車仿真與控制國家重點實驗室,長春 130022;2.吉林大學汽車工程學院,長春 130022;3.吉林大學機械與航空航天工程學院,長春 130022)

前言

混合動力汽車的主要目標是提高動力系統的效率和降低燃料消耗。在給定動力系統配置的情況下,影響混合動力汽車油耗的最重要因素是發動機和電氣系統之間的功率分配比。能量管理策略(energy management strategy,EMS)是混合動力汽車的關鍵技術之一,需要在滿足電力需求的約束下協調發動機和電氣系統之間的功率分配。對于同一車型,同一行駛周期,不同能量管理策略對應的油耗相差20%[1]。因此,研究混合動力汽車的能量管理策略具有重要意義。在混合動力汽車能量管理策略的研究過程中,研究者將大部分的控制策略主要分為3 類:(1)基于規則;(2)基于優化;(3)基于學習。其中,基于規則又可以分為確定性規則和模糊性規則;基于優化可以分為全局優化和瞬時優化?;谝巹t的能量管理策略需要制定控制規則來確定不同驅動模式下的能源分布情況[2]?;谝巹t的方法優點在于,規則制度很容易開發,并且可以應用在實施控制系統中。但是規則的開發非常需要經驗豐富的專家工程師的知識。與基于規則的能量管理策略相比,全局優化算法調整的參數優于確定性規則。近幾年,基于學習的方法越來越受到研究者們的關注。其中,強化學習方法能夠解決與實時優化方法相關的任務得到了大家的青睞。強化學習智能體根據累計的獎勵能夠在不同狀態下采取適應的行動。重慶理工大學的龐玉涵[3]提出了一種分層機構的強化學習方法,為能量管理策略提供了新思路。北京理工大學的劉騰[4]從強化學習算法出發,探索了以強化學習為基礎的能量管理策略在最優性、自適應性和學習能力下的優化,并將強化學習算法深入到實時優化過程中,為實時性的強化學習算法提供了思路。重慶大學的唐小林等[5]提出一種基于深度值網絡算法的能量管理策略,實現深度強化學習對發動機與機械式無級變速器的多目標協同控制。Li 等[6]提出了一種利用優先級經驗重放機制改進DQN(deep Qnetwork)模型。Chaoui 等[7]提出了一種基于強化學習的方法,用于平衡具有多個電池的電動汽車電池的荷電狀態,該方法可以延長電池壽命并減少電池的頻繁維護。

另外,強化學習狀態之間有很強的相關性,會不同程度影響學習效果。Liu 等[8]將基于 GPS 得到的行程信息與強化學習算法結合,在狀態變量中加入剩余行駛里程,仿真結果顯示取得了良好的優化效果。Liu 等[9]提出一種應用數據來驅動的算法,并且成功用于能量管理策略中,實現了良好的節油性能。在基于強化學習的能量管理策略中,強化學習獎勵函數設定的問題經常會被忽略。獎勵函數通常是主觀的和經驗的,它不容易客觀地描述專家的意圖,也不能保證給定的獎勵函數會導致最優的駕駛策略。在混合動力能量管理控制策略問題中,獎勵函數的不同直接會導致訓練方向的改變。直觀地說,電池與發動機的參數決定訓練的方向是發動機最優油耗還是電池的最優狀態,獎勵函數的設定摻雜了過多的人為因素。深度強化學習是智能體與環境的不斷交互學習的結果,通過不斷交互、不斷更新策略來最大化累計獎勵值。獎勵值作為智能體更新策略的關鍵,設計獎勵值時更需要具有客觀理論依據,獎勵函數的設計關乎到整個訓練網絡的方向。針對以上問題,本文提出了一種逆強化學習方法,通過反向推導權重參數并校準正向強化學習算法來優化能量管理。逆強化學習算法的目標是構造一個關于狀態的獎勵函數的特征向量,并通過收集合理的專家呈現軌跡來學習最優獎勵函數的權重向量。這種方法能夠描述專家策略,克服經驗設計的隨機性質。

1 混合動力汽車系統方案

混合動力汽車的結構可以理解為能量通路與控制端口之間的連接關系,它也是一個較為復雜的系統,而且具有很強的非線性特性?;旌蟿恿ζ嚨南到y具有多變性,它是將多個非線性系統耦合而成的,建立非常精確的數學模型是極其困難的,所以更加需要統一的建模方法。在混合動力汽車構型研發中,較為基本的方法是基于模型的方法。本文中針對某款混聯混合動力汽車展開研究,車型的結構如圖1 所示。行星齒輪機構與驅動電機平行布置,行星齒輪機構行星架通過減振器連接至發動機端,太陽輪連接到發電機MG1,齒圈通過齒輪連接到MG2和輸出軸。此外,發動機與減振器之間有一個單向離合器,即便發動機反轉時也能及時自鎖。當進行能量管理的模擬仿真時,需要依托仿真軟件構建整車的動力學模型,還需要從整車各個部件的建模入手分別建模,主要包括電機模型、發動機模型、電池模型、變速器模型、車輪模型、駕駛員模型等,相關部件的基本參數如表1所示。

表1 本文研究對象參數

圖1 本文車輛研究對象

2 逆向強化學習方法獎勵函數參數匹配

2.1 基于強化學習方法的管理策略參數分析

在很多基于強化學習的能量管理策略當中,獎勵函數的優化準則為在SOC 值變化范圍相同下,燃油消耗盡可能的低,盡可能延長電池壽命,發動機工作在最優燃油區間。對于強化學習獎勵函數還存在實驗性的調參,獎勵函數的構造通常具備主觀經驗性,不容易客觀地描述專家意圖,從而不能保證在給定獎勵函數下智能體能學習出最優的駕駛策略。以下,列舉了很多優秀的強化學習能量管理策略方法中獎勵函數的設定[10-23]。

式中:r表示各個文獻中的獎 勵函數符號;為在不同的文獻中所表示的燃油消耗率;ΔSOC表示電池SOC變化范圍;α表示發動機燃油消耗的權重參數;β和ε表示獎勵函數中電池的權重參數;fuel(t)表示t時刻的燃油消耗量;SOC(t)表示t時刻的SOC值;elec(t)表示t時刻的電能消耗量;SOCref表示電池初始SOC值;表示時刻τ時SOC值變化的平方;SOCmin表示最低的SOC值要求;SOCmax表示最高的SOC值要求。

一個合理的獎勵函數不僅可以加速訓練過程,同時可以使得策略優化的過程更加穩定。從上述的獎勵函數表達式可以明確雖然能量管理強化學習方法的優化方式不同,但是基本符合以下表達式:

式中參數α與β是維持燃油消耗率與SOC 維持關系的線性權重。指定這樣的加權函數優點在于能夠直接使用具有標準化的強化學習算法,但是這也直接導致了在訓練開始之前就需要確定權重,這對于能量管理問題是極其困難的。一方面,獎勵函數需要偏重于SOC維持基本功能,經常會表現的較為保守,不能充分利用電池緩沖。另一方面,受限于目標任務,多目標任務的不同參數也無法確定。另外,在這些研究中,發動機和電池之間權衡的主觀因素是不可避免的。強化學習是尋求累積獎勵期望最大化的最優策略,而這種獎勵方程的設置通常是人為或環境提供的?;旌蟿恿ζ嚟h境下的強化學習任務過于復雜,而人為設計的獎勵函數過于困難,且具有較高的主觀性和實效性。獎勵函數設置的不同導致了最優策略的不同。如果沒有適當的獎勵,強化學習算法很難收斂。接下來,詳細闡述本文提出的逆向強化學習參數確定方法。

2.2 逆向強化學習能量管理策略任務

一般來說,在正向強化學習中,以發動機最佳工作點與電池最佳SOC變化之間的差異為優化目標來訓練網絡。相反,本章提出一種逆向強化學習的方法,探索其最優的參數匹配。與正向強化學習不同,在逆向強化學習中,需要利用發動機和電池的最佳狀態來推導權重系數。首先將車輛作為強化學習環境,輸入為從原始的行駛循環變為發動機最優工作點和電池最優工作狀態。隨后,將電池和發動機作為強化學習的兩個智能體,通過反向強化學習得到兩個智能體的權系數來指導智能體的行為。在本文當中,正向強化學習是作為逆向強化學習的一個驗證過程。所以正向強化學習與逆向強化學習的狀態空間與動作空間保持一致,這樣正向強化學習更容易驗證本文的算法。狀態空間與動作空間如下:

其中,狀態空間S由發動機轉矩T、發動機轉速n和電池SOC值組成,強化學習的動作值A由發動機需求功率Pre確定。

在本文中,逆向強化學習與正向強化學習的獎勵函數都應符合如下公式:

其中,Enginerweight與Batteryreweight就是本文利用逆向強化學習方法客觀的確定其權重系數。

本文逆向強化學習的流程主要分為如下4 個部分:第1 部分表示發動機和電池的最佳狀態,對于發動機而言是最佳工作點,對于電池而言是保持電池SOC 值的合理穩定,最大化電池壽命,并輸入到第2部分中循環訓練得到參數權重系數;第2 部分是逆向強化學習的算法框架,定義最大熵逆向強化學習;第3 部分表示強化學習環境,將參數輸入到環境中;第4 部分是強化學習DQN 算法。第1、2 部分結構如圖2(a)所示,圖2(b)顯示的是第3、4 部分的具體構成。

綜上,該算法的具體流程如下:基于專家軌跡和強化學習基礎,確定獎勵函數為狀態和動作的函數。然后,將新的權重系數輸入到獎勵函數中,輸出到第3 部分進行正向強化學習。在該逆向強化學習算法中,將發動機和電池視作多智能體結構,以最佳狀態輸入到強化學習網絡中。合理的獎勵函數可以加快訓練,獲得更加穩定的策略優化進程,能量管理策略也會趨向于更穩定的方向訓練。在逆向強化學習中,可以把獎勵函數看做是狀態值與權重系數相乘的結果,表達式如下:

式中:i表示分量數;r(si,ai)表示(si,ai)狀態動作的獎勵值;fi表示獎勵函數第i個特征分量;θi表示獎勵函數權重向量第i個特征分量;d表示獎勵函數中特征向量的個數,在本研究中,采用雙智能體強化學習結構,電池和發動機雙代理,所以d取值為2。

在強化學習能量管理策略中,專家策略很難用表達式表達。從發動機出發,專家策略是使得發動機在最佳工作點附近工作;從電池出發,專家策略是使得電池SOC變化在合理的范圍之內。所以本節通過逆向強化學習的方式探索電池與發動機之間的權重系數。逆向強化學習的方法為最大熵逆向強化學習。強化學習在面對環境中隨機因素時,雙智能體會產生不同的專家軌跡。首先,定義一個最佳能量管理控制策略的軌跡ξ:

這條軌跡的獎勵函數記為r(ξ):

在面對能量管理策略任務時,環境是具有不確定性的隨機因素,所以肯定會存在多條專家軌跡,記為m,專家的特征期望為

在最大熵理論當中,具備最大熵分布的模型是最優模型,對于能量管理控制策略的問題,在已知發動機最優工作點和電池最優SOC變化范圍的情況下,利用最大熵模型就可以得到獎勵函數的參數值。最大熵優化問題可以表示為

式中p(ξi|θ)表示在參數θ下,發生軌跡ξi的概率。最大熵逆強化學習的軌跡概率可以表示為

在最大熵逆向強化學習中,混合動力能量管理的專家軌跡出現的概率越大,說明訓練學習到的獎勵函數越能反映出混合動力汽車能量管理任務隱含的分布。初始化的優化目標為最大化專家軌跡的概率分布:

式中fueldemo為專家演示軌跡,也是混合動力汽車最佳發動機工作點,通常將原始優化問題轉化為最小化問題。優化目標變為最小化損失函數J(θ)。

其中,優化目標為

式中:rθ(si,ai)表示當前狀態動作的獎勵值;π(aj|sj)表示當前狀態動作對(si,ai)出現的概率。

由于匹配的函數采用的是能量管理策略抽樣軌跡擬合,因此可以用梯度法得到全局最優解。關于優化函數J(θ),用獎勵函數的權重θr求導:

最終,依據上式可以學習到獎勵函數的全局最優解。根據優化后的θr參數,可以推導出當前的獎勵函數rθ(si,ai),并將求解得到的獎勵函數作為前向強化學習的優化目標,更新當前策略,直到獎勵函數更新小于給定的閾值。用最大熵逆強化學習獲得獎勵函數權重的偽代碼如表2所示。

3 逆向強化學習參數確定結果分析

3.1 逆向強化學習獎勵函數權重確定

在圖3 中,藍線表示最佳發動機運行曲線。在求解獎勵值權重的過程中,考慮到數據量過大,占用了較高的計算成本,所以將發動機map 圖劃分為528 個區域,每個區域由一個10×10 矩陣組成。到達每個矩陣內的工作點的獎勵值的權重作為該矩陣的權重值。如果存在多個工作點,則計算各工作點權值的平均值作為矩陣的獎勵權值。由于其他區域的獎勵值并不高,因而將獎勵值的權重分別標記在藍色最優曲線上。通過逆強化學習算法得到了發動機油耗的加權系數。圖4顯示了電池SOC變化時電池內阻和電動勢的變化。從圖4 中可以看出:電池SOC 在0.2-0.8之間工作,可獲得穩定的電動勢;電池內阻在0.3-0.7 范圍內較低,這個范圍的效率較高,即SOC在0.3-0.7 范圍內設置為電池的最佳狀態。經過正則化后得到的權系數如圖5 所示。權重系數結果如式(31)所示。

圖5 正則化后的加權系數

從圖5可以看出:在R1-R16區間(R1-R16區間具體對應轉速參見圖3)內,發動機轉速n為1 000 r/min,發動機代理的加權系數為0.45,電池代理的加權系數為0.55;在其他區間中,發動機代理的加權系數為0.6,電池代理的加權系數為0.4。

式中:Enginerweight代表發動機代理的加權系數;Batteryreweight代表電池代理的加權系數。

3.2 正向強化學習

利用上節中得到的獎勵函數參數值,本節從油耗值、SOC 變化值以及動力源轉矩變化3 種典型特征驗證該權重值的優越性。將車輛的初始狀態設置為:油箱處于最大儲油容量的狀態和初始SOC 值為0.65。本文的訓練工況 是CLTC,IM240、FTP75、WVUINTER 和JN1015。圖6 顯示了新建的行駛工況,并將其作為本文的測試工況,表3 顯示了在終值SOC大致相同的情況下,5個典型駕駛周期和新建工況中強化學習算法和具有更新的權重系數的強化學習算法之間的比較。其中對比值表示逆向強化學習算法對應強化學習基礎算法的油耗值減少率。

圖6 新建工況圖

為了更加直觀地顯示燃油消耗,圖7顯示出5種典型工況的發動機油耗直方圖,并且使用逆向強化學習權重值作為訓練方向,從結果看出油耗明顯低于其他兩種算法。Q 學習(Q-learning)算法是提出時間很早的一種異策略的時序差分學習方法;DQN則是利用神經網絡對 Q-learning 中的值函數進行近似,并針對實際問題作出改進的方法;而DDPG(deep deterministic policy gradient)則可以視為DQN(deep Q-network)對連續型動作預測的一個擴展。DQN 與DDPG 都是強化學習的經典算法,本文以這兩個算法為基準進行對比。DQN-IRL(deep Qnetwork-inverse reinforcement learning)表示擁有逆向參數的DQN 算法,DDPG-IRL(deep deterministic policy gradient-inverse reinforcement learning)表示擁有逆向參數的DDPG算法。

圖7 發動機油耗直方圖

圖8 顯示了5 種訓練工況的獎勵值變化,工況1到工況5 分別是CLTC、IM240、FTP75、WVUINTER、JN1015。從圖中可以看出各個算法都朝著最大獎勵值的方向穩步推進,最終達到平滑。另外,圖9 揭示了在測試工況下,DQN、DQN-IRL、DDPG、DDPGIRL的SOC值變化曲線,可以看出所有4種算法都處于較低的內阻和較高的電池效率區間,從而也證實了強化學習算法在解決能量管理問題方面的優越性。虛線代表IRL 算法,與另外兩種經典算法對比,SOC值的波動較小,在同等使用時間下,電池的使用壽命會更長。

圖8 獎勵價值趨勢圖

圖9 4種算法的SOC變化曲線

圖10 和圖11 分別顯示了以DQN 算法為例擁有逆向參數前后的發動機轉矩、MG1 轉矩、MG2 轉矩變化,可見添加逆向強化學習參數后,發動機起停次數減少,MG1與MG2轉矩變化平穩。

圖10 DQN算法發動機轉矩、MG1轉矩、MG2轉矩對比

圖11 DDPG算法下發動機轉矩、MG1轉矩、MG2轉矩對比

4 硬件在環實驗驗證

4.1 硬件在環實驗臺搭建

為了評估本文所提出的能量管理策略的實際應用潛力,實施并分析了硬件在環實驗。如圖12 所示,實驗系統由混合動力模型、駕駛員操作系統、虛擬場景系統、傳感器系統、ubuntu RT 系統和車輛控制單元組成。虛擬場景系統為駕駛員提供了真實的駕駛環境,使其接近真實的駕駛體驗,還可以通過數據交互為駕駛員提供豐富的交通環境信息、道路信息和地理位置信息,以支持交通能量管理策略的研究和測試。在虛擬場景系統中,道路信息和地理位置信息是非常重要的。通過這些信息,駕駛員可以了解自己當前所處的位置和行駛方向,以及周圍的道路狀況、車流量等信息。此外,交通環境信息也非常重要,例如交通信號燈、車輛速度、行駛方向等信息,這些信息可以為駕駛員提供實時的交通情況,幫助其做出正確的駕駛決策。數據交互也是虛擬場景系統的一個重要特點。通過數據交互,虛擬場景系統可以與其他系統進行信息交換,例如車輛控制系統、交通信號控制系統等,以實現交通能量管理策略的研究和測試。同時,數據交互還可以支持多車協同駕駛和交通模擬等功能,增強虛擬場景系統的實用性和可擴展性。車輛控制系統的主要作用是實施所提出的策略并將控制參數輸出到執行。駕駛員的操作信息全部反饋給轉向系統,而車速狀態信息和機電系統的狀態由實時仿真系統提供。

圖12 硬件在環實驗系統構成

集成系統如圖13 所示。本文的硬件在環平臺是課題組自研的硬件設備,其中,下位機是ubuntu RT 系統,上位機是自研的場景系統。ubuntu RT 系統采用的是amd Ryzen5 處理器,6700XT顯卡。在圖13 中,將數據檢測系統與駕駛員操作系統相結合,駕駛員操作系統顯示在駕駛員下方?;诂F有配置和技術條件,利用CAN 通信技術實現數據交互,實時獲取轉向盤角度、加速度和制動踏板數據。然后將數據輸入車輛控制單元(VCU)。

圖13 集成系統和駕駛員操作系統

4.2 硬件在環數據結果分析

為了進一步驗證本文逆向強化學習能量管理策略,本節在4.1 節構建的硬件在環設備基礎之上進行驗證實驗。圖14 表示在該硬件在環設備上運行的一段實際工況,表4 顯示了原始的DQN/DDPG 算法與本文算法在HIL 硬件在環測試下的油耗對比結果,在初始SOC值與終止SOC值變化大致的前提下,可以看出具有本文權重值的強化學習算法油耗值較低。

表4 仿真數據與HIL數據在燃油消耗方面的對比

圖14 硬件在環場景中運行的工況

圖15 和圖16 顯示了電池SOC 值在仿真測試與HIL 測試中的變化范圍,黑線表示在離線仿真情況下的電池SOC 變化,紅色線表示在HIL 下的電池SOC 值變化。從圖中可以看出在實時策略下,兩種策略都可以保持良好的電量范圍,電池的性能和狀態也在較佳的狀態,電池性能正常,可以提高整體的生態駕駛策略的可靠性和穩定性,確保系統順暢運行。圖17 與圖18 分別顯示了DQN 算法和DDPG 算法與DQN-IRL 算法和DDPG-IRL 算法在該硬件在環環境下的發動機轉矩、發電機MG1 轉矩、電動機MG2 轉矩的變化對比圖。藍色線代表發動機轉矩,橙色線代表MG1轉矩,灰色線代表MG2轉矩。從圖中可以看出,具有逆向強化學習參數的算法發動機轉矩優化明顯,減少了發動機起停。

圖15 HIL下DQN算法的SOC值變化

圖16 HIL下DDPG算法的SOC值變化

圖17 HIL下DQN與DQN-IRL轉矩對比

圖18 HIL下DDPG與DDPG-IRL轉矩對比

5 結論

本文對混合動力汽車能量管理策略的獎勵值函數展開研究。強化學習的智能體與環境交互的引導方向是由獎勵函數決定的。然而,目前的獎勵功能設計仍然存在缺陷。逆向強化學習是一種從演示中學習的特殊形式,它試圖從提供的例子中估計馬爾可夫決策過程的獎勵函數。獎勵函數通常被認為是對任務最簡潔的描述。在簡單的應用中,獎勵函數可能是已知的,或從系統的性質中很容易推導出來,并應用到學習過程中。在大多數強化學習能量管理策略中,獎勵函數的設計具有主觀性和經驗性,很難客觀地描述專家的意圖,發動機和電池之間的權衡不可避免地存在主觀因素。但是,在給定的獎勵函數下,該條件不能保證智能體學習到最優駕駛策略。另外,混合動力汽車環境下的強化學習任務過于復雜,而人為設計的獎勵函數過于困難且高度主觀和經驗。獎勵函數設置的不同會導致最優策略的不同。如果沒有適當的獎勵,強化學習算法很難收斂。針對這些問題,本文提出了一種基于逆向強化學習的能量管理策略,獲取專家軌跡下的獎勵函數權值,并用于指導發動機智能體和電池智能體的行為。該方法的主要過程是利用逆強化學習得到的權重系數對獎勵函數進行修正,并根據最新的獎勵函數輸入正向強化學習任務。最后,將修正后的權值重新輸入到正向強化學習訓練中。從油耗值、SOC 變化曲線、獎勵訓練過程以及動力源轉矩等方面,表明該算法具有一定的優勢。本文的主要成果總結如下:

(1)從電池荷電狀態的變化值來看,荷電狀態的變化區間處于電池效率高、內阻低的區域,燃油消耗處于較低水平;

(2)逆向強化學習獲取的獎勵參數結果是分段式的;

(3)在強化學習訓練過程中,獎勵值穩步向最大方向前進,最終達到平穩狀態,訓練有效。

猜你喜歡
逆向管理策略轉矩
房建工程招標組織與合同管理策略
逆向而行
論減稅降費背景下的企業財務管理策略
建筑工程管理策略探討
建筑施工安全管理策略的應用探索
卷取機轉矩控制技術優化卷形
容錯逆變器直接轉矩控制策略
基于分級變頻的高轉矩軟起動器
逆向工程技術及應用
異步電動機直接轉矩控制系統的設計與仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合