?

基于強化學習的混合動力汽車能量管理策略

2024-04-22 07:18孔澤慧劉港吳慧
時代汽車 2024年3期
關鍵詞:強化學習

孔澤慧 劉港 吳慧

摘 要:文章針對一串聯式混合動力汽車,提出了一種基于強化學習的能量管理策略。首先為了便于分析,對該串聯式混合動力汽車動力學模型進行簡化,包括汽車功率需求模型、電池模型和發動機-發電機模型等。其次,基于強化學習算法,建立串聯式混合動力汽車能量管理策略優化模型。最后,基于目標工況進行仿真分析,求解控制策略,獲得燃油消耗。結果表明,基于強化學習的能量管理策略相比于基于規則的能量管理策略,其燃油經濟性提升了12%。

關鍵詞:混合動力車輛 能量管理策略 強化學習

1 引言

隨著汽車保有量的持續增加,全世界所面臨的能源緊缺和環境惡化等問題日趨嚴重。在節能減排和車輛驅動系統電氣化發展的背景下,新能源汽車得到飛速發展[1-2]。其中,混合動力汽車將傳統的內燃機、電動機和能量存儲裝置等組合在一起,結合了電驅動系統和傳的內燃機驅動系統,充分發揮了二者的優勢,一方面,混合動力汽車可以節省燃油消耗,另一方面不受電池續駛里程和充電樁等建設設備的制約[3]?;旌蟿恿ζ囈殉蔀閭鹘y車輛向純電動車輛過渡的必然階段,是最具實際開發意義的低油耗、低排放汽車。

目前混合動力汽車實際應用的能量管理策略主要分為基于規則的能量管理策略、基于優化的能量管理策略和基于學習的能量管理策略三種[4]?;谝巹t的能量管理策略是目前應用最廣泛的能量管理策略,T Hofman提出了一種基于規則的灰狼優化能量管理方法,改善了基于規則的控制性能,有效降低了一插電式混合動力汽車控制算法的復雜性和計算量,同時提升了汽車的燃油經濟性[5]。然而,基于規則的能量管理策略依賴工程經驗等,無法實時調整控制參數,適應性差[6]?;趦灮哪芰抗芾聿呗杂挚梢苑譃槿謨灮蛯崟r優化的能量管理策略。楊超等基于智能網聯,采用最小值原理實現了插電式混合動力汽車的能量優化,其可適應多種工況,實現了全局與瞬時優化的有效融合[7]。但是,基于優化的能量管理策略,如動態規劃等無法用于實時控制,或是達不到優化效果。因此,基于學習的能量管理策略成為研究熱點。張松[8],Qi C[9]等為了防止自監督模型陷入“自我良好”的境地,采用強化學習進行校準,實現了燃油消耗的優化性。強化學習算法不僅可以減少汽車的燃油消耗,提升汽車的燃油經濟性,而且可以用于實時控制。本課題主要針對一串聯式混合動力車輛,研究了一種基于強化學習的能量管理策略。同時,通過仿真分析驗證了該能量管理策略的有效性。

2 混合動力車輛數學模型

圖1為串聯式混合動力車輛結構示意圖,兩側驅動輪由電機獨立驅動,由發動機-發電機組和動力電池組共同為整車提供動力。發動機通過發電機產生電能,給兩個驅動電機提供電能,進而驅動車輛行駛,發動機并不直接參與車輛驅動。表1為該串聯式混合動力汽車的關鍵參數。

2.1 車輛動力學模型

為便于進行動力學分析,根據動力學定律,在保證足夠準確的前提下,簡化串聯式混合動力車輛的功率需求模型,如下所示:

(1)

式中,F1,F2為兩驅動輪的驅動力,Fr1,Fr2為車輛的滾動阻力,Fw與Fi分別代表車輛行駛過程中所收到的行駛過程中所受到的空氣阻力與坡度阻力,m為混合動力汽車的整車質量,a為汽車加速度。

空氣阻力為:

式中,CD代表空氣阻力系數,A為混合動力車輛迎風面積,v為車輛平均速度。

坡度阻力為:

式中,θ為路面坡度角,g是重力加速度。

滾動阻力為:

式中,f為滾動阻力系數。

2.2 動力電池組模型

忽略動力電池的溫度影響,簡化動力電池組模型。動力電池組采用開路電壓和等效內阻的電池模型[10],其荷電狀態SOC為:

式中,Ib是電池的實際電流,Cb為電池的額定容量。

電池的電流Ib為:

式中,VOC為電池開路電壓,Rint為電池內阻,Pb表示電池的輸出功率。

根據上式,則可以求出電池的荷電狀態SOC的微分,如下所示:

2.3 發動機-發電機模型

對于該串聯式混合動力汽車,發動機只通過發電機產生電能,因此可將發動機-發電機簡化為一個整體,建立發動機-發電機等效電路模型,簡化模型如圖2所示。其中, 發電機的電磁轉矩用Tg表示,Ug代表發動機-發電機組的輸出電壓,Keωg是發動機的等效電動勢,ωg代表電機的同步角速度,Kxωg表示發動機的等效阻抗,發電機的輸出電流用Ig代表。發動機-發電機組的輸出電壓與發電機的電磁轉矩計算方程為[10]:

在串聯式混合動力汽車中,發動機和發電機為機械連接,二者的轉速是一樣的。因此,發動機的轉矩和轉速可以由以下公式計算得出。其中,發電機和發動機的轉速用ng,neng表示;Teng表示發動機的轉矩;Jeng為發動機的轉動慣量;Jg表示發電機的轉動慣量;

3 基于強化學習建立串聯式混合動力汽車能量管理策略優化模型

3.1 強化學習算法

強化學習是通過研究智能主體(Agent)在環境中應該怎樣采取行動以最大化所獲得的累積獎勵[5-6]。智能主體在學習時,會根據環境對行為的反饋,即獎勵或懲罰,來不斷優化不同狀態下所應該采取的行動,不斷去使智能主體更加適應環境,以獲得最大化累積獎勵,進而獲得最優的控制策略[11]。

Q-learning是常用的強化學習方法之一,在已知控制策略π,在狀態st下執行動作at時的動作值函數可以用下表示:

式中,γ表示取值范圍為[0,1]的折扣因子,將未來回報折算入當前的Q值,r是單步回報。

最優動作值函數Q*定義為以下表達式:

基于最優動作值函數反推得出最優控制策略,如下所示[12]:

3.2 串聯式混合動力車輛能量管理策略問題建模

選擇發動機轉速neng和電池的荷電狀態SOC作為狀態變量,選擇發動機的節氣門開度作為控制變量thr。為了便于計算,將狀態變量和控制變量進行離散化處理,其中發動機轉速neng等分為30份,范圍為neng∈[1200,6000],電池SOC也等分為30份,范圍為SOC∈[0.6,0.9],節氣門開度thr等分為10份,范圍為thr∈[0,1]。

選擇發動機的燃油消耗量與電池SOC變化量的函數作為目標函數,如方程(13)所示,其中SOC的變化量指的是在整個行駛工況中,動力電池SOC在初始和結束的差值。目的是將SOC的差值等效為燃油消耗量計入到目標函數中,并乘以一定的懲罰因子β。

(14)

式中,用f(k)代表每一步的發動機燃油消耗量。

4 仿真分析

選取圖3為目標工況,根據強化學習算法,求解串聯式混合動力車輛的最優控制序列。選取發電機的初始轉速ng為1200 r/min,動力電池SOC的初始值為0.75。

圖4為基于強化學習算法獲得的SOC的變化曲線。從圖中可以看出,在整個目標工況下,動力電池的SOC始終在0.70-0.76之間變動。圖5 為發動機和電池的功率分配曲線。

圖6為在目標工況下,采用強化學習得出的最優控制策略獲得的發動機的工作點。該發動機工作點主要分布在轉速3000-4000r/min。發動機多工作在最佳工作區間,以減少燃油消耗。

表2為基于強化學習和基于動態規劃的能量管理策略的燃油消耗,可以看出,基于強化學習的能量管理策略的燃油消耗可十分接近于基于動態規劃的能量管理方法。

5 結論

文章首先建立了串聯式混合動力車輛的動力學模型、電池模型和發動機-發電機模型等。其次,基于強化學習算法,建立了串聯式混合動力汽車的能量管理控制優化模型,求解混合動力汽車的最優控制策略。最后,通過仿真分析,求解特定工況下,采用該策略的燃油消耗。結果表明,基于強化學習的能量管理策略相比于基于規則的能量管理策略,燃油消耗減小,燃油經濟性提升了12%。

基金項目:廣西高校中青年教師(科研)基礎能力提升項目——基于機器學習的混合動力汽車預測能量管理策略研究項目資助(項目編號:2022KY1073)。

參考文獻:

[1]鄧文娟,吳彤峰,謝冰.油電并聯混合動力系統能量管理策略研究[J].? 2022(6).

[2]曾曉帆,胡明輝,徐磊.基于實車試驗大數據分析的插電式混合動力汽車能量管理策略解析[J].重慶大學學報,2023,46(2):11-29.

[3]唐香蕉,高祖成,曾令全,等.城市道路下混合動力汽車雙層能量管理策略[J].中國機械工程,2022(016):033.

[4]張瑞軒黃晨王猛猛.混合動力汽車能量管理策略研究現狀與發展趨勢[J].林業機械與木工設備,2022,50(10):50-55.

[5]Pritam Keshavdas GujarathiVarsha A. ShahMakarand M. Lokhande.Combined Rule Based-Grey Wolf Optimization Energy Management Algorithm for Emission Reduction of Converted Plug-In Hybrid Electric Vehicle[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems,2019,12(2).

[6]彭靖宇.智能網聯插電式混合動力汽車協同優化能量管理策略研究[D].重慶:重慶大學,2019.

[7]楊超,杜雪龍,王偉達,等.智能網聯環境下的PHEV實時優化能量管理策略法[J].汽車安全與節能學報,2021,12(2):9.

[8]張松,王坤羽,楊蓉,等.混合動力公交車深度強化學習能量管理策略研究[J].2021.

[9]Qi C,Zhu Y,Song C,et al.Self-supervised reinforcement learning-based energy management for a hybrid electric vehicle[J].Journal of Power Sources,2021(Dec.1):514.

[10]Kong Z,Zou Y,Liu T .Implementation of real-time energy management strategy based on reinforcement learning for hybrid electric vehicles and simulation validation[J].Plos One,2017,12(7).

[11]王冬黎,高陽,陳世福.強化學習綜述[C]//中國人工智能學會第10屆全國學術年會.0[2023-08-23].

[12]賴晨光,龐玉涵,胡博,等.基于深度強化學習的混合動力汽車能量管理策略[J].[2023-08-23].

猜你喜歡
強化學習
基于強化學習的無線網絡智能接入控制技術
未來人工智能自主學習網絡的構建
轉觀念 強服務 樹立用電檢查新價值
智能車自主避障路徑規劃研究綜述
一種記憶可修剪型仿生機器人的速度跟蹤算法研究
基于強化學習的在線訂單配送時隙運能分配
論“以讀促寫”在初中英語寫作教學中的應用
智能交通車流自動導引系統
分布式系統中基于非合作博弈的調度算法
幾種經典的策略梯度算法性能對比
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合