?

智能網聯汽車基于逆強化學習的軌跡規劃優化機制研究

2023-08-21 04:15彭浩楠唐明環查奇文王聰王偉達
北京理工大學學報 2023年8期
關鍵詞:特征值軌跡加速度

彭浩楠,唐明環,查奇文,王聰,王偉達

(1.中國工業互聯網研究院,北京 100102;2.北京理工大學 機械與車輛學院,北京 100081)

軌跡規劃模塊的作用是為智能網聯汽車計算出包含路徑和速度信息的安全可行軌跡,規劃過程需要考慮車輛行駛安全性、穩定性、舒適性以及行駛效率等[1].目前已有許多關于自動駕駛軌跡規劃的研究,典型軌跡規劃方法主要可以分為3 類:包括模型預測控制方法、人工勢場法等的基于優化計算的軌跡規劃;包括柵格法、隨機搜索法等的基于搜索的規劃方法;基于特定函數的軌跡規劃方法[2].近年來,人工智能為自動駕駛規劃控制提供了變革性發展契機.基于智能學習算法的軌跡規劃方法逐漸成為智能網聯汽車決策控制領域的研究熱點.

其中,包括各種群類算法如魚群、蟻群、粒子群,遺傳算法,神經網絡等[3?4]的智能學習算法可解決非線性規劃問題,有不過分依賴物理模型、適用范圍廣、易于進行移植、收斂速度較快的優點,但同時存在陷入局部最優的弊端.在模仿經驗駕駛員的模型預測(model predictive control, MPC)優化軌跡規劃方法中,各個優化目標函數的權重系數需要手動反復標定.在不同的復雜動態環境中,權重系數標定是一個重復且繁瑣耗時的過程,并且需要豐富的駕駛經驗[5].更重要地,基于非線性MPC 的優化軌跡規劃方法的求解計算量和預測步長Np成指數關系,即MPC 方法的求解計算量會隨著預測步長的升高成指數增長,還要處理各種約束,所以求解計算量非常巨大,實時性很差[6].

隨著人工智能技術、大數據以及高算力計算硬件的逐步發展,各種學習類算法也被用于解決軌跡規劃問題,主要包括模仿學習算法(imitation learning algorithms, LL)和強化學習算法(reinforcement learning algorithms, RL)兩大類.有學者采用深度強化學習算法[7?8]和Q-Learning 強化學習算法[9?10]解決軌跡規劃問題,不同類型的學習算法以各自不同的方式學習最優軌跡.但是,一方面,直接模仿學習方法的神經網絡訓練過程在可解釋性和泛化能力上存在不足,另一方面,獎勵函數設計是強化學習方法的瓶頸難題.如何使上述學習方法學習后的模型具有強泛化能力,解決當前研究成果在實時性和可解釋性上的問題值得深入研究.目前也有很多研究文獻聚焦于采用模仿學習算法解決軌跡規劃問題,通過以不同的形式學習專家示范軌跡以實現期望軌跡的規劃,包括基于神經網絡的直接模仿學習方法[11]和基于最大熵原則的逆強化學習算法[12?14]等.

為了解決算法實時性差、目標函數權重系數難以標定優化和模仿學習方法的可解釋性不足等問題,本文提出了基于最大熵原則的逆強化學習方法,通過學習專家軌跡的內在優化機制,規劃出符合人類駕駛習慣的整體最優的換道軌跡.本文提出的方法通過最大熵原則求出專家軌跡的概率分布模型,再通過極大似然估計得到專家軌跡特征優化權重參數的計算方法,通過迭代求出優化權重參數,達到最終學習軌跡特征與專家軌跡特征相匹配的綜合最優效果.

1 雙車道交通場景描述與換道動機

1.1 場景描述

本文所研究的交通場景是自動駕駛汽車在城市結構化道路中典型的雙車道交通工況,自動駕駛汽車(自車)行駛在雙車道的右車道上,在此車道上自車前后方各有前車1 和尾車2 向前行駛,相鄰車道上也有前車3 和尾車4 向前行駛.

如圖1 所示,左車道為快車道,自車所在車道為慢車道.自車在慢車道上跟隨前車1 進行自適應巡航行駛.假設某一時刻慢車道上前車1 突然減速,自車則也會相應地減速行駛,當前車1 減速至速度很低時,自車開始產生自主換道意圖,欲換道跟隨前車3 從而實現高速巡航行駛.此時自車需要根據當前量測到的場景參數—TTC(碰撞時間)和THW(車頭時距),采用貝葉斯概率理論對相鄰待換車道和本車道進行安全性風險評估,得到當前場景每個車道的安全性條件概率,然后根據安全效用做出相應的行為決策,選擇保持該車道繼續行駛或更換車道.如果待換車道很危險,自車選擇保持該車道繼續行駛,直到待換車道尾車4 超過自車,新的尾車4 出現,此時自車再重新對兩個車道進行風險評估.當自車做出更換車道的行為決策,發出換道指令時,自車采用相應的方法進行軌跡規劃,得到最優換道軌跡.

1.2 決策方法

針對此雙車道交通場景,可采用基于貝葉斯概率理論的風險評估方法和基于安全效用理論的行為決策方法,構建易于擴展到一般復雜場景的風險評估貝葉斯網絡和決策圖[15].該方法充分考慮了場景輸入量測數據的不確定性,對當前交通場景的換道風險等級做出了定量化的概率描述.

2 基于最大熵原則的逆強化學習方法

近年來,隨著人工智能技術的發展,利用逆強化學習方法從專家示范數據集中自動學習獲取代價函數的研究獲得了自動駕駛汽車領域的廣泛關注.自動駕駛汽車的軌跡規劃必須達到經驗駕駛員水平,實現安全決策和規劃.如何設計合適獎勵函數來指導智能體做出類優秀駕駛員駕駛策略,即強化學習方法中的獎勵函數是一項非常有挑戰性的問題.因此,本文設計讓智能體從優秀駕駛員的駕駛行為里面學習(估計、推導)出一個可以指導智能體收斂到優秀駕駛員的行駛策略的代價函數,即通過逆強化學習方法學出專家軌跡的內在優化機制.

本文采用基于最大熵原則的逆強化學習方法來學習專家軌跡的優化機制,專家軌跡由模仿優秀駕駛員的MPC 優化軌跡規劃方法求得,驗證逆強化學習方法實現自動駕駛汽車軌跡規劃的可行性,為自動駕駛汽車實現軌跡規劃提供一個可靠、可理解、可泛化,能夠成功實現最優換道軌跡的學習思路,實現采用逆強化學習方法離線學習駕駛員專家軌跡的優化機制,進而構建與場景風險等級成映射關系的專家軌跡優化代價函數庫.

利用直接模仿學習方法可以直接學習得出專家示范軌跡的策略函數,即利用神經網絡訓練環境特征到動作(最優軌跡)的映射.但是由于優化代價函數(獎勵函數)未知,黑箱的訓練過程無法直觀理解,此方法存在可解釋性差、無法泛化轉移、存在失誤率的問題.與直接模仿學習方法相比,逆強化學習方法的優點在于:

① 簡潔:通過逆強化學習方法能夠獲得優化代價函數,此代價函數體現了專家軌跡的優化機制,這一優化機制可以量化且直觀得被工程師所理解,所以代價函數是描述智能體理想行為的簡潔形式,可解釋性強.而策略函數(特征到動作的映射)和代價函數相比則更為復雜,工程師無法直觀量化地理解訓練過程,可解釋性差.

② 魯棒:通過基于神經網絡訓練的直接模仿學習方法得到的動作容易受到外部干擾的影響.當外部環境和內部參數發生變化時,特征到動作的映射也會變化,但是代價函數始終不會發生變化,不會受到外部的影響.因此與策略函數相比,逆強化學習方法學出的優化代價函數更具有魯棒性.

③ 可泛化轉移:通過逆強化學習方法學得的優化代價函數,體現了專家軌跡的優化目標,在當前風險等級場景下,優秀駕駛員的優化目標不會發生變化.因此,此優化代價函數可以用于各類車型,是可泛化轉移的.

逆強化學習方法試圖恢復并獲得智能體在專家示范行為背后偏好(優化機制)的過程.這種偏好(優化機制)通常以代價函數或獎勵函數的形式表現出來,代價函數與獎勵函數將每個系統狀態的特征映射為一個狀態成本值.逆強化學習中的代價函數與特征之間的映射關系可能是線性、非線性或者神經網絡.本節與大多數逆強化學習方法一樣,假設特征與代價函數之間成線性映射關系,此線性關系可以表示為

式中:C為優化代價函數;θ ∈Rn是用來參數化代價函數的特征權重向量;fξi∈Rn定義為對給定軌跡的某些抽象信息進行編碼量化的相關特征,ξi為某個給定的軌跡.在本文討論的換道軌跡規劃問題中,這種軌跡特征包括目標橫向位置、縱向巡航速度、橫向速度、縱橫向加速度等.基于以上定義,逆強化學習方法的目標可以描述為:給定智能體的專家示范軌跡,找到能夠再現與專家示范軌跡相似的軌跡的優化代價函數,即每個軌跡特征的權重系數,與專家示范軌跡相似的軌跡可以通過求解基于權重系數的參數化代價函數的優化問題獲得.具體目標為找到智能體所學軌跡的概率分布,使得由此推導出的軌跡特征值與專家示范軌跡的經驗特征值相匹配:

2.1 最大熵原則

熵是一個描述物質系統狀態很重要的參量.通過研究最大熵原理,斯坦福大學和加州大學伯克利分校學者ZIEBART 等[16]和LIU 等[17]指出,熵最大的概率分布最好地代表了給定的專家示范信息,因為除了特征匹配之外,它沒有表現出任何其他額外的偏好.通俗地講,所學習軌跡的概率分布的熵越大,系統越穩定,熵最大,系統最好.根據定義,關于軌跡概率分布的熵H(p)為

在連續空間中,如本文所考慮的軌跡規劃問題,專家選擇某條軌跡是隨機概率分布事件,極大化系統的熵可以求得期望的專家軌跡概率分布模型p?(ξi)為

特征匹配是重要的等式約束,如下所示.

式(4)和(5)所示為標準的含約束的拉格朗日優化問題.引入拉格朗日乘子 α?,θ?,該問題為

其中 θ的維數為軌跡特征的個數.引入拉格朗日函數L(p)為

求解偏導數方程:

則專家軌跡的概率分布模型的表達式為

可以看出,由最大熵原則推導出的概率分布模型中,如果把 θTfξi解釋為代價函數,專家軌跡的概率分布模型表達式p(ξi|θ)與相關特征的代價函數的指數成正比.這個概率分布模型中的超參數為 θ.所以根據最大熵原理,這個概率分布模型意味著:代價函數成本值越高的軌跡是更不可能出現的,專家選擇的概率越低,隨著代價函數成本值升高,概率成指數函數降低,換言之,智能體模仿學習專家軌跡時以指數形式的可能性更傾向于選擇代價函數成本值低的軌跡.

又根據式(4),可得

則概率分布模型的分母表達式為

最終,可以得到期望的專家軌跡概率分布模型為

其中,Z(θ)為概率分布模型的歸一化(配分)因子.

然后,引入極大似然估計方法來獲取上述概率分布模型中超參數的計算表達式.用已有的專家采樣數據,即給定的專家示范軌跡進行極大似然估計,極大化專家的似然求出概率分布模型中的超參數 θ.使得專家軌跡的似然最大,也就是使得已有的專家軌跡數據最真實.這樣求得的 θ參數值能夠保證專家軌跡的出現概率最大.所以,特征匹配下的軌跡分布熵最大化問題就轉化為了在上述指數概率分布模型下,專家軌跡的極大似然估計問題.

在軌跡規劃問題中,規劃出的軌跡是關于橫坐標、縱坐標和速度的三維函數,即專家軌跡是蘊含時間信息的.因為軌跡上每一點的速度都是隨機的,所以專家軌跡樣本集個數為無數條,假設專家軌跡樣本集個數為N條,則專家示范軌跡的樣本集可以表示為,i=N.為專家示范軌跡樣本集中的軌跡.

定義專家軌跡的似然函數,即聯合概率密度函數為

式中:l(θ) 為專家軌跡的似然函數;p(D|θ)為專家軌跡的聯合概率密度函數.極大化似然函數l(θ),即可求出模型超參數 θ?值,使得出現該組樣本的概率最大.

定義專家軌跡的對數似然函數為W(θ?),表達式如下.

式(17)中的歸一化配分因子Z(θ)也可以采用積分的方式表示.利用專家軌跡樣本集試驗結果和極大似然估計方法得到的參數值,能夠使專家軌跡樣本集出現的可能性最大.

2.2 配分因子的近似和優化權重參數的計算

根據上述分析和公式(17))可知,極大化專家軌跡似然的過程中,如何計算歸一化(配分)因子Z(θ)是該方法的難點所在.由于所有軌跡在高維空間上積分是不可處理的,即在連續狀態下,無法對全軌跡進行積分,因此無法計算得到精確的配分因子Z(θ)[18?19].只能采用二階泰勒展開/拉布拉斯近似、蒙特卡洛采樣和一次軌跡樣條代替等方式進行配分因子 的近似計算.基于二階泰勒展開/拉布拉斯近似的優化權重參數最優解法理論性較強,試圖一次性求解出優化權重參數 θ,但此方法的代碼實現較為困難,很難一步到位求出最優解.所以本節不采用此種方法求解 θ.

本文采用基于一次軌跡樣條近似代替的梯度下降方法,迭代求解出優化權重參數 θ,直至智能體最終的學習軌跡特征與專家軌跡特征相匹配.

如上所述,采用最大熵原理推導出專家軌跡的指數概率分布模型之后,可以采用極大似然估計方法得到概率分布模型中的超參數:

專家軌跡的似然函數關于優化權重參數 θ的梯度可以被推導為

所以專家軌跡的似然函數關于優化權重參數θ的梯度表達式為

式中:fD為專家示范軌跡特征值的均值,fD?[fξ?d1+fξ?d2+···+fξ?dN]/N.ξ?i為專家用當前的優化權重參數 θ在優化一個代價函數得到一條當前最有可能出現的最優軌跡.

與文獻[20]類似,利用逆最優控制的思想:專家用當前自己的優化權重參數 θ在刻意優化一個代價函數得到一條當前最有可能出現的最優軌跡 ξ?i(此時專家不是在概率分布模型中隨機采樣),假設此條軌跡的概率近似為1.通過計算當前這條最有可能出現的軌跡的特征值來近似代替期望特征值,即用一次軌跡樣條進行近似代替,而不是計算采樣出的有限條軌跡的特征值.利用一次軌跡樣條方法進行近似代替可以表示為

因此,用一次軌跡樣條方法進行近似代替后的專家軌跡似然函數關于優化權重參數的梯度表達式就變成了

f′即為最有可能出現的軌跡的特征值.當然,如前所述,本文假設智能體模仿專家選擇的軌跡實際上是通過最小化當前的代價函數而產生的,而不是假設專家選擇的軌跡是從概率分布中抽樣的.所以,基于一次軌跡樣條近似代替的優化權重參數梯度下降迭代公式為

式 中:θk+1為 迭代更新 后 的優化權重 參 數值;θk為專家當前的優化權重參數值;α為學習參數值:梯度下降速度.

每次梯度下降迭代后,都會得到一個新的優化權重參數向量,之后即可得到新的優化代價函數,得到的由優化權重參數構成的優化代價函數能夠讓工程師直觀地、量化地理解當前的內在優化機制和原則,即在換道場景中專家軌跡究竟更在意哪些優化目標,在意到什么程度.逆強化學習方法的內層一定要有一個優化的過程,所以得到新的優化權重參數和優化代價函數之后,需要求解這個很簡單的最優問題.通過求解此優化代價函數,得到幾個優化的學習軌跡離散點坐標(本文為6 個),也可以說是,通過優化幾個軌跡離散點的坐標使優化代價函數極小化.

2.3 三次樣條插值方法和特征的提取

求解由當前優化權重參數構成的優化代價函數,得到時間間隔T/5的6 個最優離散點坐標,假定被學習的專家軌跡總的時間間隔為T.為了提取學習軌跡的相關特征,在本文中,對6 個優化后的等時間間距離散坐標點采用3 次樣條插值方法進行插值獲得軌跡的3 次樣條函數.本文用3 次樣條函數來表示隨時間t變化的換道軌跡橫向位置y和縱向位置x.

采用3 次樣條插值法得到軌跡的3 次樣條函數之后,即可提取當前軌跡的相關特征,當前的這條軌跡為智能體用迭代更新得到的當前優化權重參數 θ,極小化相應的優化代價函數得到的軌跡.本文提取一些典型的軌跡特征,這些特征能夠反映換道軌跡的相關重要特性,包括汽車期望橫向位置特征(式(24))ftar(ξ)、汽車 期 望 縱向巡航速度 特 征(式(25))fvx(ξ)、以及汽車橫向速度(式(26))、縱向加速度(式(27))和橫向加速度(式(28))等高階動力學特征fvy(ξ)、fax(ξ)、fay(ξ).

式中:ytarget為目標車道中心線的橫向位置;vxdes為換道結束后跟隨快車道上的前車的期望巡航縱向速度.最后的軌跡特征fξi可以通過組合以上這些子特征得到.本文從當前軌跡中提取這5 個特征,與從專家軌跡中提取的這5 個特征做匹配、做比較,分別判斷當前軌跡的5個特征是否和專家軌跡的5個特征近似相同,ε為特征差閾值常數.如果兩者不匹配、不相同,則根據公式(23)迭代更新求出橫向或縱向的每個特征對應的新的優化權重參數 θ1,θ2,θ3和θ4,θ5,構成新的優化代價函數,如式(29)所示,優化求解出新的軌跡,提取新的軌跡特征,重復以上過程,直至智能體當前軌跡的特征與專家軌跡的特征相匹配,即近似相同,最終迭代求出的此時的優化權重參數 θ*為可以復現專家軌跡的最優優化權重參數.

在逆強化學習方法中,采用基于一次軌跡樣條近似代替的梯度下降迭代法求解最優優化權重參數θ?的算法過程可用以下偽代碼表示.軌跡的3 個橫向相關特征和兩個縱向相關特征對應的優化權重參數分別按照以下過程進行求解.

算法1 逆強化學習方法(基于一次軌跡樣條代替近似的梯度下降迭代法)

其中,?為軌跡支撐點的集合,grad為特征差梯度.基于一次軌跡樣條近似代替的梯度下降迭代方法按照“優化一次、插值一次、匹配一次、迭代一次”4 步的總體思路實現逆強化學習方法的過程,直至求出最終的優化權重參數與相應的軌跡,此方法可操作性強,選用此方法復現專家軌跡.

3 專家軌跡逆強化學習仿真結果

MPC 優化軌跡規劃方法的優化機制符合人類駕駛經驗和習慣[21?22].本文將利用模仿優秀駕駛員的MPC 優化軌跡規劃方法求出的一般風險場景和高風險場景的自車最優換道軌跡作為一般風險場景和高風險場景兩個場景的專家示范軌跡.一般風險場景和高風險場景的自車最優換道軌跡,即文獻[15]在一般風險場景和高風險場景中采用非線性MPC 優化軌跡規劃方法求解出的最優軌跡.模仿優秀駕駛員的基于非線性MPC 的優化軌跡規劃方法的軟約束為優化目標勢場函數,考慮了自車換道位置準確性、安全性、動力性、舒適性等優化目標,硬約束包含等式約束—二自由度汽車運動學方程和防碰撞安全域不等式約束.在汽車運動學方程模型中,汽車的軸距為1.8 m.

一般風險場景中,周車1 和2 的車速都為15 m/s,自車和周車4 的車速都為16 m/s,周車3 的車速為20 m/s.以自車的起始位置為縱向坐標原點,自車縱向坐標為0 m.周車1 和周車3 的起始位置坐標為100 m,周車2 和周車4 的起始位置坐標為?80 m.在高風險場景中,周車1 和2 的車速都為15 m/s,周車3 和周車4 的車速分別為20 m/s 和17 m/s,自車的車速為16 m/s.以自車的起始位置為縱向坐標原點.周車1 和周車3 的起始位置坐標為100 m,周車2 和周車4 的起始位置坐標分別為?80 m 和?58 m.一般風險場景和高風險場景的區別在于自車相鄰車道上的尾車4 的速度和起始位置不同.尾車4 的車速越高,與自車的縱向距離越近,自車的換道風險越高;反之,尾車4 的車速越低,與自車的縱向距離越遠,自車的換道風險越低.

通過基于MATLAB 的仿真,驗證所提出的逆強化學習方法學習兩個場景中專家軌跡的能力.

3.1 一般風險場景專家軌跡的逆強化學習結果

為學習此一般風險場景的專家軌跡,選取初始優化權重參數 θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個特征的初始值依次為:0.01、1、10、20、1.圖2 為自車期望橫向位置、橫向速度、橫向加速度的逆強化學習結果.圖3(a) 為逆強化學習過程中智能體學習得到的每條軌跡的橫向相關特征值與專家軌跡橫向相關特征值之差范數的迭代演化,如式(30)所示.

圖2 一般風險場景期望橫向位置、速度、加速度的逆強化學習結果Fig.2 IRL results of lateral position, speed, and acceleration in the general-risk scenario

從圖3 可以看出,在一般風險場景中,初始優化權重參數經優化插值生成的橫向學習軌跡(自車的橫向位置坐標、橫向速度和橫向加速度3 組曲線)與橫向專家軌跡差別較大,初始軌跡的橫向相關特征值與專家軌跡橫向相關特征值之差的范數比較大(不到500),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差稍大于20,橫向速度特征值之差也存在.智能體按照基于一次軌跡樣條代替近似的梯度下降迭代方法進行逆強化學習,不斷迭代更新優化權重參數,共迭代了60 次,智能體每次學習得到的軌跡也和專家軌跡越來越相似,智能體學習得到的軌跡橫向相關特征值與專家軌跡橫向相關特征值的差值也逐漸減小,迭代至20 次時,特征差基本收斂至0.優化參數迭代更新至60 次時,經優化插值生成的軌跡為橫向最終學習軌跡,即3 組橫向學習軌跡曲線中的最終一條曲線,它與橫向專家軌跡很相近,特別是橫向位置與橫向速度.迭代最終的橫向位置、橫向速度和橫向加速度優化權重參數為0.880 3、0.089 7、0.360 4,量化地表達了與橫向最終學習軌跡相近的橫向專家軌跡的內在優化機制,即專家在換道過程中對不同橫向目標的不同重視程度.

圖4 為自車期望縱向巡航速度、縱向加速度的逆強化學習結果.圖5(a)為逆強化學習過程中智能體學習得到的每條軌跡的縱向相關特征值與專家軌跡縱向相關特征值之差范數的迭代演化,如式(30)所示.

圖4 一般風險場景下期望縱向速度、加速度的逆強化學習結果Fig.4 IRL results of longitudinal speed and acceleration in the general-risk scenario

圖5 一般風險場景期望縱向軌跡關鍵參數結果Fig.5 IRL results of key parameters of longitudinal trajectories in the general-risk scenario

圖5(b)為逆強化學習過程中自車期望縱向巡航速度和縱向加速度兩個特征梯度的迭代演化.圖5(c)為逆強化學習過程中,自車期望縱向巡航速度和縱向加速度兩個特征相對應的優化權重參數 θ4和 θ5的迭代演化.

從圖5 可以看出,在一般風險場景中,初始優化參數經優化插值生成的縱向學習軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向專家軌跡存在一定的差距,初始軌跡的縱向相關特征值與專家軌跡縱向相關特征值之差的范數很大(接近800),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差不到30,縱向加速度特征值之差稍大于5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進行逆強化學習,不斷迭代更新優化權重參數,共迭代了60 次,智能體每次學習得到的軌跡和專家軌跡越來越相似,智能體學習得到的軌跡縱向相關特征值與專家軌跡縱向相關特征值的差值也逐漸減小,迭代至60 次時,特征差基本收斂至0.優化權重參數迭代更新至60 次時,經優化插值生成的軌跡為縱向最終學習軌跡,即兩組縱向學習軌跡曲線中的最終一條曲線,它與縱向專家軌跡很相近,特別是縱向巡航速度.迭代最終的縱向巡航速度和縱向加速度優化權重參數為4.673 3×10?7和5.226×10?7,量化地表達了與縱向最終學習軌跡相近的縱向專家軌跡的內在優化機制,也就是專家在換道過程中對兩個縱向相關目標的各自的重視程度.

3.2 高風險場景專家軌跡的逆強化學習結果

為學習此高風險場景的專家軌跡,選取初始優化權重參數 θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個特征的初始權重參數依次為:0.01、1、10、0.01、1.圖6 為高風險場景中自車期望橫向位置、橫向速度、橫向加速度的逆強化學習結果.圖7(a)為逆強化學習過程中智能體學習得到的每條軌跡的橫向相關特征值與專家軌跡橫向相關特征值之差范數的迭代演化.圖7(b)為高風險場景中自車期望橫向位置、橫向速度、橫向加速度3 個特征梯度的迭代演化.圖7(c)為在此高風險場景的逆強化學習過程中,自車期望橫向位置、橫向速度、橫向加速度3 個特征相對應的優化權重參數 θ1、θ2、θ3的迭代演化.

圖6 高風險場景期望橫向位置、速度、加速度的逆強化學習結果Fig.6 IRL results of lateral position, speed, and acceleration in the high-risk scenario

圖7 高風險場景期望橫向軌跡關鍵參數結果Fig.7 IRL results of key parameters of lateral trajectories in the high-risk scenario

從圖7 可以看出,在高風險場景中,初始優化權重參數生成的橫向學習軌跡(自車的橫向位置坐標、橫向速度和橫向加速度3 組曲線)與橫向專家軌跡相差甚遠,初始軌跡的橫向相關特征值與專家軌跡橫向相關特征值之差的范數也很大(900 左右),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差不到30,橫向速度特征值之差在?5 左右,橫向加速度特征值之差稍小于?10.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進行逆強化學習,不斷迭代更新優化權重參數,共迭代了60 次,智能體學習得到的軌跡和專家軌跡越來越接近,智能體學習得到的軌跡橫向相關特征值與專家軌跡橫向相關特征值的差值也逐漸減小,迭代至50 次時,特征差基本收斂至0.優化權重參數迭代更新至60 次時,經優化插值生成的軌跡為橫向最終學習軌跡,即3 組橫向學習軌跡曲線中的最終一條曲線,它與橫向專家軌跡很相近,特別是橫向位置與橫向速度,盡管橫向速度與橫向加速度最終學習軌跡后期有微小波動.迭代最終的橫向位置、橫向速度和橫向加速度優化權重參數為5.967 6,0.081 0,0.503 9.可見,與一般風險場景相比,專家軌跡的橫向位置優化權重系數明顯升高,所以在高風險場景換道專家軌跡的內在優化機制中,大大加強了對期望橫向位置這個橫向目標的重視程度,明顯超過了對控制橫向速度和橫向加速度不要過大的重視程度.此換道場景中,專家最在意讓自車盡早到達期望橫向位置,完成自主換道.

圖8 為高風險場景中,自車期望縱向巡航速度、縱向加速度的逆強化學習結果.圖8(a)為逆強化學習過程中智能體學習得到的每條軌跡的縱向相關特征值與專家軌跡縱向相關特征值之差范數的迭代演化.圖8(b)為高風險場景中自車期望縱向巡航速度和縱向加速度兩個特征梯度的迭代演化.圖8(c)為在高風險場景的逆強化學習過程中,自車期望縱向巡航速度和縱向加速度兩個特征相對應的優化權重參數 θ4和 θ5的迭代演化.

圖8 高風險場景下期望縱向速度、加速度的逆強化學習結果Fig.8 IRL results of longitudinal speed and acceleration in the high-risk scenario

從圖8 可以看出,在高風險場景中,初始優化權重參數生成的縱向學習軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向專家軌跡存在一些差距,初始軌跡的縱向相關特征值與專家軌跡縱向相關特征值之差的范數比較大(接近300),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差大于15,縱向加速度特征值之差稍大于?5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進行逆強化學習,不斷迭代更新優化權重參數,共迭代了60 次,智能體每次學習得到的軌跡和專家軌跡的相似程度越來越高,智能體學習得到的軌跡縱向相關特征值與專家軌跡縱向相關特征值的差值也逐漸減小,迭代至30 次時,特征差基本收斂至0.優化權重參數迭代更新至60 次時,經優化插值生成的軌跡為縱向最終學習軌跡,即兩組縱向學習軌跡曲線中的最終一條曲線,它與縱向專家軌跡很相近,特別是縱向巡航速度.雖然縱向加速度最終學習曲線和縱向加速度專家軌跡曲線不完全吻合,但兩者變化趨勢一致.迭代最終的縱向巡航速度和縱向加速度優化權重參數為0.422 和0.002.可見,與一般風險場景相比,專家軌跡的縱向巡航速度優化權重系數有所升高,所以在高風險場景換道專家軌跡的內在優化機制中,加強了對期望縱向巡航速度這個縱向目標的重視程度,并且其超過了對舒適性(控制縱向加速度不要過大)的重視程度.此換道場景中,專家意圖讓自車的縱向巡航速度快速升高.

仿真結果可知,與一般風險場景通過逆強化學習方法得到的專家軌跡優化代價函數相比,在高風險場景的優化代價函數中,期望橫向位置和期望縱向巡航速度目標的優化權重系數更大,二者中,期望橫向位置的權重系數明顯升高.高風險場景中,學習專家軌跡的智能體更加重視和在意期望橫向位置和期望縱向巡航速度這兩個優化目標,相對來講,此時的智能體不非常重視舒適性和經濟性,即不再著重較多地限制高階動力學特性響應過大,而是希望自車快速到達期望橫向位置,且快速升高車速以跟隨車速較高的前車巡航行駛.這充分證明了所提出的逆強化學習方法成功地學習了優秀駕駛員(仿優秀駕駛員的MPC 方法)換道過程的優化機制,這一優化機制可以量化且直觀得被工程師所理解,具有可解釋、可轉移和可泛化到其他智能體的特點.

從兩個場景的專家軌跡逆強化學習示例中可以得出結論,此逆強化學習方法有能力通過學習專家軌跡的內在優化機制(專家軌跡優化代價函數的權重系數)從而成功復現換道的橫縱向專家軌跡,即通過逆強化學習方法學習優秀駕駛員換道的優化機制,復現專家軌跡是完全可行的.此可行性結論為未來利用逆強化學習方法大量離線學習優秀駕駛員在不同風險場景的專家軌跡的優化機制,構建與場景風險等級成映射關系的專家軌跡優化代價函數庫奠定了理論和方法基礎.以逆強化學習方法學習得出的優化代價函數作為目標函數,通過求解基于此目標函數的優化問題,可以實現自動駕駛汽車的軌跡規劃功能.

4 結論與展望

本文提出了基于最大熵原則的逆強化學習方法,通過學習專家軌跡的內在優化機制來復現換道的專家軌跡.首先,根據最大熵原則推導出專家軌跡的指數型概率分布模型,再由極大似然估計方法得到專家軌跡特征的優化權重參數的計算方法.然后通過基于一次軌跡樣條近似代替的梯度下降方法,迭代求出優化權重參數,最后實現智能體軌跡的特征與專家軌跡的特征相匹配.利用MPC 方法求出的自車換道軌跡作為一般風險場景和高風險場景的專家軌跡,從兩個典型場景的逆強化學習結果得出,逆強化學習方法學習專家軌跡的內在優化機制進而實現換道軌跡規劃是完全可行的.該方法學習到的優化機制具有魯棒、可量化、可轉移泛化、直觀、強解釋性的優點.

本文驗證了逆強化學習方法通過學習專家軌跡的優化機制復現專家軌跡的可行性,為通過大量離線學習建立專家軌跡優化代價函數庫提供必要的理論基礎.本文研究旨在通過學習駕駛專家軌跡的內在優化機制,實現符合人類駕駛習慣的優化換道軌跡規劃.此外,不同駕駛者或乘員都有各自的駕駛風格和乘坐偏好,因此將個性化學習納入智能駕駛決策規劃過程是另一項亟需解決的課題.本文研究工作在一般風險場景和高風險場景的學習結果表明本方法具有適應個性化駕駛學習的潛力,因此未來工作將聚焦于駕駛風格個性化的智能駕駛軌跡規劃學習方法研究.

猜你喜歡
特征值軌跡加速度
“鱉”不住了!從26元/斤飆至38元/斤,2022年甲魚能否再跑出“加速度”?
一類帶強制位勢的p-Laplace特征值問題
單圈圖關聯矩陣的特征值
軌跡
軌跡
天際加速度
創新,動能轉換的“加速度”
死亡加速度
軌跡
進化的軌跡(一)——進化,無盡的適應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合