?

基于強化協作博弈方法的雙車道混合交通流特性

2019-08-06 08:43郭靜秋方守恩曲小波王亦兵劉洋澤西
關鍵詞:元胞交通流車流

郭靜秋, 方守恩, 曲小波, 王亦兵, 劉洋澤西

(1.同濟大學 道路與交通工程教育部重點實驗室,上海 201804; 2. 查爾姆斯理工大學 建筑與土木工程系,查爾姆斯 41296; 3.浙江大學 建筑工程學院,浙江 杭州 310058)

智能網聯車(connected and automated vehicle, CAV)是近年來道路交通領域革命性的發展方向,有望從微觀行駛行為層面改善傳統交通流特性[1].自適應巡航控制(adaptive cruise control,ACC)和協同自適應巡航控制(cooperative adaptive cruise control,CACC)是CAV技術發展的重要階段.然而,在未來相當長的時間里,CAV的市場滲透率將逐步增長,CAV將與普通車輛(regular vehicle, RV)長期共享有限的道路資源.CAV環境下的交通調控和資源整合優化是一項極具挑戰的課題.Chen等人在研究自動駕駛車輛換道決策模型時,通過層次分析法和逼近最優解的排序思想,對普通的換道決策進行多屬性賦值,從而實現車輛換道安全和效率的平衡約束[2].Talebpour等人在車聯網環境下提出了一種基于博弈論的車輛換道決策模型[3].Meng等人在此基礎上,結合結構平衡理論,構建了滾動時域控制的博弈換道決策模型[4].他們認為車輛換道決策問題可分解為換道價值和換道安全兩個子問題,并在應用博弈論對車輛間影響、換道安全和駕駛效率綜合考慮后給出換道決策.

然而,國內外學者在混合交通流特性研究方面還處于起步階段.一方面,相比于RV,CAV具有更小的反應延遲時間,在行駛過程中與前車保持更小的車頭時距,借此可以提升行駛速度;另一方面,CAV具備與周圍同類型車輛相互通信的能力,這一能力可以使得CAV在換道操作過程中獲得更多信息,有助于生成并執行更加靈活、智能的決策.因此,CAV有可能對提升道路通行能力發揮積極效能[2-8].此外,自動駕駛汽車可能會降低能源消耗和尾氣排放,對低碳出行也有一定的推動作用[9].

目前,國內外對智能網聯環境下的宏微觀混合交通流特性以仿真研究為主.宏觀方面主要依靠不同的車隊車輛間距、車輛換道策略分析混合交通流宏觀特性[6, 10].然而,由于宏觀模型通常在該問題上進行了大量的假設,容易使得分析結果與實際條件產生較大的差異.采用均衡交通流模型的文獻多數基于流密曲線.微觀行為分析是研究此問題的主流途徑[11-12].通過考慮混合交通流的離散性,分解CAV及RV不同的跟馳及換道行為來進行仿真演化,并反應混合交通流的整體宏觀特性.元胞自動機(cellular automata model, CA)是一種經典的中(微)觀交通研究基礎模型,它能夠通過制定簡單的演化規則來有效地模擬并復現微觀交通的非線性特征,從而被大量地作為基礎模型并應用于各種特殊環境下的微觀交通流研究[13-18].然而,由于CAV與RV是兩種不同的智能體,傳統的CA固定規則無法很好地描述CAV的智慧跟馳及換道行為,因此難以揭示出逼近真實的混合交通流特性.到目前為止,嵌入CAV智能性的混合交通流的仿真研究依然缺乏.

近年來,以強化學習為代表的人工智能領域迅速興起,并在自然語言處理、圖像識別等方面取得重大突破[19-20].強化學習是智能體以從環境狀態中得到累積獎勵值為目標而進行動作選擇的映射學習[21-23].不同于元胞自動機規則化的行為選擇,強化學習通過試錯過程來進行最優行為策略映射.Q學習是一種流行的免模型強化學習方法,通過值迭代的方式逼近馬爾科夫決策過程中的最優策略,可以很好地體現CAV駕駛行為的不確定性及智能性.尤其在CAV以車群行駛時,映射空間復雜,強化學習方法仍然可以在動作空間上進行無監督模式映射.

鑒于此,考慮一種結合元胞自動機及強化學習的多智能體混合交通流仿真模式.對于RV,在CA強規則行為方式上加入Gipps跟馳模型進行更細致的改進[24-26];對于CAV,一方面為突出其駕駛行為的不確定性,另一方面為呈現其具備的更高的智能水平,因此通過基于改進Q學習來訓練不同周圍環境下的CAV,以此訓練形成CAV的非線性動態駕駛特性.在此基礎上對混合交通流的宏觀特性進行分析,并對該特性產生的影響進行總結.

1 研究背景

1.1 RV演化模式

傳統的NaSch元胞自動機模型遵循線性跟馳思想,認為駕駛員對速度的反應不會反應在跟馳距離上[27].之后的學者們對NaSch進行改進,揭示了非線性跟馳模型更能合理地反應真實交通狀況[28-30].Gipps提出的安全距離模型是一種常見的非線性跟馳模型,該模型認為車輛速度由當前理想速度、最大加速度和安全制動距離決定.考慮將Gipps模型引入CA,即無論前方車輛是否為CAV,dsafe,n表示第n輛普通車與前車在任何時刻都應保持的最小安全跟馳間距.極限情況如圖1所示.此時,

dsafe,n=xn-1(t)-xn(t)-l=μ·vn(t)+

(1)

式中:xn-1(t)、xn(t)分別表示t時刻前方第n-1車輛與本車位置;l為車輛n的長度;μ為駕駛員反應時間;vn-1(t)、vn(t)分別表示前方n-1車輛與該車在t時刻的速度;b表示車輛n的最大減速度.設lcell表示單元元胞長度,則在CA模型中車輛n在t時刻的最小安全跟馳間距dsafe,n(t)應為

dsafe,n(t)=dsafe,n(t)lcell·lcell

(2)

RV在跟馳過程dsafe,n中根據調整下一時間步的車速來避免與前車發生追尾,即存在安全跟馳速度vsafe,n(t+1)如下:

vsafe,n(t+1)=min({vn(t)+2.5aμlcell[1-vn(t)vmax]·0.025+vn(t)vmax}/lcell,

(μb+(μb)2-b{2[xn-1-xn-l]-μvn(t)-2vn-1(t)2bn-1(t)+bn-1(t-1)})/lcell)

(3)

式中,a為車輛最大加速度,vmax為車輛最大行駛速度,bn-1(t)表示前車在t時刻的減速度值.

圖1 安全跟馳間距示意

1.2 基本更新規則

普通車RV依照CA模型的通用規則框架按序進行t→t+1更新.每一規則均對應了特定的車輛操作.

(1)換道規則.換道行為是車輛在多車道環境下常見的駕駛操作.基于文獻[31]中的換道規則,考慮當車輛n在式(4)~式(6)環境時會以一定的概率pchange進行換道操作,即

dn

(4)

dn,other>dn

(5)

dn+1,other>vn+2(t)+δ

(6)

式中:dn,other,dn+1,other分別表示旁車道前方及后方距離;vn+2(t)為旁車道后方車t時刻車速.δ衡量車輛n的換道操作水平[32],δ越大,表現為越強制性換道,即在考慮換道時對目標車道后方車輛的間距及速度的要求越低.

(2)加速規則.車輛在行駛過程中,當第n車輛在每個時間步開始時首先進行按常規加速度進行加速行駛估計.該步驟速度僅反映駕駛員試圖保持高速行駛的意圖,還需在接下來進行安全距離判斷,因此不作為最終速度.

vn→min(vmax,vn+a)

(7)

(3)確定性減速規則.傳統NaSch模型設置方式不同,該規則主要保證了車輛間應保持的安全距離.當第n車輛與其前方車輛之間的距離小于該車行駛時所需要保持的安全距離dsafe,n、或該車行駛速度在經加速規則后超過安全速度vsafe,n時,為確保安全駕駛則需要進行確定性地減速.

vn→min(vn,vsafe,n,dn,dsafe,n)

(8)

(4)隨機慢行.考慮到駕駛員在行駛過程中可能存在的駕駛行為不穩定性,在演化規則中引入隨機慢化概率prandom(0≤prandom≤1).行駛過程中的車輛按照隨機慢化概率進行速度的慢化以更真實反映駕駛員的行駛不確定因素.

vn→max(0,vn-1)

(9)

(5)位置更新.在速度演化更新規則的基礎上,進行車輛位置的更新.

xn→xn+vn

(10)

2 CAV行為建模

如前所述,CAV的駕駛行為設計應遵循比RV更智慧的跟馳及換道策略.而目前大多數的CAV行為模型是在保證安全的條件下以自我利益最大化為目標、不考慮對周圍車輛的影響的建模方式.隨著CAV滲透率的提高,CAV與RV、CAV與CAV之間的動態交互將對車輛群體產生復雜的影響作用.

2.1 基于Q學習的訓練方法

在強化學習領域,Q學習系統是一種典型的離散人工智能學習系統.在無需任何外界預先知識的情況下可以使學習主體(智能體)從零學起,直至形成一套足夠優化的映射規則,因此可應用于CAV的行駛模式構建.Q學習系統由3個方面組成[33]:環境E、動作庫A和獎勵值r.智能體在狀態S下選擇特定動作A的過程稱為策略π,即π:S→A.因此,在t時刻時智能體在狀態st時首先選擇動作策略a,隨后外部環境給予獎勵,智能體接收獎勵并評估,以此決定下一動作并進入下一狀態st+1.累積獎勵值V為未來獎勵的折現,回報折扣因子為γ(0≤γ≤1).智能體依靠累積獎勵值的最大化,進而由反饋機制引導其在連續時間點中采取智慧高效的動作.設Qπ(s,a)表示在狀態s時根據策略π而執行a動作的值函數估計,則

(11)

π*=argmaxπVπ(s)

(12)

Qπ(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)=

(13)

式中:j為相對于時刻t的未來時間點;δ(s,a)為狀態轉換函數.Qπ(s,a)的更新滿足Bellman方程如下:

Qπ(st,at)=∑st+1[p(st,at,st+1)·r(st,at,st+1)]+γ∑st+1,at+1[p(st,at,st+1)·Qπ(st+1,at+1)]

(14)

式中:p(st,at,st+1)為狀態st時,智能體采取動作at轉移到st+1狀態的概率;r(st,at,st+1)表示動作at和狀態st轉移到st+1的回報值.Q學習對應的最優動作估計Qπ*(s,a)和最優策略π*(s)為

Qπ*(s,a)=maxπQπ(s,a)

(15)

π*(s)=argmaxπ[r(s,a)+γV*(δ(s,a))]=

argmaxaQ(s,a)

(16)

綜上所述,可以總結基于Q學習的CAV訓練過程:首先,確定車輛的狀態定義和動作選擇集合,構建由不同狀態和動作選擇組合的二維Q表;其次,將CAV放入仿真環境運行,并混以不同比例的普通車輛,結合式(11)~式(16)迭代更新Q表,以形成車輛完整的狀態-動作映射;最后,在正式仿真過程中,收集交通微觀數據,統計宏觀交通特性.

2.2 車輛狀態定義

目前在CAV的主流仿真研究中,均假設了車輛具備一定的周邊交通感知能力及協同能力[34-35].因此,為體現CAV應有的智能水平,在跟馳和換道過程中除考慮自身行駛狀態,還需要考慮本車所在車道的前方最近車輛n-1、相鄰車道前后方最近車輛n-2、n+2的車輛行駛狀態,并認為以上4車的行駛狀態決定了本CAV的行駛策略.圖2綜合考慮以上多變量影響因素在車輛行駛過程中表現出的高度動態性,為了更好地模擬真實狀態,車輛n通常需要考慮連續若干時間步的狀態,并結合自身的最優行駛利益來決定下一時間步的行駛策略.

圖2 CAV狀態

Sn(t)=[vn+2;pn+2;dn+1,other;vn;dn;dn,other;vn-1;pn-1;vn-2;pn-2]

(17)

其中,pi表示i號位置對應的車輛類型(i∈{n-1,n-2,n+2},pi∈{CAV,RV,None}).若i號位置無車輛,則pi=None,vi=0.可以看出,在雙車道環境下,當第n輛CAV車輛在跟馳CAV或RV時,由于pn-1取值不同,因此所對應狀態表征也不同,據此可以做出不同的動作選擇.

2.3 狀態動作選擇

一般情況下,車輛的動作空間Aall有6個不同動作,分別為:本車道減速“F-”、本車道保持車速“F=”、本車道加速“F+”、換車道減速“C-”、換車道保持車速“C=”、換車道加速“C+”.為確保車輛間無碰撞無追尾等沖突發生,需要對CAV添加一定的先驗知識,以避免缺乏合理性的模擬過程,從而顯著提高學習效率.如當dn=0時車輛n不可能采取本車道加速的“F+”動作.設車輛n在狀態S時可行的非空動作空間為Afeasible,n(S),且Afeasible,n(S)∈Aall.為了充分體現Q強化學習方法的在線學習性,采用ε-貪婪策略選取即時動作,即車輛n處以ε的概率執行Q表中狀態S的動作價值最大對應的動作,以(1-ε)概率隨機執行動作,即

(18)

其中,rand()表示[0,1]中一個隨機數,F(·)表示隨機選擇函數.獎勵值的設置以行駛目標為準則.基于所有車輛均以獲得最大平均速度為行駛目標的假設,因此Q學習中的獎勵應引導CAV嘗試提速操作.獎勵值計算如下:

r=vn(S′)-vn(S)

(19)

式中:vn(S)表示車輛n在狀態S時的車速,且S′:S×π(S).

2.4 混合訓練

CAV與RV在仿真系統中的訓練過程如圖3所示.由于混合交通流中CAV與RV共存,兩種智能體分別由Q學習和CA構造,因此考慮對Q學習進行改造,取消Q學習中的周期,并將Q學習中的迭代步與CA的時間步訓練演化策略相融合.同時,系統中所有CAV共享Q表,以顯著加速強化學習速度.

3 仿真與數值分析

3.1 仿真設計

仿真平臺由python語言編寫,以道路長度L=3 km的雙車道作為仿真模擬環境.為更細致地反應車輛在車道上的行駛性質,單元元胞長度lcell設置為1 m,車輛車身長度l為5 m,即單車占用5個連續元胞.車輛最大行駛速度vmax為25元胞·s-1(90 km·h-1),最大加速度a與最大減速度b分別設為5元胞·s-2、10元胞·s-2.RV的換道操作水平δ={-2,-1,0,1,2},隨機慢行概率Prandom=0.05.為簡化分析維度、更大程度地揭示兩種車型不同的微觀行駛特性、提高仿真效率,假設換道概率Pchange=1,即當車輛滿足換道條件時便采取換道操作.設N表示車輛總數,β為CAV車輛滲透率,T為有效仿真時長,則車流平均速度為單位時期內所有車輛速度總和的平均值,車流平均密度為每公里每車道平均的車輛數,流量為單位時間內通過某一道路橫截面的車輛數.

圖3 仿真模擬過程示意圖

(20)

(21)

(22)

(23)

式中:i為具體車道編號,即i={1,2}.

整個仿真過程分為訓練過程及正式模擬過程.在訓練過程,分別在不同密度不同CAV滲透率下運行106時間步用于訓練并形成CAV的運行模式;在正式模擬中,每次演化時間步,只保留最后5 000步作為有效穩定結果.每種仿真環境均重復運行20次,將每次仿真得到的車道平均密度、車輛平均速度及平均流量再次平均化并以此最終仿真結果,用以降低瞬時效應.

3.2 不同CAV滲透率下的交通流特征分析

圖4反應了不同密度及CAV車輛滲透率對混合交通流特征的影響程度.可以清晰看出車輛密度和CAV滲透率對混合交通流的通行能力及平均速度的影響效用.從圖4a可以看出,對于一定的β,密度與車輛速度呈現反相關關系.密度越大,車輛速度越低,并且當30 veh·km-1≤ρ≤40 veh·km-1時影響效果最顯著.另一方面,β對速度的影響表現出了明顯的非線性,即Q學習下CAV與CA強規則的RV具有不同的演化方式.當ρ在0~20 veh·km-1區間(車流稀疏)時,β對速度的影響程度不大.當ρ在20~60 veh·km-1區間(車流趨于擁堵),且β在0~0.65區間內時β對速度的影響程度較弱,此時車流仍具有較大速度;當β在0.65~1.00時β對速度的影響程度加強,表現為在同一密度下,β越大,車流速度越大;當ρ在60~160 veh·km-1區間(車流處于輕微擁堵至較重擁堵狀態),β的提高顯著減小了密度對車速的影響程度;當ρ大于160 veh·km-1時,即交通處于嚴重擁堵,β對車流速度的影響程度降低,但仍然滿足正相關關系.

a β-ρ對速度的影響

b β-ρ對速度的影響

由式(23)可知,圖4b與圖4a的流量與速度在β與ρ的變化上具有相似特征,且由圖5還可以看出,當β=0時,道路最大通行能力Qmax=2 073 veh·h-1;當β=1時,Qmax=3 013 veh·h-1,即100%CAV的交通條件下通行能力提升了45.34%.此外,定義Φη(β)為在β一定時,密度ρ對應的車輛流量Qρ大于η·Qmax的密度區間,即

(24)

η=0.85時不同的β所對應的Φη(β)如圖6所示.可以看出,β有效地延長了道路高通行能力的適應密度.

由以上混合交通流特征分析可以看出,伴隨CAV滲透率的提高,交通流狀態有明顯改善.分析原因,主要是:

(1)CAV允許更小的車頭時距,CAV可以以更緊密的車隊集合行駛;

(2)經過充分優化訓練的CAV智能體對每個可選動作都事先加以評估,并選擇最優駕駛行為,以期在動態交通環境中達到更大速度,從而提升整體交通流的通行能力和平均速度.

a 速度-密度關系

b 流量-密度關系

圖6 Φ0.85(β)范圍曲線

3.3 換道頻率分析

研究表明,頻繁的換道是引發交通擁堵及事故的主要成因之一[36].換道操作改變了車輛橫向穩定性,會對交通流產生重要影響.定義混合流換道頻率fLC為單位時間單位車輛的換道次數,由普通車輛及CAV車輛的換道頻率計算得

(25)

式中:Np,LC為有效仿真過程中p類型車輛的換道總次數;Np為p類型車輛數.仿真結果如圖7所示.

另一方面,隨著ρ的增加,fLC、fCAV,LC、fRV,LC在不同β下均呈現類基本圖走勢.ρ越大,保持的換道頻率水平越低.具體而言,當ρ低于轉折點對應密度時,車輛間仍具有相對充足的空間進行自由換道操作,此時fLC、fCAV,LC、fRV,LC與ρ呈現正相關關聯性;當高于轉折點對應密度后,受道路空間限制的趨勢加強,fLC、fCAV,LC、fRV,LC表現為與ρ呈反相關.此外,相比于CAV,由于RV的換道條件對道路空間要求更高,因此fRV,LC表現出對ρ變化更加敏感.

圖7 不同滲透率、不同密度的換道頻率

4 結論

通過探索一種雙車道環境下的強化學習方法與元胞自動機相結合的演化機制,提出了基于改進的Q學習方法,精準模擬普通車和智能網聯車輛的微觀行駛策略,以此構建了一種針對雙車道環境下混合交通流的高效仿真方法.此方法以個體優化為目標,探討CAV微觀駕駛行為所產生的集聚效應是否對交通流有優化作用,得到結論如下:

(1)相比于高度規則化的元胞自動機,強化學習形成的行駛策略具有更高的靈活性及相鄰時空環境適應能力,更符合CAV的智慧行為特征;

(2)不同車流密度條件下,道路通行能力及車流平均速度可隨著CAV滲透率的提高而增加,且維持高通行能力的密度范圍也同步擴大,一定程度上延后了車流擁堵密度;

(3)不同車流密度條件下,隨著CAV滲透率的提高,混合車流換道頻率降低,車流橫向穩定性增強.

由于采用的對稱式雙車道的道路仿真環境相對簡單,對整體交通情況的刻畫還不夠貼近,因此可能與現實情況還存在一定差距.將來的研究工作需要進一步改進道路模型,也需要對更復雜的道路交通環境下的混合交通流特性進行深入研究.

猜你喜歡
元胞交通流車流
基于元胞機技術的碎冰模型構建優化方法
基于LSTM的滬渝高速公路短時交通流預測研究
京德高速交通流時空特性數字孿生系統
基于改進點-弧模型的鐵路網車流徑路優化模型研究
道路躁動
故鄉的車流(外一首)
基于元胞自動機下的交通事故路段仿真
基于元胞自動機下的交通事故路段仿真
基于元胞數據的多維數據傳遞機制
參考答案
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合