顧及路口壓力的A2C交通信號調控

2023-10-29 01:46郭全盛林建新李建武

計算機仿真 2023年9期

張蕾,郭全盛,林建新,李建武

(1. 北京建筑大學電氣與信息工程學院,北京 100044;2. 建筑大數據智能處理方法研究北京市重點實驗室,北京 100044;3. 北京建筑大學土木與交通工程學院,北京 100044;4. 北京理工大學前沿技術研究院,北京 100081)

1 引言

近年來,隨著城市的不斷擴張以及人口的快速增長,全球大都市中的交通運輸需求急劇提升。超大規模的交通流量給現有基礎設施帶來巨大壓力,導致嚴重擁堵,加劇了碳排放污染,給城市規劃、社會穩定帶來負面影響。緩解城市交通擁堵是國家“十四五”規劃中加快建設交通強國的重點和難點,是刻不容緩的。城市交通車流量變化之間有著復雜且緊密的聯系,通過有效調控,疏導車輛選擇合適的通行線路,為有關部門提供科學的決策支撐,進行有針對性的交通疏導,提高通行效率和經濟效益。

自適應交通信號控制(Adaptive Traffic Signal Control,ATSC)旨在根據交通現狀實時調控交通信號燈的變化,緩解交通路網中存在的交通擁堵現象,提升車輛通行效率。在網格狀的路網中,如在車流量密集的市中心區域,傳統的多道路交叉口控制方法通過在所有交叉口之間設置固定偏移量實現協調控制,最經典的是FixedTime算法[1],該算法設置了隨機偏移量和固定的信號變化時間。此外,美國交通運輸委員會與美國聯邦公路局編寫的信號控制手冊中也采用了類似方法[2]。然而,上述方法過于簡單,現實交通網絡難以達到理想狀態,很難通過固定偏移量進行全局優化。

針對此缺陷,研究人員提出基于優化的算法,最常見的是基于馬爾可夫決策過程(Markov Decision Process,MDP)的強化學習(Reinforcement Learning,RL)算法,用于對真實世界的交通量進行動態調控[3]。例如,Wei等[4]提出基于強化學習的IntelliLight模型,使用深度Q網絡(Deep Q Network,DQN)對交通環境進行分析,進而預測交通信號燈的下一個狀態。近年來,強化學習領域的重要分支——Actor-Critic (A2C,演員-評論家)算法被廣泛用于ATSC中,并通過深度神經網絡(Deep Neural Network,DNN)來模擬A2C的策略和狀態[5]。Hua等[6]提出了CoLight模型,使用圖注意力網絡結合相鄰交叉點之間的影響,用于對多個交通信號燈進行控制。Chu等[7]提出了多智能體A2C模型(Multi-agent A2C,MA2C),將深度神經網絡與多智能體強化學習(Multi-agent Reinforcement Learning,MARL)結合,在交通信號控制領域中得到了較好的實驗效果。然而,以上算法的表達能力易受策略設計的影響,即錯誤的策略反而降低交通調控的效果。

2 相關工作

2.1 強化學習算法

強化學習主要分為三類:基于價值的方法(value based)、基于策略的方法(policy based)和演員-評論家算法(Actor-Critic,A2C)。由于A2C算法既可以處理高維連續的行動,又可以單步更新快速學習,因此,在具有線性回歸智能體的ATSC中,A2C算法的表現優于前兩種[10]。

(1)

(2)

2.2 多智能體Actor-Critic算法

在多智能體網絡G=(V,ε)中,V是節點集,ε是路徑集。如果節點i和j之間存在邊,則稱它們為鄰居節點。i的鄰居節點定義為Ni,本地區域定義為Vi=Ni∪i。此外,d(i,j)為連接任意兩個智能體之間的最小邊數。

在多智能體Actor-Critic算法 (Multi-agent Actor-Critic,MA2C)中,首先,提取鄰居節點的策略信息,用來提高每一個智能體的可觀察性;其次,提出空間折扣因子,削弱來自其它智能體狀態和獎勵的信息。在智能體之間聯系有限的情況下,從鄰居智能體之間抽樣最新策略πt-1,將Ni=[πt-1,j]j∈Ni作為深度神經網絡的輸入,此時,當前狀態為st,Vi。局部(local)策略公式如下

πt,i=πθi(·|st,Vi,πt-1,Ni)

(3)

其中,πθi為第i個智能體采用策略梯度算法直接用參數化模型擬合的策略[11]。由此,局部智能體將接收到實時的最近鄰居智能體的策略。這是基于兩個交通控制事實:首先是交通狀態在短時間內變化緩慢,因此,當前步驟策略與最后一步策略非常相似;其次是在當前的狀態和策略下,交通狀態的動態變化符合馬爾科夫決策過程。

雖然局部智能體知道局部區域狀態和鄰域策略,但難以通過局部的價值回歸來擬合全局回報。為了達到全局合作的效果,假設全局獎勵分解為rt=∑i∈Vrt,i,引入空間折扣因子α,調整智能體i的全局獎勵

(4)

其中,Di是與智能體i之間的最大距離,α類似于強化學習中的時間折扣因子γ,此處是按照空間順序而不是時間順序按比例縮小信號,折扣全局獎勵在貪心控制(α=0)和合作控制(α=1)之間得到平衡,且與估計局部策略πθi的優勢更相關。使用α將鄰居狀態轉化為

(5)

(6)

其中,Vωi是智能體學習到的價值函數。價值損失式(2)變為

(7)

(8)

3 顧及路口壓力的多智能體Actor-Critic算法

為了避免傳統強化學習中各智能體之間缺乏聯系、算法策略不佳等問題,提出顧及路口壓力的多智能體Actor-Critic算法(Intersection Pressure-based Mulit-agent A2C,IPMA2C)。首先,基于顧及路口壓力的強化學習策略對交通路口進行分析,通過緩解壓力的方法對路網進行優化;其次,構建基于深度神經網路的多智能體Actor-Critic模型,提升交通調控能力。

3.1 基本定義

1) 交通路口的進車道、出車道

交通路口的進車道是車輛進入交通路口的車道,交通路口的出車道是車輛駛出該路口的車道。將交通路口的進車道集合表示為Lin,出車道集合表示為Lout。

2) 交通運動

交通運動定義為汽車從一個進車道通過一個交通路口行駛到一個出車道。將通過一個交通路口的交通行為表示為(l,m),其中,l是進車道,m是出車道。

3) 運動信號、相位

以交通路口信號控制車輛的運動,其中,綠燈表示允許移動,紅燈表示禁止移動。將運動信號定義為a(l,m),其中,a(l,m)=1表示綠燈,即允許運動(l,m),a(l,m)=0表示紅燈,即禁止運動(l,m)。相位是運動信號的組合,定義為p={(l,m)|a(l,m)=1},其中,l∈Lin,m∈Lout。

4) 運動壓力、交通路口壓力

(9)

如果所有車道的最大容量xmax相同,則w(l,m)只表示進出車輛數量之間的差異。

交通路口i的壓力定義為所有交通運動的絕對壓力之和

(10)

壓力Pi表示車輛進出密度的不平衡程度,Pi越大,車輛分布就越不平衡。

因此,將多路口交通信號調控問題描述為:每個路口都由一個強化學習智能體來控制交通信號燈,在每個時間步t內,智能體i從環境中觀察到自己的狀態。給定車輛分布和當前信號階段,智能體的目標是采取最優動作at,i(即交通路口的信號燈進入哪個階段),從而獲得最大獎勵(即所有車輛的平均行駛時間最短)。

3.2 智能體

1) 狀態(State)

狀態是為一個單獨的交通路口定義的,即多智能體強化學習中智能體觀察到的內容,包括該交通路口i在t時刻每個進車道的車輛數xt,i(l)(l∈Lin,i),及在t時刻出車道的車輛數xt,i(m)(m∈Lout,i)。狀態表示為

st,i={xt,i(l),xt,i(m)}l∈Lin,i,m∈Lout,i

(11)

其中,l是交通路口i的進車道,m是交通路口i的出車道,Lin,i是進車道的集合,Lout,i是出車道的集合。

2) 動作(Action)

在t時刻,每個智能體從動作集A中選擇一個動作at,i作為該階段的動作,即信號接下來的狀態。每個智能體有四個動作,分別為東西直行,東西左轉,南北直行,南北左轉,如圖1。

圖1 動作定義圖

圖1中,(a)東西直行 (b)東西左轉 (c)南北直行 (d)南北左轉

3) 獎勵(Reward)

定義智能體i的獎勵為

rt,i=-Pt,i

(12)

其中,Pt,i是第i個交通路口在t時刻的壓力,即進出車道上車輛密度之間的不平衡程度。通過最小化Pt,i,使路網內的車輛可以均勻分布,進而優化路網的車輛吞吐量。

3.3 IPMA2C模型

由于交通流是復雜的時空數據,如果智能體只知道當前時刻的狀態,則馬爾科夫決策過程可能會變得不穩定。最簡單的方法是將所有歷史狀態全部輸入到Actor-Critic算法中,但是會顯著增加狀態的維度,減少Actor-Critic對最臨近交通狀況的關注。LSTM可以保持隱藏狀態并記住簡短的歷史信息[12],因此,本文將LSTM作為隱藏層,從輸入中提取信息。

IPMA2C模型如圖2所示。首先,狀態和鄰居策略分別輸入到全連接層FC;然后,利用LSTM作為最后一個隱藏層從狀態中提取特征;輸出層連接Actor-Critic算法的Actor和Critic兩部分,其中Actor對應的是Softmax函數,Critic對應的是Linear函數。采用正交初始化[13]和RMSprop[14]作為梯度優化器。對于每個輸入的狀態,采用貪婪策略收集交通環境的統計數據。為防止梯度爆炸,所有歸一化的狀態被縮放到[0,2]范圍內,且每個梯度的上限為40。類似,將獎勵歸一化并縮放到[-2,2],以穩定小批量更新。

圖2 IPMA2C模型

4 實驗分析

4.1 實驗設置

基于SUMO[15]平臺,生成由25個交通路口和信號燈構成的模擬交通網絡,如圖3。該網絡由限速20m/s的雙車道主干道組成,其中,交通路口間的距離為300m。每個路口的動作包括:東西直行、東西左轉、南北直行和南北左轉四種,車輛可以自主右轉。設F1={x4->x10,x5->x11,x6->x12}(東->西),F2={x1->x7,x2->x8,x3->x9}(北->南)為兩組車輛起點至目的地(Origin-Destination,OD)的集合。

圖3 包含25個路口的5×5模擬交通網絡圖,圓圈內為示例交通路口

初始狀態,大量車流從F1的起點不斷生成,少量車流從F2的起點生成。15分鐘后,F1生成少量車流,F2則變為生成大量車流,由此循環往復。通過生成大量的車流以產生交通擁堵,檢測IPMA2C模型在交通疏導方面的能力。

為了在模型運行時間Ts內模擬交通環境,定義Δt為強化學習中智能體與交通環境之間的交互周期。如果Δt太長,智能體無法對路網產生有效調控;如果Δt太短,智能體的即時決策將無法按時傳達。此外,如果交通燈的控制切換過于頻繁,則會存在安全隱患。設Ts=3600s,Δt=5s。對于馬爾科夫決策過程,設γ=0.99,α=0.75,獎勵系數a=0.2veh/s,狀態和獎勵的歸一化因子分別為5veh和2000veh;對于IPMA2C模型,設minibatch的大小|B|=120,β=0.01。

為了驗證IPMA2C模型的效率和穩定性,將其與傳統的經典交通控制模型進行對比。選取的基準模型如下:

1)具有隨機偏移量和固定變化時間的FixedTime方法[1];

2)對車輛等待時間和隊列長度進行優化的多智能體Actor-Critic算法(MA2C)[7];

3)學習智能體之間互相影響和聯合動作的CoLight算法[6]。

4.2 實驗結果

圖4為IPMA2C模型與其它基準模型在一個小時內到達目的地的車輛數量變化情況。在開始的前15分鐘,IPMA2C模型并未展現出優勢,這是因為雖然有大量車流進入路網,但尚未造成嚴重擁堵,此時,傳統交通控制方法均可實現良好的調控。隨著路網中車流量越來越大,IPMA2C模型的優勢開始逐漸顯現,最終,有更多車輛到達目的地,性能優于其它模型。

圖4 車輛到達數量對比圖

圖5為網內車輛平均速度的變化情況。在前15分鐘,即沒有擁堵時,四種模型的平均車速均逐漸上升。當產生嚴重擁堵時,四種模型的平均車速均開始下降。但在整個過程中,IPMA2C模型的平均車速均高于其它三種模型,體現了最優性能。

圖5 平均速度對比圖

表1為其它評價指標的統計結果,IPMA2C模型提升了交通調控效率。其中,車輛的平均行程時間縮短了至少5%,平均行程等待時間縮短了8%,平均行程時間損失縮短了7%,而平均行程速度提升了至少6%。這些實驗結果均表明IPMA2C模型的性能優于其它基準模型。

表1 實驗結果統計表

相比其它方法,IPMA2C通過顧及路口壓力的強化學習策略,對路口的狀態進行分析,通過基于深度神經網絡的Actor-Critic算法對交通信號進行調控。顧及路口壓力的強化學習策略,將關注重心放在減少路口等待車輛的數量上,而非縮短車輛等待時間;在基于深度神經網絡的Actor-Critic模型中,全連接網絡FC有強大的特征提取能力,LSTM作為隱藏層具有長時記憶的能力,可以保留歷史信息。因此,在緩解擁堵方面有更好的效果,性能也是最好的。

5 結束語

本文提出一種新穎的顧及路口壓力的多智能體Actor-Critic算法,用于對交通信號進行智能調控,緩解了交通擁堵。首先,設計更合理的顧及路口壓力的強化學習策略;其次,提出基于深度神經網絡的IPMA2C模型;最后,在模擬交通網絡中驗證IPMA2C模型的魯棒性、最優性,其性能優于其它傳統的基準算法。

在未來工作中,將研究更先進的策略優化模型,并嘗試將其推廣到交通路口數量更多、路網更復雜的真實環境中進行測試。