?

基于請求與應答通信機制和局部注意力機制的多機器人強化學習路徑規劃方法

2024-03-21 02:24鄧輔秦官檜鋒譚朝恩付蘭慧王宏民林天麟張建民
計算機應用 2024年2期
關鍵詞:注意力局部觀測

鄧輔秦,官檜鋒,譚朝恩,付蘭慧,王宏民,林天麟,張建民*

(1.五邑大學 智能制造學部,廣東 江門 529000;2.香港中文大學(深圳)深圳市人工智能與機器人研究院,廣東 深圳 518000;3.深圳市杉川機器人有限公司,廣東 深圳 518000)

0 引言

隨著時代的進步,電商、物流、戶外搜索等行業的大力發展越來越離不開多機器人系統,而多機器人路徑規劃(Multi-Agent Path Finding,MAPF)是多機器人系統的重要組成部分[1]。MAPF 旨在為全部機器人規劃出少阻塞甚至無阻塞的一組路徑,一些基于圖節點結構的搜索方法如A*、基于碰撞的搜索(Conflict Based Search,CBS)、D*Lite 在簡單、擁擠程度低的非動態環境具有較高的求解效率[2-6]。然而,在一些特定的場景(如過道擁擠的動態倉儲環境、災后搜索等障礙物無規則分布的復雜環境),上述方法存在兩個主要問題:1)機器人難以對周圍的動態環境建模;2)機器人因為缺少信息交互而規劃出不協調的動作策略。

隨著深度學習在圖像領域的快速發展,結合深度學習的深度強化學習方法能夠使用卷積神經網絡(Convolutional Neural Network,CNN)等圖像處理技術對動態環境進行圖像化建模,此外,基于神經網絡支持多維信息輸入的特性,設計進行信息交互的神經網絡架構,故而在一系列決策任務中獲得顯著的成功,如游戲領域和多機器人路徑規劃領域[7-9]。雖然每個機器人能夠利用CNN 對其視野進行特征提取,但是該網絡缺乏高效的信息傳遞功能。

有效的溝通是合作成功的關鍵,近年來,一些方法如VDN(Value-Decomposition Network)[10]、QMIX[11-12]、QTRAN[13]學習每個機器人的獨立Q 函數,并使用混合網絡將這些局部狀態行動值(Q 值)組合成全局狀態行動值,進行一定的信息傳遞實現對動作策略的優化。上述方法屬于集中式的方法,能融合所有機器人的信息參與決策,但也會帶來冗余的信息,增加方法計算量。因此,如何為每個機器人提供本身所需的精準信息并降低網絡計算量,成為重要研究方向。

為了降低多機器人路徑規劃的阻塞率,本文基于Actor-Critic 架構提出一種分布式請求與應答通信機制與局部注意力機制的多機器人深度強化學習路徑規劃方法(Distributed Communication and local Attention based Multi-Agent Path Finding,DCAMAPF)。針對機器人間信息傳遞效率不高、難以精確獲得所需信息的問題,本文設計一種基于請求與應答機制的Actor 網絡。如圖1 所示,以3 號機器人為例,3 號機器人請求視野范圍(灰色)其他機器人的局部觀測和動作信息,并主動獲取動態障礙物的相對位置信息,其中2、8、9 號機器人及時反饋信息。5 號機器人由于距離較遠、傳輸遲延等導致信息傳輸超時,而本文的Actor 網絡能自動屏蔽傳輸超時帶給CNN 的影響。與此同時,3 號機器人也會主動感知視野內的動態障礙物,獲得其動態障礙物的相對位置,作為本機器人局部觀測信息的一部分。最終,將應答的信息和本機信息一起輸入Actor 網絡,進而規劃出3 號機器人的動作策略。針對全局注意力機制帶來的冗余信息的問題,本文提出基于局部注意力機制的Critic 網絡,該網絡能將注意力權重動態分配給視野內的其他機器人,降低計算量。

圖1 請求與應答機制(以3號機器人為例)Fig.1 Request-response mechanism(taking robot No.3 as example)

相較于最新的路徑規劃方法如基于進化方法與強化學習的多機器人路徑規劃(Multi-Agent Path Planning with Evolutionary Reinforcement learning,MAPPER)[14]、動態環境下基于注意力機制與BicNet 通信模塊的多機器人路徑規劃方法(Attention and BicNet based MAPPER,AB-MAPPER)[15],本文的主要工作為:

1)設計一種基于請求與應答通信機制的Actor 網絡,機器人請求視野內其他機器人的狀態信息與最新的動作信息,使機器人能獲得精確的局部觀測-動作信息,規劃出協調的動作,提高機器人的避障能力。

2)設計一種基于局部注意力機制的Critic網絡,機器人能夠將注意力權重動態分配給視野內的其他機器人,相較于全局注意力網絡,本文的Critic 網絡縮小注意力權重的分配范圍,降低注意力權重的計算量,將權重分配給更該注意的周圍機器人,提高策略優化的效率,減少顯卡緩存的占用量。

3)與傳統動態路徑規劃方法D*Lite、最新的分布式強化學習方法MAPPER 和最新的集中式強化學習方法AB-MAPPER 相比:DCAMAPF 在離散初始化環境,阻塞率均值約減小了6.91、4.97 和3.56 個百分點。在集中區域初始化環境下能更高效地避免發生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點,并降低占用的計算緩存。

1 相關工作

1.1 通信類強化學習方法

溝通有助于學習他人的經驗并傳遞知識,以更好地在團隊中工作,是形成智能的一個基本要素。在多機器人強化學習中,機間通信允許多個機器人通過合作完成共同目標。在部分可觀察的環境中,多機器人能夠通過通信分享它們從觀察視野中獲得的信息,規劃出更優的策略。

近年來的深度強化學習方法普遍基于Actor-Critic 架構,該架構由兩部分組成:Actor 網絡負責規劃動作策略;Critic網絡負責以Q 值的形式評估Actor 規劃出的動作策略,機器人每執行完一次動作策略,都會進行一次策略的優化,因此能快速提高方法收斂的速度。

Liu等[14]提出了MAPPER,每個機器人用圖像化建模的方式對視野內的環境信息進行表征?;谶M化方法在迭代一定次數后將挑選一個最大獎勵值的機器人所屬的網絡模型替換一些獎勵值低的機器人網絡模型,在一定程度上進行了信息傳遞,該機制使該方法在動態擁擠環境下的路徑規劃效率比近年較為經典的方法基于強化學習與模仿學習的路徑規劃方法(Pathfinding via Reinforcement and Imitation Multi-Agent Learning-Lifelong,PRIMAL2)方法[9]更高,因此,MAPPER 成為最新的多機器人強化學習路徑規劃方法,也是本文的對比方法之一。

通過替換網絡模型屬于一種規劃后信息交互的模式,這雖然能提高方法的收斂速度,但卻不能使機器人在規劃動作策略前獲得更精確的信息,不能為機器人規劃出阻塞率更低的動作策略。

1.2 集中式的信息傳遞強化學習方法

多機器人強化學習中大多數現有的通信工作都集中于廣播式通信,即將每個機器人的信息廣播到所有其他或預定義的機器人 。Sukhbaatar 等[16]提出了 CommNet(Communication Neural Net),每個機器人需要在一個公共的通道傳播一個通信向量,通過這個通道各自接收其他機器人匯總的通信向量。在合作任務中,該網絡提高了機器人的協作能力。然而,CommNet 對所有機器人的通信向量做算術平均操作,這意味著它將不同機器人的信息看作等價。由于CommNet 的公共通道將所有機器人的信息傳達給每一個機器人,每個機器人被動接收大量冗余信息,因此不適用于解決局部路徑沖突的路徑規劃任務。類似地,Peng 等[17]提出了基于雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經網絡的 BicNet(Multiagent Bidirectionally-coordinated Nets)通信網絡,與CommNet 要進行信息聚合不同,BicNet 是一種集中式的網絡,信息只在Actor 和Critic 網絡內流通,不會聚合,所有接入BicNet 的機器人都能接收其他機器人的信息。此外,LSTM 的門控機制使它能自主決定是否接收傳遞的信息以規劃動作,提高了通信的效率。Kim 等[18]提出了SchedNet 方法,該方法在Actor網絡上搭建了一個調度器模塊,該調度器模塊學習如何對機器人的局部觀測賦予權重進而在有限的通信帶寬下挑選最有利的局部觀測信息規劃動作。

1.3 分布式信息傳遞強化學習在Actor網絡的優化

上述隸屬于集中式的網絡模型雖然在一定程度上解決了機器人的通信問題,但普遍需要所有機器人的局部觀測信息作為輸入,導致方法難以在較多的冗余信息中甄別強相關信息,缺乏靈活性。隨著機器人數的增加,集中式方法難以從全局共享的信息中區分有助于合作決策的有價值信息[19]。

為了提高通信的靈活性,更精準地獲取其他機器人的相關信息,Jiang 等[19]提出了ATOC(ATtentional Communication)方法,該方法的Actor 網絡部分通過一個注意力模塊對視野內的其他機器人賦予權重,決定該機器人是否允許通信,從而選擇相應的協作者。在選擇協作者時,通信發起者依據距離依次在沒有被選擇過的機器人、別的發起者的協作者、別的發起者三個類別的機器人中選擇一個作為協作者,獲得了較為精準的信息,提高了通信的效率。類似地,有針對性的通信是提高通信效率的關鍵,Das 等[20]提出了TarMAC(Targeted Multi-Agent Communication)方法,該方法的Actor 網絡使用了注意力機制,信息發送方發送通信向量,在接收端的每個機器人會預測一個詢問向量,詢問向量將與所有通信向量進行點乘操作,其結果用歸一化處理之后采用Softmax函數得到每個通信向量的注意力權重,當通信向量與詢問向量相似時,注意力權重則比較高,實現有針對性的通信。Ding 等[21]提出了I2C(Individually Inferred Communication)方法,該方法的Actor 部分包含一個輸出置信度的優先級網絡,該優先級網絡決定視野內哪些機器人需要進行通信,隨后,通信發起者請求獲取被賦予置信度機器人的局部觀測信息,通信接收方應答發起者,實現點對點的通信,進一步提高通信效率。受I2C 網絡啟發,本文的Actor 網絡雖基于請求與應答機制,但與上述方法不同,本文的Actor 網絡不僅基于請求與應答機制獲取局部觀測信息,還會獲取其他機器人最新的動作信息,并在規劃動作策略前參考其他機器人的動作信息,因此能降低機器人的阻塞率,提高路徑規劃的效率。

1.4 強化學習方法在Critic網絡的優化

策略的評估和優化是提高機器人學習能力的關鍵,在Actor-Critic 架構中,Critic 網絡用于策略的評價。Parnika等[22]設計的基于注意力機制的Critic 網絡將注意力權重分配到所有機器人的局部觀測和動作信息上,并學習如何將較大的權重分配給需要關注的機器人。在AB-MAPPER 中,也使用基于注意力機制的Critic 網絡學習如何對機器人的局部觀測信息和動作信息賦予權重[15]。然而上述方法使用的是集中式的方法架構,每個機器人基于Critic 網絡進行策略評判時,需要其余所有機器人的局部觀測和動作信息,在機器人數較少時,注意力權重的分配范圍較小,注意力權重不會被稀釋;然而,隨著機器人數的增加,集中式網絡被輸入更多信息,注意力權重的分配范圍也會逐漸擴大,導致注意力權重被稀釋得越來越小,網絡難以區分哪些信息更需關注,不利于策略的優化。

事實上,只有周圍其他機器人的動作才會影響到當前機器人的決策,其他距離較遠的機器人的局部觀測信息和動作信息不僅對當前機器人的決策沒有幫助,反而會帶來冗余信息,干擾當前機器人的決策和策略優化。

為了降低冗余信息的干擾,Liu 等[23]在池化層與卷積層之間引入局部注意力網絡,有效增強了抑制無用特征的能力。類似地,本文為了降低冗余信息的干擾,基于請求與應答機制通信機制與局部注意力機制,將注意力權重只分配給應答成功的機器人,縮小Critic 網絡中注意力權重的分配范圍,不僅避免了冗余信息的干擾,還利用具有較強相關性機器人的信息參與策略優化,減少了顯卡緩存的占用量,提高了路徑規劃的效率。

2 本文方法

本文將機器人與環境的交互過程建模為部分可觀測馬爾可夫決策過程(S,A,P,R,O,M,γ),其中S是狀態空間,A是動作空間,P:S×A×S→[0,1]表示狀態轉移概率,R:S×A→R為獎勵函數,O代表局部觀測,M代表狀態轉移概率矩陣,γ是獎勵折扣因子[24-25]。類似PRIMAL2和MAPPER 中的環境建模方法,本文將環境的局部觀測由3 個有限視野(15×15 網格大小,如圖1 淺灰色區域)的觀測圖像組成,分別對應圖2(a)中每個機器人的局部觀測(Observation)Oi由3 個矩陣構成。第1 個矩陣存儲當前觀察到的靜態障礙物、周圍其他機器人和動態障礙物的相對位置,這些位置由不同的值表示;第2 個矩陣記錄了周圍其他機器人和動態障礙物的軌跡,對時間序列信息進行了編碼;第3 個矩陣記錄了當前機器人基于靜態環境圖通過A*方法規劃的局部參考路徑。Maxpool為最大池化層,FCN(Fully Convolutional Network)為全連接網絡,MLP(Multilayer Perceptron)為多層感知機,Dummy 為反饋動作信息失敗的機器人設置的無效動作向量,以保證網絡能夠正常運算。由于Actor-Critic 框架可以幫助強化學習方法通過當前策略的梯度有效地更新策略,適用于路徑規劃中的實時決策任務[26],因此本文使用Actor-Critic 架構。

圖2 DCAMAPF網絡架構Fig.2 Network architecture of DCAMAPF

基于集中式網絡架構的方法在獲取所有接入該網絡的機器人信息后,才能統一為所有機器人進行信息的數值計算,該類方法在通信時延小、機器人數較少的情況下具有能與其他機器人充分傳遞信息的優勢;然而,隨著機器人數的增多,信息流通存在計算量大、冗余信息多、無法為每個機器人精準獲取所需信息等問題。分布式網絡無須基于所有機器人的信息參與決策,每個機器人都有獨屬自己的方法網絡,能靈活地進行決策和優化,因此,將方法網絡模型進行分布式設計是一個可行方向。

本文方法主要分為三步:首先,基于請求與應答機制,機器人對視野內的其他機器人發送請求,請求它們的局部觀測以及最新動作信息,其他機器人在限定的時間內回應;其次,該機器人的Actor 網絡分別用兩種不同維度的CNN 對反饋的局部觀測信息和動作信息進行特征提取,進而規劃動作;最后,對于每一個機器人,基于局部注意力機制的Critic 網絡在請求與應答機制下將注意力權重動態分配到視野內成功應答本機器人的其他機器人局部觀測-動作信息上。

本文將Actor 網絡進行分布式設計,機器人之間的信息傳遞采用請求與應答機制,如圖2(a)所示,具體在Actor 網絡的改進如下:1)每個機器人在規劃動作前先獲取在本機器人視野里其他機器人的編號,并向它發送請求,期望獲取它的局部觀測信息(三維矩陣)和動作信息(a)i。2)視野內的機器人接收請求,并作出應答,反饋自己的局部觀測信息和動作信息。3)在規定時間內,機器人接收應答成功的機器人的局部觀測信息和動作信息,結合本身的局部觀測信息一并輸入到卷積神經網絡,最終規劃出本機器人的動作策略?;谡埱笈c應答機制的通信機制,既能捕獲周圍機器人的局部觀測信息以及動作信息、又不需要像集中式網絡匯集所有信息才能規劃策略,因此能提高信息傳遞的效率、利用更加精準的信息規劃出更優的動作策略。

在MAPPER 方法的Critic 網絡中,每個機器人只基于自己的局部觀測信息和動作信息進行評判,缺少與其他機器人進行信息傳遞,難以對機器人的策略進行充分的評判。在AB-MAPPER 中,每個機器人使用基于注意力機制的Critic 網絡將注意力權重分配到所有機器人的局部觀測信息和動作信息中,評判出Q 值,意味著注意力機制的分配范圍是全部機器人,換言之,該方法容易增加一些冗余信息,不利于策略的優化。此外,為了對局部觀測信息和動作信息進行編碼,也需要更多的編碼網絡,這導致Critic 網絡承擔更大的計算量以及需要更多的緩存。

注意力機制可以被描述成可查詢的鍵-值記憶模型,如圖3 所示,有3 個要素query(q)、key(k)、value(v)[22],這3 個要素實質上都是矩陣,通過式(1)計算出注意力權重矩陣ω:

圖3 注意力機制Fig.3 Attention mechanism

其中dk是k的維度。

本文設計了更加靈活的局部注意力網絡,如圖2(b)所示,本文以3 號機器人為例,3 號機器人只請求在其視野范圍內的其他機器人(2、5、8、9)最新的局部觀測信息和動作信息;隨后,在指定時間間隔內,其他機器人反饋回來的局部觀測信息和動作信息會將輸入單獨的多層感知機(MultiLayer Perceptron,MLP)進行編碼,得到狀態動作編碼(e2,e8,e9)。在本文中,k和v是狀態動作編碼即本文的e,q是狀態編碼即本文的F。每個注意力頭都是自注意力網絡,X3是vj的權重乘積和,j是成功應答3 號機器人的其他機器人編號集合,如式(2)所示:

ω3是3 號機器人分配給2、8、9 號機器人的注意力權重,如式(3)所示:

其中:F3是3 號機器人的狀態編碼。f是一層全連接網絡,h是多層感知機,最終,Critic 網絡對3 號機器人的評判值如式(4)所示:

與MAPPER 相同,本文使用Actor-Critic 架構下最新的優勢Actor-Critic 方法A2C(Advantage Actor-Critic),相較于原始的Actor-Critic 方法新增了一項優勢函數Advantage,在本文中,具體如式(5)所示,該函數作為衡量所規劃出動作策略的優劣,如果函數值大于零,則策略優:

R3是3 號機器人執行a3后環境反饋的獎懲值,γ是獎勵折扣因子。3 號機器人的Actor 網絡損失函數如式(6)所示:

Critic 網絡的損失函數如式(7)所示:

3 實驗仿真與結果分析

3.1 實驗設置

為驗證本文方法DCAMAPF 求解多機器人路徑規劃問題的性能,本文將傳統的基于圖節點搜索方法D*Lite、深度強化學習方法MAPPER 和集中式強化學習方法AB-MAPPER作為對比方法。實驗環境如圖4 所示,圖4(a)、(b)為20×20維度,35 個機器人(藍色紅字)30 個動態障礙物(人形),分別模擬機器人在災后搜索時集中初始化并向四周散開的場景和機器人災后搜索場景散開后遇到無規則障礙物分布的場景;(c)、(d)為24×30 維度,35 個機器人15 個動態障礙物,分別模擬機器人在倉儲環境集中初始化的并向四周散開的場景和機器人散開后遇到規則障礙物分布的倉儲場景。形狀較大的灰色方塊為靜態障礙物,黑色方塊為目標點,此外,本文在圖4(a)做了消融實驗,對比方法主要為最新的深度強化學習方法 MAPPER、MAPPER+local Attention、ABMAPPER。所有實驗在操作系統為Linux、編程語言為Python、深度學習依賴庫為PyTorch 的環境下進行。

圖4 實驗環境Fig.4 Experimental environments

為了公平比較,將在指定步數內成功抵達目標點的機器人數占機器人總數的比例定義為成功率,將路徑規劃途中為避免發送碰撞而選擇自主阻塞的機器人占機器人總數的比例定義為阻塞率。本文設置訓練迭代次數8 000,在方法收斂后,每個環境進行100 次路徑規劃任務測試,以獲得成功率和阻塞率均值。此外,本文統計了每個機器人占用GPU的緩存。

3.2 實驗參數

本文使用與MAPPER 相同的獎勵機制,總的獎勵值為R=rs+rc+rο+τrf+rg,其中rs、rc、rο分別是執行動作、發生阻塞、發生震蕩的獎懲值,類似MAPPER,本文也用全局規劃方法A*在忽略動態障礙物的情況下生成局部參考路徑S,rf用于懲罰機器人當前位置pa偏離參考路徑S中的路徑點p,τ是偏離獎懲因子設置為0.3,rg是抵達目標點的獎懲值。獎勵折扣因子γ被設置為0.99,對比方法以及本文方法的獎勵機制如表1 所示。DCAMAPF 方法Actor 網絡的學習率設置為0.000 3,Critic 網絡學習率設置為0.000 03,進化方法迭代次數為100,Critic 網絡的軟更新參數設置為0.001。

表1 獎勵機制Tab.1 Reward mechanism

3.3 實驗分析

實驗結果如表2 所示,在圖4 的4 種環境中,DCAMAPF的阻塞率均值比AB-MAPPER、MAPPER 與D*Lite 低,成功率均值比其他三種方法高。這是因為D*Lite 不能對周圍動態障礙物建模;MAPPER 雖然能對動態環境進行建模,但無法進行有效的信息傳遞;而AB-MAPPER 兩者都考慮,但所需處理的信息量過大,無法精準、高效地傳遞信息,此外,上述方法均沒有利用其他機器人的動作信息規劃動作策略,而DCAMAPF 不僅能對動態環境進行圖像化建模,也能基于請求與應答機制、局部注意力機制高效傳遞信息。

表2 四種方法在圖4不同環境阻塞率均值和成功率均值比較 單位:%Tab.2 Comparison of mean blocking rate and mean success rate among four methods in different environments in Fig.4 unit:%

D*Lite 在擴展的節點時如果新的障礙物占據路徑擴展節點,則更新啟發式值,然后執行新的動作策略避開新障礙物。然而,在執行動作之前更新的啟發式值不能有效引導機器人避開實時移動的障礙物,這是因為占據其擴展節點的障礙物是動態移動的,D*Lite 更新的節點信息只能確保規劃出的動作不會碰撞原占據拓展節點的障礙物,也無法利用動態障礙物、其他機器人的信息規劃動作,這是D*Lite 碰撞率高的原因。

MAPPER 的阻塞率低于D*Lite,這是因為MAPPER 的局部觀測信息中的第二維、第三維矩陣包含周圍動態障礙物的軌跡信息和當前機器人的局部參考路徑信息,利用到了其他機器人的局部觀測信息規劃動作策略,一定程度上協助了機器人避開障礙物。

AB-MAPPER 阻塞率均值皆比MAPPER 小,這是因為AB-MAPPER 在執行動作之前,所有機器人的局部觀測信息會在Bi-LSTM 神經網絡內部流通,傳遞信息。在執行完動作后,結合全局注意力機制的Critic 網絡分配注意力權重給所有機器人的局部觀測信息和動作信息,評判動作策略。雖然AB-MAPPER 解決了通信的問題,但是集中式架構需要處理更多的信息,所有機器人的局部觀測信息需要在網絡內部流通,信息量大,AB-MAPPER 的Bi-LSTM 也難以精確地甄別哪些機器人的信息是當前機器人所需要的。此外,集中式網絡在同一時刻為所有機器人規劃動作,這導致每個機器人占用的方法網絡資源、顯卡內存大。

DCAMAPF 方法是分布式架構,每個機器人都有自己的方法網絡,Actor 網絡能基于請求與應答通信機制獲取視野內其他機器人的局部觀測和動作信息,規劃出協調的動作策略。在進行策略優化時,Critic 網絡基于局部注意力機制,只將注意力權重分配給應答成功的機器人,將注意力應用于具有較強相關性的機器人,降低了信息冗余,利用了更精準的信息,更有利于策略的優化。機器人集中區域初始化會使環境變得擁擠,信息傳遞的重要性逐漸凸顯。如表2 所示,相較于D*Lite、MAPPER、AB-MAPPER 方法,DCAMAPF 在離散區域初始化環境(圖4(b)和圖4(d)),阻塞率均值約減小6.91、4.97、3.56 個百分點;在集中區域初始化環境(圖4(a)和圖4(c)),阻塞率均值約縮小了15.86、11.71、5.54 個百分點??梢?,本文方法在集中區域初始化環境的阻塞率均值比在離散區域初始化的大,能更高效地避免發生阻塞。

為了凸顯本文方法的優勢,本文在圖4(a)環境進行消融實驗,如圖5 所示,DCAMAPF 在視野范圍內基于請求與應答機制獲取必要的局部觀測信息和動作信息,能精確且有效地傳遞信息,基于較強相關性的信息規劃出協調的動作策略,有效避免阻塞。

圖5 消融實驗方法訓練曲線Fig.5 Training curves of ablation experiment methods

如圖5 中MAPPER+local Attention 曲線所示,局部注意力機制將注意力權重分配給視野內成功應答機器人的局部觀測信息和動作信息,避免了其他冗余信息的干擾,能更有效優化策略。此外,本文還統計了每個機器人基于以上深度強化學習方法所占用的顯卡緩存,如表3 所示,基于DCAMAPF的每個機器人占用的緩存也比集中式方法AB-MAPPER 低,因此DCAMAPF 適用于求解不同動態環境下的多機器人路徑規劃任務。

表3 三種深度強化學習方法每個機器人所需顯卡緩存 單位:MBTab.3 Graphic card cache required by each robot for three deep reinforcement learning methods unit:MB

4 結語

針對已有路徑規劃方法面對動態環境中的MAPF 問題阻塞率高的問題,本文采用Actor-Critic 強化學習框架進行解決。同時,為了更加靈活地獲取精準的信息、規劃出協調的動作策略,本文提出DCAMAPF。首先機器人請求獲取視野內其他機器人的局部觀測信息和動作信息,接著將應答成功的機器人信息以及本身的局部觀測信息和動作信息輸入多通道CNN 的Actor 網絡,從而規劃出協調的動作策略。同樣地,在Critic 網絡,將注意力權重動態地分配給應答成功的機器人的局部觀測信息和動作信息。分布式的DCAMAPF 方法不僅使用了更少、更精準的信息規劃更協調的動作,而且占用的顯卡內存比集中式方法更少,相較于D* Lite、Mapper、AB-MAPPER 方法,DCAMAPF 在離散初始化環境,阻塞率均值約縮小了6.91、4.97、3.56 個百分點。在集中初始化環境下能更高效地避免發生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點。因此,所提方法確保了路徑規劃的效率,適用于求解不同動態環境下的多機器人路徑規劃任務。目前存在每個機器人都需要頻繁地獲取其他機器人的信息的問題,后續工作可以考慮設計出可以接受任意輸入維數的信息處理網絡以及信息共享機制,以進一步提高系統的運行效率。

猜你喜歡
注意力局部觀測
觀測到恒星死亡瞬間
讓注意力“飛”回來
局部分解 巧妙求值
非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
“揚眼”APP:讓注意力“變現”
天測與測地VLBI 測地站周圍地形觀測遮掩的討論
A Beautiful Way Of Looking At Things
局部遮光器
吳觀真漆畫作品選
可觀測宇宙
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合