多智能體編隊控制中的遷移強化學習算法研究

2023-05-12 12:39胡鵬林潘泉郭亞寧趙春暉

西北工業大學學報 2023年2期

胡鵬林, 潘泉, 郭亞寧, 趙春暉

(西北工業大學自動化學院, 陜西西安 710129)

多智能體系統由多個同構或異構的智能體構成,通過與環境之間的交互,共同完成單個智能體由于能力不夠而無法完成的復雜任務。由于多智能體系統的魯棒性、可靠性、靈活性等獨特優勢,在航空航天、工業生產、交通運輸等領域獲得了深入研究和廣泛應用[1-3]。編隊控制是指智能體在運動過程中,通過建立、保持、變換智能體的空間構型,在克服干擾約束的同時完成特殊的任務規劃,保證編隊的安全性和高效性。編隊控制作為多智能體系統的重要研究內容之一,在軍事和民用領域有著廣泛應用。

在多智能體編隊控制算法的發展過程中,出現了多種控制算法,主要有基于行為的方法、虛擬結構的方法、領航者-跟隨者方法、一致性理論等多種控制理論與方法?；谛袨榉ㄊ悄７伦匀唤绲膭游镄袨檫M行編隊控制,一般采用魯棒的分布式控制,具有很強的擴展能力。例如,基于大雁[4]、鴿子[5]、魚群[6]等生物,提出了大量的編隊控制算法。虛擬結構法采用虛擬的剛體結構描述多智能體編隊構型,通過相對誤差進行控制,具有很高的控制精度。例如,基于虛擬結構法的無人機編隊控制[7]、無人船編隊控制[8]、多機器人編隊控制[9]。領航者-跟隨者算法將智能體分為領航者和跟隨者,雙方之間保持一定距離,保證編隊的穩定和安全?；陬I航者-跟隨者算法研究了無人機編隊控制[10]、無人船編隊控制[11]、三維空間中編隊控制問題[12]。一致性理論是將圖論和代數理論結合,通過處理系統誤差實現編隊控制,例如,基于一致性理論實現無人機的編隊和避障控制[13],以及使得非對稱移動機器人能夠以期望的編隊構型移動[14]。

上述多智能體編隊控制算法通常需要精確的數學模型來設計控制律,在實際應用中,由于傳感器誤差、環境干擾等隨機因素,通常難以獲得精確模型,給多智能體編隊控制造成巨大困難。

強化學習(reinforcement learning,RL)不需要太多先驗知識和精確的數學模型,成為解決智能體系統控制問題的重要途徑[15]。例如,將Q-learning和策略梯度算法結合,提出了多層結構的編隊控制算法,使得機器人能夠實現設定的編隊構型[16]。通過自適應Q-learning算法,實現了障礙環境中編隊控制[17]。通過基于RL的多智能體編隊控制框架,消除了建模和控制器設計的繁瑣工作,解決了復雜環境中編隊控制問題[18]。傳統的強化學習算法不僅需要大量的樣本進行訓練,還要求訓練和測試數據屬于同一個域,隨著智能體數量的增加,狀態空間呈指數增長,給存儲空間和計算能力帶來巨大挑戰。

遷移強化學習(transfer reinforcement learning,TRL)從簡單的源任務中獲得知識,求解更復雜的目標任務,并且任務之間相似程度越高,知識的傳遞就更加容易,從而提高系統的學習效率[19]。按照學習方法可以分為基于樣本的遷移、基于模型的遷移、基于特征的遷移,以及基于關系的遷移等多種模式[20]。除了計算機視覺、文本分類、自然語言處理等傳統領域外,遷移強化學習逐漸應用在許多新興的領域。在醫學圖像領域,由于醫學圖像的標記通常依賴于有經驗的醫生,因此,收集足夠的訓練數據是非常昂貴和困難的,遷移學習技術能很好地幫助醫學影像分析[21-22]。在生物信息學領域,生物體之間的組成發生了變化,但其功能可能保持不變,可以借助遷移學習算法來進行生物序列的分析[23-24]。在交通運輸領域,遷移學習可以幫助電子監控系統進行交通場景圖像的理解,以及駕駛員行為的建模[25-26]。在個性化推薦系統領域,往往訓練數據是稀疏的,遷移學習算法可以利用來自其他推薦系統的數據來幫助構建目標推薦系統[27-28]。

本文基于遷移強化學習算法,研究了復雜障礙環境下多智能體編隊控制問題。在訓練過程中,利用值函數近似算法,解決了任務規模不斷擴大帶來的存儲和計算問題。采用高斯混合模型(Gaussian mixture model,GMM)對源任務進行聚類分析,避免出現負遷移現象,提高了遷移強化學習效率。文章內容安排如下:第1節介紹智能體模型和求解問題的數學描述,第2節介紹基于遷移強化學習的多智能體編隊控制算法,第3節通過仿真實驗驗證了算法的有效性,第4節給出全文總結與未來研究方向。

1 問題描述

多智能體編隊控制系統由N個智能體組成,智能體通過復雜的障礙物環境,保持一定的隊形到達目標點,同時保證智能體不發生碰撞。智能體i的模型為

xi(t+1)=xi(t)+vcos(Δφi(t))

yi(t+1)=yi(t)+vsin(Δφi(t))

(1)

式中:i∈N={1,2,…,N},v代表智能體的移動速度;φi(t)∈[0,2π]表示t時刻智能體i的航向角,即智能體i的移動方向與x坐標軸正方向的夾角,為了避免出現較大的轉彎動作,航向角增量Δφi(t)滿足

(2)

用si(t)=[xi(t),yi(t)]表示t時刻智能體i的坐標位置,障礙物集合為No={1,2,…,l}。

在多智能體編隊中,最優性能指標不是單個智能體的策略達到最優,而是整個編隊的策略達到最優,即編隊中智能體之間構成合作博弈關系,因此,將多智能體控制任務描述為馬爾科夫博弈過程

Γ={S,A,π,R,V}

(3)

(4)

式中,γ表示折扣因子。

由于在學習過程中,獎勵函數的作用非常重要,定義智能體i∈N的獎勵函數Ri為

(5)

(6)

(7)

(8)

(9)

式中,ww為常系數。在多智能體編隊中,智能體i和其他智能體之間進行交互,因此,智能體i的性能指標由自身和其他智能體共同決定,用π-i表述其他智能體的策略,在考慮其他智能體的策略時,智能體i的性能指標為

(10)

則最優價值函數為

(11)

多智能體博弈的策略取決于環境中智能體的聯合行為,在其他智能體策略保持不變的情況下,智能體i在狀態si的策略

(12)

(13)

則(12)式為智能體i的Nash均衡策略,基于Nash均衡策略的價值函數為

(14)

在多智能體編隊過程中,采用價值函數

(15)

(16)

綜上,多智能體編隊控制問題可以描述為

(17)

2 基于遷移學習的多智能體編隊控制

通過前文獲得了多智能體編隊控制問題的數學描述以及優化目標。為了應對復雜的多智能體編隊環境,提升強化學習速度以及泛化能力,本文引入遷移強化學習算法。如圖1所示,遷移強化學習涉及到源任務和目標任務。

圖1 遷移強化學習示意圖

基于馬爾科夫博弈的描述,多智能體編隊控制可以分解為源任務Ms={Ns,Ss,As,Rs}和目標任務Mt={Nt,St,At,Rt}2個子任務。遷移強化學習過程包括2個階段,首先是知識遷移階段At,根據目標任務Ug和源任務Us之間的相關性生成合適的知識遷移模型Ut

At:Us×Ug→Ut

(18)

其次是學習階段Al,結合遷移模型Ut和目標任務Ug,實現目標任務的學習

Al:Ut×Ug→Ug

(19)

下面從源任務和目標任務學習兩方面進行論述。

2.1 基于值函數近似的源任務學習

在源任務學習中,為了突出遷移強化學習對訓練速度的提升作用,采用Q-Learning算法進行源任務訓練,基于值函數近似方法,避免Q表格帶來的大規模存儲問題。根據(15)式智能體i的值函數為

(20)

值函數可以用線性函數表述為

(21)

式中:φi(si(t))=[φi1(s),…,φim(s)]∈Rm×1是由智能體i的狀態構成的m維特征向量;T表示矩陣的轉置,用wi=[wi1,…,wim]∈Rm×1表示聯合權重向量,使用含有參數wi的值函數表示其真值為

(22)

(23)

求參數wi使得(23)式最小,根據最小二乘算法有

(24)

式中

對權重系數的收斂性進行分析,根據(21)和(24)式有

(25)

(26)

設ρ,ψ,C均為正數,φt為持續激勵信號,滿足

(27)

(28)

證明根據(25)式有

(29)

選擇函數Lt

(30)

將(26)式代入(30)式有

(31)

因此得到

(32)

λmin(G-1)ΦΦT≤ΦG-1ΦT

(33)

根據正定矩陣性質有

(34)

根據(26)式有

(35)

(36)

結合(30)、(32)、(33)、(36)式有

(37)

化簡后有

(38)

綜上,得到

(39)

取(28)式中的ξ為

(40)

則(28)式成立,wi呈指數收斂,證明完畢。

根據Bellman最優性原理,對價值函數進行更新,智能體i的最優值函數為

(41)

最優動作選擇策略為

(42)

完成基于值函數近似的源任務訓練。

2.2 基于聚類的目標任務遷移學習

在獲得源任務之后,將所有源任務的知識遷移到同一個智能體時,由于任務之間的差異化會導致負遷移。因此將大量訓練好的源任務數據進行歸類處理,選擇與目標任務差異最小的源任務,可以有效避免負遷移現象。本文選用GMM算法對源任務狀態進行聚類分析,假設在本文中策略的相似性可以通過相應的值函數來反映,即在相同的獎勵函數下,價值函數相似的策略,智能體的運動軌跡是平行或者重合的。

(43)

式中,πi(a|sj)表示在源任務狀態sj執行動作a的概率,通過(44)式將值函數映射到集合yi

(44)

設n′為源任務中的分類數量,在獲得源任務樣本Y=(y1,y2,…,yn′)之后,執行GMM算法

(45)

式中:n為目標任務中智能體數量;αk為高斯混合系數;(μk,Σk)為高斯分布的期望和方差。通過最大似然函數(46)式估計(45)式的參數

(46)

(46)式的對數似然函數為

(47)

(48)

式中,ζjk表示樣本yj中元素的后驗概率密度

(49)

(50)

通過聚類可以得到n′個高斯分布,將源任務狀態劃分為多個集合,每個集合中的策略是相似的,避免多個具有競爭關系的策略傳遞給同一個目標任務而引起負遷移現象。

遷移學習的關鍵是源任務與目標任務之間的相似性,2個任務相似程度越高,遷移學習效果越好。在獲得n′個具有高斯分布的源任務集合后,通過康托洛維奇距離度量聚類任務和目標任務之間的相似程度。計算聚類任務Ms和目標任務Mg兩者之間的康托洛維奇距離D(Ss,Sg)為

式中:|Ss|,|Sg|表示狀態空間的大小;ηij表示si和sj之間距離d(si,sj)的權重值為

(52)

式中,r(si,ai),r(sj,aj)表示獎勵值,c∈(0,1)。

根據任務之間的距離度量,選擇與目標任務距離最近的源任務類,假設其中有m個源任務,對目標任務Mg中智能體i的值函數進行初始化

(53)

因此,得到基于遷移強化學習的多智能體編隊控制算法流程如下:

1) 初始化目標任務Mt,源任務Ms,狀態基函數φ(s),權重向量w=1,迭代次數T,最大搜索步數M,折扣因子γ,收斂因子ε。

2) 源任務學習:

3) Fork=1∶Tdo

4) 根據(42)式選擇動作a

5) Forl=1∶Mdo

6) 執行a,得到下一狀態s′和獎勵r

7) 在狀態s′執行(42)式

8) 更新狀態和動作s←s′,a←a′

9) 根據(24)式更新ws

10) 如果s=sg,‖wt+1-wt‖2<ε進行下一次迭代

11) End for

12) 目標任務學習:

13) 根據(45)式對源任務狀態進行GMM聚類分析

14) 根據(51)式選擇m個較優的源任務狀態

15) 根據(53)式初始化目標任務中智能體的值函數

16) 執行2)～10)進行訓練任務,得到策略π*

3 仿真驗證與分析

3.1 遷移強化學習過程仿真

本節驗證在二維狀態空間中遷移強化學習的有效性。智能體最大速度v=0.3 m/s在35 m×35 m的矩形區域運動,用半徑為1 m的圓表示智能體和障礙物。根據(5)式設計獎勵函數,具體參數設置為:ds=do=dg=1 m,r1=-50,r2=-10,r3=-10,r4=-5,

wg=10,ww=25。學習參數設置為:γ=0.95,T=500,M=5 000,ε=0.1。選擇多項式形式的狀態基函數如(54)式所示。

對應系數為wi(t)=[wi1,wi2,…,wi27]。

源任務中智能體的起始點為[5,5],[5,25],[25,5],對應的目標點為[30,30],[15,20],[30,15],障礙物為[10,20],[15,15],[20,5],[20,28],[25,20],[30,10]。智能體路徑軌跡如圖2a)所示,方形代表起始點,五星代表終點。所有智能體能夠在復雜環境中,無碰撞地從起始點移動到對應的目標點位置,得到較優的源任務學習樣本。

圖2 遷移學習效果對比

目標任務中智能體的起始點為[5,5],[17,30],[30,5],對應的目標點為[30,30],[17,5],[5,30],障礙物為[10,10],[15,25],[20,15]。遷移學習前后智能體運動軌跡如圖2b)所示,虛線和實線分別表示智能體遷移學習之前和之后的路徑軌跡,可以看出后者的路徑軌跡明顯優于前者,且安全到達各自設定的目標點。為了驗證遷移學習效果,在不同的目標環境中,進行了50次重復實驗,然后求取平均值,對遷移前后所有智能體到達目標點的總路徑、總時長以及成功率進行對比分析,成功率以在規定時間內是否到達目標來判定,通過圖3可以看出,遷移學習之后的路徑長度明顯小于遷移之前的長度,并且用時較少,成功率也有所提高。

圖3 遷移強化學習前后的結果對比柱狀圖

圖4展示了任務之間的相似性對于迭代次數及獎勵值的影響,橫坐標表示源任務和目標任務間的距離,散點表示每次實驗的結果,并進行了曲線擬合?？梢钥闯龅螖惦S著任務之間距離的增加而增加,并且隨著距離的增加,智能體獲得的平均獎勵值變小。由此可以得出任務之間的相似性越高,遷移效果越好,同時也說明采用GMM算法選擇與目標任務差異最小的源任務進行遷移能夠有效避免負遷移問題。

圖4 任務相似性對遷移學習結果的影響

在目標任務的基礎上,設置障礙物為[10,10],[10,18],[15,25],[17,20],[25,10],驗證遷移強化學習算法的避障防撞性能,設置ds=0.5 m。智能體避障與防撞過程如圖5所示,每個智能體都到達了指定的目標點位置。圖5b)展示了智能體之間的規避過程。避障過程中智能體之間的距離如圖6所示,均滿足設定的安全距離,沒有發生碰撞,保證了智能體的安全運動。關于迭代次數和權重系數w的收斂性在文獻[29]中有詳細的實驗分析。

圖5 多智能體避障與防撞過程(T表示步數)

圖6 智能體避障過程相互之間的距離

3.2 多智能體編隊任務仿真

用4個智能體進行編隊控制仿真,編隊任務中智能體的起始點為[4.5,26],[5,10],[12,3],[30,5],設置對應的目標點為[28,30],[30,27.5],[32,30],[30,32.5],障礙物為[11,15],[15,23.5],[16,9],[25,10.5],[26.5,23.5]。每個智能體在訓練過程中找到各自合適的目標位置,形成對角線長度分別是4 m和5 m的菱形編隊,然后保持編隊形式運動到目標位置,智能體運動軌跡如圖7所示。

圖7 多智能體編隊控制過程運動軌跡(T表示步數)

在圖7b)中,障礙物O1和O2之間的距離為7.8 m,不滿足智能體2和智能體3之間9 m的避障要求,因此智能體無法穿越障礙物形成的狹窄通道,只能從兩邊繞行。相反障礙物O1和O3之間的距離為9.4 m,滿足避障要求,因此智能體1和智能體2從障礙物中間通過。同時從圖7b)中可以看出,智能體1選擇p1位置的獎勵最大,但是為了保證編隊整體的性能最優,智能體1選擇了p2位置,而智能體2選擇了p1位置,驗證了Nash均衡編隊策略的有效性。圖8描述了編隊過程中智能體之間的距離變化,智能體之間的距離均滿足設定的安全距離,在任務完成后智能體間的距離分別是4.9,3.9,3.1 m,符合設計的編隊距離。

圖8 智能體編隊過程相互之間的距離

3.3 基于多無人機的編隊任務實時性仿真

為了驗證本文提出的遷移強化學習算法的實時性能和可靠性,基于Gazebo仿真平臺,選用四旋翼無人機對算法有效性進行驗證。硬件配置為英特爾i7-9700、GeForce RTX 3090,操作系統采用Ubuntu-18.04。場景大小設置為30 m×30 m,最大飛行速度v=1 m/s,飛行高度統一為2 m,8架無人機通過中心計算機共享全局信息,信息更新頻率為10 Hz。如圖9所示,不同形狀的障礙物均可以抽象為長方體,因此用大小為1.5 m×1.5 m×2 m的長方體表示障礙物。預設無人機之間形成以坐標(15,15)為中心,半徑為6 m的圓。

圖9 不同障礙物的抽象表示

圖10展示了無人機編隊過程中關鍵時刻的截圖,從圖10a)可以看出無人機分2組從兩邊向著場景中心位置移動;圖10b)中無人機通過障礙物形成的通道,進行避障飛行;圖10c)中無人機形成初步聚集狀態,但是無人機的航向沒有統一,是雜亂無序的,不具備編隊能力;圖10d)中無人機的航向呈順時針方向飛行,通過航向箭頭可以看出,無人機均沿著設定圓的切線方向移動,從而驗證了提出的算法能夠使得無人機形成符合設定條件的圓形編隊。圖11展示了無人機的飛行軌跡曲線,形成符合條件的圓形軌跡。

圖10 基于無人機的遷移強化學習算法仿真

圖11 無人機飛行軌跡

為了驗證算法的實時性和可靠性,設計了多組實驗,具體場景設置如表1所示,每組實驗重復進行25次,并對數據進行統計分析。設定編隊過程在120 s內完成,如果超出設定的時間閾值或者出現其他故障,則判定編隊過程失敗。通過分析編隊形成的時間以及成功率,可以發現障礙物數量的增加對編隊成功率的影響較小,當無人機的數量增加時,編隊時間明顯增加,同時成功率也降低。但是,4種場景的編隊時間和成功率都在可接受的范圍內,因此文章提出的算法具有較好的實時性和較高的可靠性。圖12展示了4種場景中無人機形成圓形編隊時的截圖。

表1 基于遷移強化學習的無人機編隊多種場景設置

圖12 多種場景無人機的遷移強化學習算法仿真

4 結論

針對復雜障礙環境下多智能體編隊控制問題,本文提出了一種基于遷移強化學習的編隊控制算法?；谠O計的獎勵函數,采用Nash均衡價值函數保證了多智能體編隊系統的整體性能最優。利用值函數近似方法進行源任務學習,推導了權重更新公式,通過收斂性分析證明了參數更新呈指數收斂。在目標任務學習階段,通過GMM算法對源任務進行聚類分析,基于康托洛維奇距離選擇較優的源任務進行目標任務學習,避免了負遷移問題,提高了多智能體編隊控制的效率。仿真實驗對比分析了遷移前后的運動軌跡,證明了算法的有效性。通過編隊任務仿真,實現了避障約束下的多智能體編隊控制任務,在Gazebo平臺,基于無人機模型進行了仿真分析,證明了算法的實時性和可移植性。未來的研究將設計更加精細的獎勵函數,讓獎勵函數在接近最優解時大幅度增加,可以幫助學習算法快速收斂到最優解?？紤]將本文提出的遷移學習算法從二維環境拓展到三維環境,模擬更加復雜的現實環境,同時通過時間約束或者增加燃料成本的懲罰來限制智能體的行動選擇。