?

基于多智能體強化學習的空地網絡抗干擾傳輸方法研究*

2024-03-04 02:05廖程建劉思懿趙晨羽張果侯宏偉朱瀚然夏曉晨許魁
移動通信 2024年1期
關鍵詞:動作函數智能

廖程建,劉思懿,趙晨羽,張果,侯宏偉,朱瀚然,夏曉晨,許魁

(陸軍工程大學通信工程學院,江蘇 南京 210007)

0 引言

5G/6G 等新一代移動通信技術通過超密集組網、跨頻段使用、波束空間復用等方式大幅提升了頻率復用度,實現了高速率、低時延、大容量傳輸。當地形環境較為復雜時,通信系統的節點分布較為稀疏,無法進行超密集組網,導致區域覆蓋能力和“山中通”能力等面臨較大挑戰。無人機、無人升空平臺等空基平臺具有部署靈活、覆蓋范圍廣等特點,為有效提升通信覆蓋能力提供了一條新的思路。

無人機(UAV,Unmanned Aerial Vehicle)由于其靈活性和易控制性,可以在某些特殊場景提供高效可靠的無線通信[1]。特別是當地面基站無法提供服務時,UAV 可以作為空中基站,為地面用戶提供緊急通信[2]。無人機還廣泛應用于物聯網中,為設備應用收集數據[3]。無人機亦可作為中繼節點,與遠程節點建立可靠連接,抵御惡意干擾和竊聽,保證無人機中繼網絡中的安全傳輸問題[4-5]。此外,研究UAV 網絡中的抗干擾問題也是一大研究熱點,博弈論和凸優化理論廣泛應用于UAV 通信抗干擾方案設計。文獻[6]將UAV 視做中繼節點,從博弈論視角出發構建斯坦伯格博弈模型,研究了空天地一體化網絡在非理想信道狀態信息條件下如何抵御惡意干擾問題。文獻[7]應用交替優化和逐次凸逼近理論,將非凸問題進行轉換,通過優化無人機的軌跡以及功率分配,最大化特定時間段內系統的平均保密速率。文獻[8]研究了無人機網絡的物理層安全問題,使得無人機基站在存在多個竊聽者的情況下,通過協作干擾向多個信息接收器傳輸機密信息,提升了性能增益。然而,以上研究僅考慮了單個或少量的無人機場景,大規模無人機場景下的抗干擾傳輸問題仍需進一步研究。當環境發生變化時,所提出的優化算法可能會變得無效,難以滿足實時決策的需求。

近年來,強化學習(RL,Reinforcement Learning)方法引起了廣泛關注,用于解決傳統數學方法無法處理的高復雜度優化問題。將強化學習、深度學習等智能算法應用于抗干擾傳輸是當前一大研究熱點[9-13]。文獻[9]針對無人機網絡易受智能干擾機干擾,提出一種基于知識的強化學習方法,該方法利用領域知識來壓縮智能體需要探索的狀態空間,從而提高算法的收斂速度。文獻[10]研究了竊聽節點存在的條件下的無人機網絡安全傳輸問題,提出了一種多智能體深度強化學習(MADRL,Multi-Agent Deep Reinforcement Learning)算法,通過聯合優化無人機的軌跡、無人機發射機的發射功率和無人機干擾機的干擾功率來最大化安全容量。文獻[11]考慮了一個合法無人機與智能竊聽無人機的組合通信系統,通過構建零和博弈模型,并提出一種基于MADRL 的算法,獲得合法通信鏈路節點的策略,優化合法無人機的功率、軌跡。該算法的不足是僅考慮兩個無人機智能體,沒有考慮多智能體協同抗干擾。文獻[12]研究了無人機網絡中聯合信道和功率分配的抗干擾問題。首先將問題建模為一個局部相互作用的馬爾可夫博弈以同時刻畫無人機之間的競爭和協作關系。其次,提出了一種基于協作多智能體分層Q 學習的抗干擾通信算法來降低動作空間的高維特性,并分析了該算法的漸近收斂特性。文獻[13]研究了無線傳感器網絡的智能抗干擾通信方法。引入隨機博弈框架對多用戶干擾問題進行建模和分析,提出了一種聯合多智能體干擾算法,以獲得最優的干擾策略。上述研究僅考慮數量較少的UAV 網絡,將強化學習、深度學習等算法應用于多智能體空地一體化網絡抗干擾傳輸的研究還有待完善。

針對以上問題,本文面向空地一體化網絡場景,提出了基于多智能體強化學習(MARL,Multi-Agent Reinforcement Learning)算法的抗干擾傳輸算法,旨在抵御智能干擾機的惡意干擾,有效增強通信系統區域覆蓋能力。具體來說,采用集中訓練和分散執行的總體框架,采用近端策略優化(PPO,Proximal Policy Optimization)算法更新神經網絡參數。每個UAV 均看做是智能體,每個智能體基于自己的觀察和來自評論員的價值函數執行自己的動作。由于無人機的能量容量和計算能力非常有限,可以將離線集中訓練上傳到高空平臺(HAP,High Altitude Platforms)[10],節省能量開銷。本文的貢獻可以概括為以下幾點:

(1)首先,本文設計了一種針對三維空間的多UAV軌跡優化算法,所有UAV 動態調整自身發射功率使得系統內所有用戶可達速率之和最大,從而最大化獎勵函數,增加了優化問題的難度與復雜度。

(2)其次,將聯合軌跡與功率的優化問題轉化為一個穩健的馬爾可夫決策過程(POMDP,Partially Observable Markov Decision Process)問題,每個UAV觀測與其自身相關聯的用戶,而不需要從時變的多UAV環境中獲得完整的信息。提出了一種基于MARL 的抗干擾傳輸算法,用于多UAV 場景下的軌跡設計和功率優化。

(3)最后,制定了一個集中訓練和分步執行的框架。在集中式訓練階段,每個智能體通過與環境交互獲取的經驗存儲在經驗回放池中,然后使用經驗池來訓練演員-評論員網絡。在分布式執行階段,每個無人機都使用訓練好的演員神經網絡來生成相應的動作序列,以調整下一時刻的飛行位置和發射功率。仿真結果表明所提方法相較于對比算法具有優越性。

1 系統模型及問題建模

1.1 系統模型

系統模型如圖1 所示??紤]一個具有無人升空平臺,M個無人機,K個用戶和一個智能干擾機的多UAV 多用戶大規模多輸入多輸出(MIMO,Multi-Input Multi-Output)通信系統,其中無人機均配備N根天線,用戶均配備單天線,干擾機配備L根天線。在給定的系統模型中,干擾機對用戶釋放干擾信號,其目的是降低用戶下行接收信噪比,影響通信質量。無人升空平臺用于訓練無人機網絡,減輕無人機內部負擔。本文研究目標是優化無人機飛行軌跡以規避干擾,并動態調整發射功率,使得系統所有用戶的可達速率之和最大。

圖1 系統模型

(1)信道模型

在地面環境較為復雜、障礙物較多時,無人機與用戶之間的視距路徑(LoS,Line of Sight)路徑可能會被阻擋。因此,本文采用一種基于無人機飛行高度和仰角的概率視距(PLoS,Probabilistic Line of Sight)信道模型[14],來建??盏匦诺赖穆窂綋p耗?;诟怕实男诺滥P褪疽鈭D如圖2 所示,隨著無人機的運動,無人機與用戶之間的信道有可能被障礙物遮擋,由LoS 信道變成NLoS 信道。

圖2 基于概率的信道模型示意圖

(2)信號傳輸模型

干擾機的預編碼矩陣可表示為:

則在t時刻用戶k接收來自UAVm的SINR 為:

在t時刻用戶k接收來自所有UAVm的可達速率為:

其中B是信道帶寬。

1.2 UAV優化問題建模

假設所有UAV 的飛行高度固定不變,研究目標是優化無人機軌跡以規避干擾機的干擾,并動態調整發射功率,使得系統內所有用戶的可達速率之和最大?;谝陨霞僭O,構建如下優化問題:

2 基于部分馬爾科夫觀測的MARL算法

對于優化問題,由于目標函數的非凸性以及用戶可達速率與UAV 位置之間的耦合關系,式(15) 是個非凸優化問題,難以通過傳統的凸優化理論來解決。強化學習使智能體能夠通過不斷與環境進行交互來獲得最優策略,通常被認為是一種有效的技術,以次優的方式解決此類問題。然而,大多數基于強化學習的方法只考慮單個智能體系統,當網絡節點數量增加時,多個智能體之間需要交換大量的網絡信息,導致這些方法失效[19]。

在多智能體強化學習中,每個智能體在沒有完整環境信息的情況下獨立地選擇自己的動作,有可能導致算法難以收斂、系統性能下降等問題。部分可觀測馬爾可夫決策過程(POMDP,Partially Observable Markov Decision Process)可用于建模具有不完全觀測的隨機決策問題[20]。在POMDP 中,系統狀態并不是直接可見的,而是通過觀測到的部分信息來間接推斷,適用于具有不完全觀測或感知能力受限的情況下進行決策的問題。

在本文考慮的多智能體環境中,每個UAV 均作為智能體,從環境中學習和更新經驗。由于每個UAV 僅能觀測到與自身相關聯的信息,因此可以將優化問題轉化為一個POMDP 問題,具體表示為:

(1)智能體:每一個UAV 都可以被視為一個智能體,每個智能體觀察自己的狀態并根據其策略采取動作,然后從環境中獲得獎勵并進入下一個狀態。

(2)狀態空間:在每個時間間隙,每個智能體觀察環境的狀態信息,從而制定相應的策略。時隙t的狀態可表示為:

(3)動作:每個智能體的動作是其演員網絡的輸出,對于時隙t時的無人機m,其動作可以定義為:

(4)轉移概率:智能體在執行動作at后,將以概率從當前狀態st轉移到下一個狀態st+1。

(5)獎勵函數:獎勵函數是一種用來評估智能體行為的指標,它對智能體在特定環境中采取不同動作的結果進行評估,引導智能體朝著期望的目標行為進行學習。在優化問題中,其目標是最大限度地提高系統內所有用戶的可達速率。因此,獎勵函數應該設置為一個周期T內所有用戶的可達速率之和?;谏鲜龇治?,本文設計的獎勵函數如下所示:

在所提模型中,智能體通過觀察環境,做出相應動作并從環境中獲取獎勵。每個智能體均有狀態價值函數和狀態-動作價值函數,其中π表示當前策略。強化學習算法通常通過最大化狀態價值函數或狀態-動作價值函數來改進演員網絡的策略和增強評論員網絡的評估能力。

狀態價值函數表示在給定狀態下,一個智能體可以獲得的長期累積獎勵的期望值,它衡量了當前狀態的好壞程度。狀態價值函數可表示為:

狀態-動作價值函數表示在給定狀態和采取某個動作后,一個智能體可以獲得的長期累積獎勵的期望值,它衡量了在某個狀態下采取某個動作的好壞程度。狀態-動作價值函數可表示為:

每個智能體的目的是使給定策略π的預期折扣獎勵的價值最大化。在強化學習中,優勢價值函數用于評估特定動作相對于一般動作的優勢或價值,它可以通過狀態價值函數和狀態-動作價值函數的差異來計算,表達式為:

基于上述分析,POMDP 的目標函數可以表示為:

3 集中訓練-分布執行框架與參數更新

3.1 集中訓練與分布執行框架

由于多UAV 環境的狀態空間龐大,簡單的基于強化學習的方法難以尋找最優策略。MARL 模型是一種針對多UAV 環境的強化學習模型,旨在解決狀態空間龐大的問題[21],并實現智能體之間的協作。該模型分為集中式訓練和分布式執行兩個階段。

(1)集中式訓練階段

集中式訓練階段在HAP 實現,每個無人機需要學習下一個飛行位置和發射功率。訓練過程中,通過從經驗回放池中隨機采樣小批觀測值來更新神經網絡,從而避免總觀測值之間的相關性,提高學習效率[22]。在演員網絡中使用神經網絡來參數化策略函數,并以高斯分布生成策略:

其中,θk表示演員神經網絡的參數,是生成動作的標準差和平均值,其表達式為:

其中,v表示偏移向量。是演員網絡的神經網絡的隱藏層和輸出層的激活函數。評論員網絡負責計算優勢函數,用于引導演員網絡以低成本朝著梯度方向更新。同時,優勢函數隨著訓練的進行而不斷更新。與網絡中的UAV 相比,HAP 具有顯著的計算優勢。因此,MARL 模型的訓練可以在HAP 以離線的方式集中完成。經過充分的訓練,模型可以用于分布式執行階段。

(2)分布式執行階段

在分布式執行階段,每個無人機都使用訓練好的演員神經網絡來生成相應的動作序列,以調整下一時刻的飛行位置和發射功率。這樣,無人機可以以分布式的方式提供聯合服務。同時,使用評論員神經網絡來評估每個無人機的動作,并根據時分誤差算法來更新演員神經網絡和評論員神經網絡的參數。

基于以上分析,本文將基于MARL 的功率分配和軌跡優化算法總結如下。首先,對神經網絡、經驗回放池和參數設置進行初始化。將每個訓練片段設置為T個時隙。在每個時隙t,智能體通過重要抽樣來觀察狀態以獲得傳輸速率、UAV 位置、飛行速度以及干擾功率,這是一種代替抽樣的近似方法。在這一步中,只有演員網絡起作用。然后將狀態序列送入神經網絡以計算接收獎勵的動作。最后,每個智能體將轉換元組存儲在經驗回放池中。

3.2 基于PPO算法的參數更新

本節對演員-評論員網絡參數進行更新。近端策略優化(PPO,Proximal Policy Optimization)算法在實現方面更加簡單且易于使用[23],同時也能提供接近信賴域策略優化(TRPO,Trust Region Policy Optimization)的性能。PPO 的核心思想是通過限制更新步長,使策略在每次更新中只發生適度的變化,改善了傳統策略梯度算法的采樣效率和穩定性。因此,本文采用基于剪裁和計數的PPO 算法來訓練演員-評論員網絡,該算法使用剪裁的比率函數來簡化公式。為此,首先表示新策略與舊策略之間的概率比,即:

則演員網絡的損失函數可以表示為:

最后,將PPO 應用于策略和價值函數的網絡體系結構,在目標函數中增加了關于價值估計的均方誤差項,以鼓勵充分的探索。評論員網絡更新的目標是最小化損失函數,其損失函數表達式為:

4 仿真結果

為驗證所提的MARL 抗干擾算法性能,本節進行仿真驗證。仿真環境設置為1 個HAP、4 個UAV、1 個干擾機和20 個用戶的空地一體化網絡,所有用戶隨機分布在半徑為500 m 的覆蓋區域內。每個智能體的演員和評論員網絡都有兩個完全連接的隱藏層,都包含50 個神經元。演員和評論網絡的學習率均為0.000 1。此外,折扣因子為0.999,剪輯參數分布設置為,其余具體參數設置見表1。訓練過程是離線的,在HAP 上運行。使用離線集中訓練和在線分布執行方法的優點是,可以將所有的通信和計算開銷都放在訓練階段,所提算法在測試階段的執行速度相較于傳統算法將會大幅提升。

表1 仿真參數設置

為了驗證本文所提出的基于裁剪和計數的PPO 算法在MARL 方法訓練中的性能,本文將該算法與其他兩種策略梯度算法進行了比較。比較的算法如下:

(1)Vanilla PG[25]:一種基于梯度的最大化目標函數的學習策略的方法。它是一種無模型的、直接從經驗中學習的強化學習算法,智能體根據當前的策略直接采樣動作,然后使用采樣得到的軌跡來估計梯度。

(2)信任域策略優化(TRPO,Trust Region Policy Optimization)[26]:TRPO 旨在提高策略梯度算法的穩定性和收斂速度,具有較高的實用性和性能。在TRPO 中,通過約束當前策略與上一次策略之間的差異,以限制每次更新的步長大小,從而控制更新對性能的影響。

(3)本文采用的PPO 算法:一種基于裁剪和計數的PPO 算法,通過限制更新步長,使策略在每次更新中只發生適度的變化,改善傳統策略梯度算法的采樣效率和穩定性。

圖3 比較了上述三種算法所獲取的系統獎勵。從仿真結果可以看出,使用所提算法來訓練神經網絡可以獲得單調遞增的獎勵。與其他兩種算法相比,本文提出的算法在3 000 次迭代后具有更快的收斂速度和更高的獎勵。這表明,本文所提改進算法可以有效地訓練網絡。由于PPO 算法使用了一個剪切比例變量,它可以限制策略更新的幅度,防止過大的策略變動。這樣可以確保訓練過程穩定而不會過度調整策略,從而相比其余兩種算法可以獲得更高的獎勵和更快的收斂速度。

圖4 比較了三種策略算法的所有用戶的可達速率之和與干擾功率的關系,通過設置不同的干擾功率,對所提算法性能進行評估??梢钥闯?,隨著干擾功率的增加,用戶的可達速率有所下降,但是本文所提算法所獲取的可達速率高于其余兩種算法。當干擾功率為10 dBmW時,本文所提算法比TRPO 算法獲取的可達速率提升約為68.9%,說明在相同干擾功率條件下,本文所提算法具有一定的抗干擾性能,驗證了所提MARL 算法的有效性。由于獎勵函數是以用戶可達之和為指標設計的,獲取獎勵越高,意味著用戶可達速率之和越大。而本文所提算法可以獲取最高的獎勵,因此用戶可達速率之和也最大。

圖4 不同干擾功率下的可達速率之和

圖5 仿真了所提MARL 算法在不同學習率下的性能。通過設置不同的學習率δ,對所提算法性能進行評估。將學習率δ分別設置為三個值:0.001、0.000 1 和0.000 01。仿真結果說明,當迭代次數較少時,δ=0.000 1 的獎勵比δ=0.001 的獎勵低,但隨著迭代次數的增加,獎勵也隨之增加,并在大約3 500 次迭代后最終收斂。這是由于較大的學習率,例如δ=0.001,可能會導致訓練模型的較大波動,從而難以找到最優策略,而較小的學習率,例如δ=0.000 01,會導致極長的訓練時間。因此,考慮到算法的實際執行情況,將δ設置為0.000 1。

圖5 不同學習率條件下的算法性能

5 結束語

本文提出了一種基于多智能體強化學習的抗干擾傳輸算法,旨在抵御空地一體化網絡中的功率干擾,使所有用戶的可達速率之和最大化。將無人機軌跡和功率聯合優化問題轉化為POMDP 問題,采用了集中式訓練和分布式執行框架。在集中式訓練過程中,每個智能體與環境交互獲得的經驗存儲在經驗回放池中,用于訓練演員-評論員網絡。在分布式執行過程中,每架無人機使用經過訓練的演員網絡根據觀測結果輸出動作,并調整其飛行位置和傳輸功率以提供聯合服務。采用PPO 算法來更新演員-評論員網絡參數,使其在復雜的多智能體環境中更加有效。仿真結果表明所提算法相較于傳統算法具有優越性。

猜你喜歡
動作函數智能
二次函數
第3講 “函數”復習精講
二次函數
函數備考精講
智能前沿
智能前沿
智能前沿
智能前沿
動作描寫要具體
畫動作
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合