?

基于聯邦深度強化學習的多無人機軌跡規劃算法

2024-01-02 07:53王鑒威李學華陳碩
關鍵詞:覆蓋范圍公平性時隙

王鑒威,李學華,陳碩

(北京信息科技大學 現代測控技術教育部重點實驗室,北京 100101)

0 引言

隨著物聯網技術不斷發展以及第五代移動通信技術大規模商用,越來越多的計算密集型應用對時延具有較強的敏感度,對設備的計算能力提出了較高的要求。移動邊緣計算(mobile edge computing,MEC)通過在移動網絡邊緣部署計算和存儲資源,可以有效地給予用戶超低延時和高帶寬的網絡服務解決方案[1]。

然而,現有MEC服務器部署往往依賴地面通信基礎服務設施。在偏遠區域或緊急情況下,難以滿足移動用戶的通信需求。無人機(unmanned aerial vehicle,UAV)因其靈活度高、移動性強和部署成本低等特點[2],可以在空中建立移動通信基站為地面移動設備提供通信服務,依靠視距(light of sight,LoS)傳輸信道[3]以及靈活部署位置獲取最佳信道條件等優勢,構筑空-地一體的通信網絡。

雖然無人機能夠通過自身移動性,靈活規劃無人機軌跡進行MEC服務,但是無人機輔助移動邊緣計算仍存在諸多挑戰。一方面,傳統計算卸載方案,將計算任務全部卸載到邊緣服務器上執行,舍棄了地面設備端的計算資源,沒有充分利用場景內的算力;另一方面,傳統研究采用單個無人機對地面用戶進行移動邊緣計算服務,相比于多個無人機對地面用戶服務的效率較低。如今,多無人機軌跡規劃算法已有大量的研究。如文獻[4],為最小化平均相應時間,采用粒子群優化算法與遺傳算法算子相結合的方式來優化無人機部署。文獻[5]在資源分配凸優化和組合無人機分組優化方案的耦合步驟中,通過調控優化無人機發射功率、計算資源分配,在最大化資源利用率的同時最大限度減少無人機傳輸能量和計算能量消耗。

然而,上述方法難以真正應用于實際場景[6]。一方面,用戶位置、無人機-用戶信道狀況等用戶側信息常常無法獲得或提前預測;另一方面,實際通信環境通常較復雜,無法準確建模。因此,在無法提前掌握環境信息的場景下進行無人機軌跡規劃是亟需解決的關鍵技術。

近年來,多智能體強化學習(multi-agent reinforcement learning,MARL)已成為熱門研究課題。多智能體強化學習可以基于分布式架構的無人機通信網絡,提供一種有效的智能資源管理解決方案,特別是在一些無人機只能獲取局部本地信息的真實場景下。如文獻[7],當環境動態和部分可觀察時,基于多智能體強化學習設計多無人機在多重約束下學習最優軌跡規劃策略。文獻[8]采用多智能體強化學習框架,每個智能體根據局部觀察學習,所有智能體獨立地執行決策算法。分布式架構有效地降低了計算的復雜性。然而,在經典的分布式學習方法中,大多數智能體的決策都是局部的。這些代理之間相互獨立、缺乏信息共享,難以實現全局最優結果。此外,即使有些方案在智能體間進行了信息交互,但此類方法沒有考慮用戶數據的隱私性,會對用戶通信數據的安全構成威脅。

聯邦學習(federated learning,FL)作為一種分布式機器學習算法,將訓練數據保存在本地設備,通過匯總本地模型更新到云服務器,學習得到全局模型,可同時實現隱私保護和信息共享。Wang等[9]在多無人機網絡采用聯邦學習框架,無需將原始敏感數據傳至服務器,在保護用戶設備隱私的同時節省無人機有限的計算和通信資源。余雪勇等[10]面對感知數據隱私安全問題,采用聯邦學習與強化學習的激勵機制相結合的方式促進高質量模型共享,提高了無人機的實用性并保障了隱私保護。從上述文獻能夠看出,聯邦學習既能夠實現用戶間的信息共享,又很好地彌補了傳統分布式架構在隱私安全方面的缺陷。

因此,本文提出了一種移動邊緣計算場景下基于聯邦深度強化學習的多無人機軌跡規劃算法,有效地解決了無人機輔助移動邊緣計算場景中地面用戶設備時延敏感、無人機卸載服務不均衡的情況。本算法結合了聯邦學習與雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法,既實現了在環境信息無法預知的情況下進行路徑規劃,又確保了信息共享以實現全局最優,同時保護了無人機的數據隱私。

1 系統模型與問題描述

1.1 無人機飛行模型

將無人機的飛行時間劃分為T個時隙,每個時隙長度為τ。無人機以固定安全高度H在目標區域上空飛行,第m(m=1,2,…,M)架無人機的飛行坐標為[Xm(t),Ym(t),H],其中Xm(t)、Ym(t)分別為無人機m在第t(t=1,2,…,T)時隙的橫、縱坐標。令dm,t和θm,t分別為無人機在t時隙的飛行距離和水平方向角度,且滿足dmax為無人機單位時隙內最大飛行距離。因此第m架無人機在第t時隙的橫縱坐標分別為

圖1 無人機輔助移動邊緣計算系統模型Fig.1 UAV aided mobile edge computing system model

(1)

為保證無人機在飛行過程中的安全,限定邊界,防止無人機飛出任務區域,即0≤Xm(t)≤Xmax和0≤Ym(t)≤Ymax,其中Xmax和Ymax為該區域的長度和寬度。多無人機協同工作時,為避免無人機之間出現碰撞造成損失,需得到無人機m與無人機m′之間的距離,表示如下:

(2)

設置無人機m與無人機m′之間的最小距離為Rm,并滿足:

Rm,m′,t≥Rm

(3)

1.2 信道模型

對于空對地信道,當無人機在一定高度上時,地面用戶n與無人機m之間的傳播條件可以近似為由視距鏈路[12]主導的自由空間路徑損耗模型[13]。因此,無人機m和地面用戶設備n之間的信道功率增益可以被量化為

(4)

式中:h0為參考距離d0=1 m時無線信道內的信道增益大小;dn,m,t為第n個地面用戶與第m架無人機之間的距離。利用歐幾里得坐標系表示為

(5)

因此,第n個地面用戶與第m架無人機之間的數據傳輸速率[14]可以進一步表示為

(6)

式中:B為信道的帶寬,本文設定所有無人機通過頻分多址(frequency division multiple access,FDMA)的方式為所有地面用戶提供同等帶寬分配的服務;Pn為用戶設備n的傳輸功率;σ2為信道中的背景噪聲功率。

同時考慮到傳輸距離損耗和不同信道之間的干擾,設定無人機可為地面用戶提供計算卸載的最大傳輸距離,即覆蓋范圍為Rmax,并滿足如下覆蓋范圍約束:

dn,m,t≤Rmax

(7)

1.3 計算卸載模型

本文假定,每個地面用戶均可選擇本地計算或部分卸載至無人機進行輔助計算。同時,無人機可為覆蓋范圍內的任意地面用戶提供比例卸載服務。卸載比例αn,m,t∈[0,1],αn,m,t=0表示完全卸載至無人機m進行計算,αn,m,t=1表示由地面用戶進行計算。為簡化數據分割難度,同一時隙內單個地面用戶設備規定只能與一架無人機關聯進行計算卸載。

在任意時隙t,各地面用戶設備均會產生一個待處理的計算密集型任務Sn,t,并假設終端設備產生的任務數據均可逐位獨立并可按任意比例進行劃分,定義為

Sn,t={Dn,t,Fn,t}

(8)

式中:Dn,t為待處理的數據量;Fn,t為執行此任務所需的CPU周期總數。

1.3.1 地面用戶本地計算

(9)

式中:fn,t為用戶設備處理器的CPU計算頻率。

1.3.2 地面用戶設備卸載到無人機

(10)

在無人機端任務的執行時間可以表示為

(11)

式中:fm,t為無人機服務器的CPU計算頻率。

由于無人機端計算處理結束后產生的數據結果通常較小,因此忽略數據回傳時延。

1.3.3 對于單個地面用戶設備的總時延

雖然終端設備可以同時將任務卸載到無人機,但各終端設備卸載的任務在無人機上為串行執行,故需要排隊處理,采用先進先出(first input first output,FIFO)方式對終端設備卸載到無人機的數據進行處理。無人機計算卸載時延由傳輸時延、等待和計算時延構成。

因為采取了部分卸載的方式,充分利用了無人機端和地面用戶設備端的計算資源。因此,對于單個地面用戶,在計算總時延時需要并行考慮這兩端的時延。對每一個地面用戶設備所產生的待計算任務工作時延Tn,t為

(12)

最后,為了保障所有地面用戶設備的計算能夠在規定時間內完成,還規定了每個時隙內的最大任務時間Tmax,并滿足:

Tn,t

(13)

1.4 問題描述

(14)

為了同時兼顧地面用戶任務處理時延以及無人機服務地面用戶的公平性,本文提出了多無人機輔助移動邊緣計算系統中的聯合優化問題,通過聯合優化無人機的軌跡和計算卸載決策,使服務公平性和任務計算時延的加權和最大化。用β代表權重系數,最終優化問題可以描述如下:

(15)

2 算法設計

在本節中,提出一種融合聯邦學習和雙延遲深度確定性策略梯度(FL-TD3)的算法,解決移動邊緣計算中多無人機軌跡規劃問題。由于在環境中沒有可以獲取全局信息的中央控制器,每架無人機只能根據自身傳感器獲取環境中的相關信息,而無法得知其他無人機的相關信息。各無人機分別與環境交互,依據自身觀察到的局部信息獲取動作獎勵值,得到相應策略。這種訓練方式使無人機獲取信息不夠全面,根據這些局部信息學習得到的策略容易陷入局部最優。因此,為了保證不陷入局部最優解,需要對無人機進行一定的協作來實現信息共享,從而達到全局最優。

為保證訓練效果,本文用聯邦深度強化學習的方式對無人機輔助移動邊緣計算進行訓練,如圖2所示。

圖2 基于聯邦深度強化學習算法框架Fig.2 Framework of federated deep reinforcement learning algorithm

首先,無人機根據自身情況與環境進行交互,訓練得到局部最優策略;然后,為保證多無人機決策不陷入局部最優解,定期將無人機訓練所得局部模型傳輸至云服務器進行聯邦學習中心聚合,之后再將聚合所得模型下發回各無人機。與集中式架構的中央控制器決策方案相比,云服務器不進行全局模型訓練,僅通過更新模型參數的方式實現無人機之間的信息共享。無人機重復上述學習方式,直至收斂完成訓練。這樣,無人機就可以直接根據環境信息生成相應的部署和資源分配決策,無需將大量數據傳輸至云服務器在云端集中訓練,極大縮減數據傳輸量以及訓練復雜度。

在此算法中,每架無人機作為一個智能體,每個智能體可以進行獨立學習,根據當前環境狀態確定下一步的動作。無人機的軌跡位置狀態和計算卸載服務狀態都具有馬爾可夫性質,即下一個時刻的狀態只與當前狀態有關,與之前的狀態均無關。因此,這樣的優化問題可以被建立為離散時間馬爾可夫決策過程(Markov decision process,MDP)。在數學上,將MDP重新定義為三元組(sm,am,rm)。其中,sm和am分別代表無人機m的狀態空間和動作空間,rm代表無人機m在當前狀態sm做出動作am的獎勵函數。

因此可以定義每個智能體在t時隙的狀態、動作、獎勵函數如下:

2)動作am(t)。定義在t時隙無人機m的飛行位移和卸載比例am(t)={dm,t,θm,t,αn,m,t} 。

3)獎勵函數rm(t)。定義獎勵函數為

(16)

式中:pr為無人機m飛出限定范圍的懲罰;pm為無人機m與其他無人機相撞的懲罰。

綜上所述,每架無人機都可以根據當前的環境狀態信息做出相應的執行策略。根據多架無人機的聯合動作將環境更新到下一狀態,同時每架無人機得到相應的獎勵。每架無人機通過試錯的方法不斷地與環境交互,最終學習到一個最優的策略π(s),使其能夠做出最優決策,得到長期獎勵最大化,可以將長期獎勵定義為

(17)

式中:r(·)為獎勵函數;γ為獎勵的折扣因子,γ∈(0,1)。

深度強化學習因其加強了神經網絡的層級,可用于處理無人機更加復雜的的控制問題。使用深度神經網絡的輸出近似擬合未來獎勵的期望值Q(s,a),Q(s,a)是在狀態s中執行動作a,以取得獎勵的預期收益。連續性動作控制算法包括深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法和TD3算法,通過最小化損失函數更新神經網絡的參數θ獲得更準確的Q值,提升智能體的性能。

TD3作為一種連續動作控制算法,在智能控制領域擁有良好的效果。與同為連續動作空間控制算法的DDPG相比,這一經典算法解決了高估誤差問題。TD3使用3種技術對這個問題進行優化。

首先,TD3算法采用兩套Critic網絡及Critic Target網絡,對于每次更新,選取較小的Q值。

其次,采用延遲更新策略,當模型的價值函數產生較大變化時,才會更新其策略;否則,不會更新。這樣可降低價值估計的差異,產生更好的策略,在更新時可以獲得更穩定的性能。

最后,采用目標策略正則化減少方差增加,因為在更新Critic網絡時,確定性策略的學習目標容易受到函數近似值誤差的影響,導致目標的方差增加。此外,TD3的動作輸出會受到噪聲影響,我們通過平均訓練批次中的噪聲平滑估計值。所添加的噪聲服從正態分布,并且對采樣的噪聲進行適當裁剪,使動作更接近原始動作。

從以上所述可以看到,在每架無人機上分別部署了基于TD3的無人機輔助移動邊緣計算軌跡規劃算法。每架無人機分別根據自身所處環境學得局部最優策略。然而,本文的場景設置為多無人機協作共同服務地面用戶,如果單架無人機只追求自身的獎勵最大化,會影響其他無人機的訓練結果。而在此項任務當中無人機相互之間處于合作關系而非獨立或者競爭的關系,那么應當設計出一種能夠在全局的角度下最優結果,而非單架無人機局部最優。因此,本文引入聯邦學習框架,從而達到多無人機協同過程中的全局最優。

采用聯邦平均(federated averaging,FedAvg)的方式對深度強化學習模型進行平均聚合,按式(18)更新:

(18)

式中:θglobal為全局網絡模型參數;θm為無人機上部署的局部模型參數。

在聯邦深度強化學習框架下,模型訓練僅在各無人機端利用私有數據進行訓練,而中心服務器只進行模型聚合。與傳統的集中式學習相比,本方案并沒有將所有數據傳至中心服務器進行集中式訓練,既降低了訓練復雜度又保護了數據隱私。

在本文提出的移動邊緣計算中基于聯邦深度強化學習的無人機輔助軌跡規劃方案中,無人機是聯邦學習框架中客戶端學習與訓練的主體,基站配屬的服務器是聯邦學習框架中的云端。每架無人機都被建模為一個智能體,可以進行獨立的探索和學習。算法將聯邦學習和深度強化學習相結合,組成多智能體協作通信網絡。具體過程如算法1所示。

該算法分為3個部分。首先,初始化整個多無人機通信環境和每架無人機的網絡參數。之后,每架無人機通過與環境交互獲得狀態信息。無人機根據神經網絡的輸出結果執行動作,獲得相應的獎勵和下一個狀態。重復無人機與環境交互達到一定次數后,將學習所得網絡模型參數傳輸至FL云服務器。最后,FL云服務器在特定周期得到各無人機上傳的網絡模型參數。云服務器聚合各局部模型參數并生成新的全局模型參數,再下發回各無人機繼續訓練。重復上述訓練過程,直到達到迭代次數為止。

算法1:移動邊緣計算中基于聯邦深度強化學習的多無人機軌跡規劃算法1.建立環境和算法參數;2.for all UAV m,m∈Mdo3. 初始化回放緩存 m。4. 初始化Critic網絡Qmθ1、Qmθ2和Actor網絡πm?,以及隨機參數θm1、θm2、?m。5.初始化Critic Target網絡Qm,Targetθ1、Qm,Targetθ2和Ac-tor Target網絡θm,Targetπ?,以及模型參數:θm,Target1θm1、θm,Target2θm2、?m,Target1?m。6.end for7.forp=1 to emaxdo8. 初始化環境以及全局狀態S(t);9. fort=1 to Tdo10. for all UAV m,m∈M do11. 從FL中心服務器獲取全局權重θglobal;12. 獲取狀態sm(t)同時依據模型策略選 取動作;

13. end for14. 根據所有無人機的聯合動作A(t)更新最新 的全局狀態S(t+1);15. for all UAV m,m∈Mdo16. 獲取新的狀態值sm(t)以及相應的獎勵 rm(t);17. 存儲(sm(t),am(t),rm(t),sm(t+1))到 回放緩存 m中;18. 從回放緩存 m中隨機采樣過渡的小批 量樣本(sj,aji,rji,s′j);19. 通過目標值ym計算最小化損失函數,更 新Critic網絡的權重θm1、θm2: θmi←argminθmiN-1∑(ym-Qmθi(s,a))2 ?i∈1,220. Ift mod 3 then21. 更新Actor網絡的權重 ?m: Δ?mJ(?m)=N-1∑ΔaQmθmi(s,a)a=πm?(s)Δ?mπ?m(s)22. 更新Actor Target網絡和Critic Target 網絡的權重: θm,Targeti←τθmi+(1-τ)θm,Target ?i∈1,2 ?m,Target←τ?m+(1-τ)?m,Target?i∈1,223. End if24. 發送模型權重θm1、θm2、?m到聯邦學習中心 服務器;25. end for26. 聯邦學習云服務器對所有無人機的權重進 行平均,以更新全局權重θglobal;27. end for28.end for

3 仿真結果和分析

本節通過實驗仿真說明移動邊緣計算中基于聯邦深度強化學習的多無人機軌跡規劃算法的性能。首先,描述系統模型參數設置。其次,分析仿真結果以及性能,并與其他算法進行性能比較。

3.1 仿真設計環境參數和算法超參數設置

設定150 m×150 m的任務區域,部署3架無人機以及20個地面用戶隨機分布在任務區域內,如果無人機飛出限定區域將被強制返回。為了簡化無人機飛行環境,設置無人機飛行高度為15 m。3架無人機的起始位置分別為[20,20]、[20,120]、[120,120] m。在此區域內部署隨機分布的20個地面用戶,每個地面用戶在各時隙開始時均會產生一個數據大小為D以及每比特需要CPU輪數為F的待處理計算密集型任務Sn,t。具體相關參數見表1。

表1 系統模型與優化模型參數Table 1 System model and optimization model parameters

為分析本文算法性能,與其他3種算法進行對比:

1)分布式雙延遲深度確定性策略梯度(distributed twin delayed deep deterministic policy gradient,DIS-TD3)[15]多無人機輔助移動邊緣計算算法:部署多架無人機,采用分布式架構,TD3算法獨立部署在各無人機上僅依靠自身局部信息訓練學習,最終做出決策。

2)雙延遲深度確定性策略梯度單無人機輔助移動邊緣計算(single UAV twin delayed deep deterministic policy gradient,SINGLE-TD3)[16]算法:僅使用單個無人機,利用雙延遲深度確定性策略梯度算法對無人機進行軌跡規劃。

3)在地面用戶設備本地執行所有計算任務,簡稱為LOCAL-ONLY:無人機不參與計算任務,僅依靠地面用戶自身對產生的計算任務進行處理。

3.2 仿真性能分析

首先,描述多無人機輔助移動邊緣計算的軌跡,如圖3。在150 m×150 m的規定范圍內部署了3架無人機以及20個地面用戶隨機分布在任務區域內,圓點代表地面用戶的位置,菱形、三角形、十字形分別為3架無人機的軌跡。

圖3 各地面用戶位置分布及無人機軌跡Fig.3 Location distribution of ground users and drone trajectories

從圖3可以看出,因計算卸載覆蓋范圍有限,無人機必須移動位置以保證服務更多地面用戶,從而提高服務地面用戶公平性。同時為減小卸載到無人機計算任務的傳輸時延,無人機盡可能貼近地面用戶以減小傳輸距離。所有無人機都在一定區域內飛行,無人機1聚集在左下,貼近地面用戶聚集處。無人機3從右上逐漸遷移至右下,以服務更多用戶。

圖4為FL-TD3的收斂性能。本文共部署了3架無人機協同對地面用戶設備進行計算卸載服務。收斂性能描述了訓練過程中3架無人機的總獎勵值變化。剛開始總獎勵持續增加,到1 000次左右逐漸趨于平緩,經過約2 800次訓練后趨于收斂。

圖4 FL-TD3算法收斂情況Fig.4 Convergence of FL-TD3 algorithm

圖5為系統中服務公平性和時延累計隨時隙變化的仿真結果。在整個多無人機輔助計算卸載過程中,共設置了10個時隙為地面用戶提供服務。其中,為了對比優化問題中權重系數β對性能的影響,在本文提出的FL-TD3上設立權重系數為β=0.3的對比算法,即圖中的FL-TD3-0.3算法,對比權重系數對公平性和時延性能的影響。在圖5(a)中,所有算法的公平性均隨著時隙的增長而升高。這是因為隨著時隙的增長無人機不斷增加對地面用戶的計算卸載數量,從而使服務公平性不斷增高。圖5(b)為時延的累計,它隨著時隙的增長不斷升高。首先,FL-TD3-0.3相比FL-TD3的公平性較差而時延較好,這是因為當權重系數β變小時,算法將更重視對時延的優化而減輕對公平性的注重。因此FL-TD3-0.3的時延優于其他所有算法。還可以看出,因為FL-TD3-0.3權重系數β較小,隨著時隙的增長,FL-TD3-0.3的公平性相比于另兩個多無人機算法的差距越來越大。其次,本文提出的FL-TD3算法優于DIS-TD3算法,這是因為本研究將聯邦學習融入了多智能體深度強化學習框架中,聯邦學習的加入讓無人機之間能夠信息共享,因此性能更優。最后,分析無人機數量對服務性能的影響,單無人機與多無人機相對比,僅依靠單個無人機對地面用戶進行計算卸載任務服務,能夠看出其性能低于多無人機算法。LOCAL-ONLY算法不能充分利用整個系統的計算資源,性能在所有算法中最差。

圖5 公平性和時延累計隨時隙變化Fig.5 Fairness and delay accumulation vary with time slots

圖6展示了在無人機不同覆蓋范圍Rmax下,各算法的服務公平性和時延對比。其中地面用戶數量恒定為20個。同樣,本文為了對比優化問題中權重系數β對性能的影響,設置了對比算法FL-TD3-0.3。

圖6 公平性與總時延隨無人機覆蓋范圍變化Fig.6 Fairness and total latency vary with drone coverage

由圖6可以看出,當無人機的覆蓋范圍增大時,所有算法的性能隨之更優。具體來說,公平性均隨覆蓋范圍的增大而變好;FL-TD3算法、FL-TD3-0.3、DIS-TD3的時延均隨覆蓋范圍的增大而減短。這是因為隨著無人機覆蓋范圍的增大,無人機能夠在單個時隙內覆蓋更多地面用戶,從而豐富了無人機部署位置的多樣性,最終提高了無人機服務地面用戶的整體性能。相比本文提出的算法FL-TD3,隨著覆蓋范圍變化,FL-TD3-0.3始終保持著公平性較差而時延較好的趨勢,這是因為其權重系數β較小,使公平性的權重降低而時延的權重更高。本文提出的FL-TD3算法因其融入了聯邦學習框架,使無人機之間能夠實現信息共享。隨著覆蓋范圍的增大,FL-TD3性能始終優于DIS-TD3算法。SINGLE-TD3算法覆蓋范圍在15~25 m區間時,可以看到時延能夠隨覆蓋范圍增大而降低。然而在30~45 m之間,時延幾乎不變,只有微弱的降低,這是因為單個無人機無法在一個時隙內卸載過多地面用戶,這會造成計算任務大量排隊,使計算時延超過本地計算時間,無人機不再拓展更多計算卸載任務,所以在此區間內時延變化不大。對比其他算法,SINGLE-TD3的公平性、時延性能雖然能夠隨著覆蓋范圍的增大而變優,但是由于其無人機數量局限性,其性能差于所有多無人機算法。LOCAL-ONLY算法不能充分利用整個系統的計算資源,性能在所有算法中最差。

4 結束語

本文研究了多無人機輔助移動邊緣計算的軌跡規劃問題。針對計算密集型應用對時延具有較強的敏感性,采取將地面用戶部分任務卸載到無人機上進行輔助計算。本文采用了一種聯合優化策略,將無人機軌跡和任務卸載比例作為優化目標,旨在最大化任務時延和服務公平性的加權和,以確保在服務地面用戶的過程中,最小化時延的同時兼顧無人機服務地面公平性。為實現多無人機能夠協同對地面用戶進行計算卸載服務,本文將聯邦學習融入多智能體深度強化學習算法中,達到信息交互的目的。通過聯邦學習非隱私數據共享的機制,既實現了多無人機間的信息共享使學習效果達到全局最優,又保障了數據隱私。仿真結果表明,與無信息交互的多智能體深度強化學習相比,本文提出的算法在無人機服務公平性和時延上具有更好的性能。

猜你喜歡
覆蓋范圍公平性時隙
復用段單節點失效造成業務時隙錯連處理
一種提高TCP與UDP數據流公平性的擁塞控制機制
基于機器學習的基站覆蓋范圍仿真
一種高速通信系統動態時隙分配設計
公平性問題例談
時隙寬度約束下網絡零售配送時隙定價研究
淺談提高小功率短波電臺覆蓋范圍的措施
關于短波廣播覆蓋范圍的幾點探討
關于公平性的思考
基于TDMA的無沖突動態時隙分配算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合