?

無人機輔助的雙層深度強化學習任務卸載算法

2024-03-05 10:30陳釗龔本燦

計算機應用研究 2024年2期

陳釗龔本燦

收稿日期：2023-06-25；修回日期：2023-08-03? 基金項目：國家自然科學基金資助項目（62172255）

作者簡介：陳釗（1999—），男，河南許昌人，碩士研究生，主要研究方向為邊緣計算、邊緣智能；龔本燦（1970—），男（通信作者），湖北監利人，教授，碩導，博士，主要研究方向為邊緣計算、網絡安全（gonbc@sina.com）.

摘? 要：為了解決無人機軌跡優化、用戶功率分配和任務卸載策略問題，提出了一種雙層深度強化學習任務卸載算法。上層采用多智能體深度強化學習來優化無人機的軌跡，并動態分配用戶的傳輸功率以提高網絡傳輸速率；下層采用多個并行的深度神經網絡來求解最優卸載決策以最小化網絡的時延和能耗。仿真結果表明，該算法使得無人機能夠跟蹤用戶的移動，顯著降低系統的時延和能耗，能夠給用戶提供更優質的任務卸載服務。

關鍵詞：無人機輔助；軌跡優化；雙層深度強化學習；任務卸載

中圖分類號：TP393??? 文獻標志碼：A

文章編號：1001-3695（2024）02-016-0426-06

doi：10.19734/j.issn.1001-3695.2023.06.0250

UAV-assisted two-layer deep reinforcement learning algorithm

for task offloading

Chen Zhaoa，b，Gong Bencana，b

（a.College of Computer & Information Technology，b.Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Enginee-ring，China Three Gorges University，Yichang Hubei 443000，China）

Abstract：In order to solve the problems of UAV trajectory optimization，user power allocation and task offloading strategy，this paper proposed a two-layer deep reinforcement learning（TDRL） algorithm for task offloading.The upper layer used the multi-agent deep reinforcement learning to optimize the trajectories of UAVs，and dynamically allocated the user transmission power to improve the transmission rate of the network.The lower layer used multiple parallel deep neural networks to generate the optimal offloading decision to minimize network latency and energy consumption.The simulation results show that the proposed algorithm enables UAVs to track user movement，significantly reduces system latency and energy consumption，and provides users with better task offloading services.

Key words：UAV-assisted；trajectory optimization；two-layer deep reinforcement learning；task offloading

0? 引言

近年來，隨著物聯網的快速發展，智能手機、智能穿戴、便攜式設備等各種物聯網設備的數據規模呈爆炸性增長［1］。移動設備的計算資源有限，難以處理時延敏感型任務和大規模計算任務。因此，移動邊緣計算（MEC）應運而生［2］。移動設備將需要處理的任務卸載到邊緣服務器，以降低計算時延和能耗［3］。然而在一些特殊的應用場景中，固定部署的邊緣服務器難以滿足用戶對網絡帶寬的需求，此時利用無人機高機動性和方便部署的特點，以無人機作為移動基站為用戶提供臨時的網絡通信環境［4］。在MEC中，無人機的軌跡優化和資源分配問題已經成為當前的研究熱點。文獻［5］在滿足傳輸速率、飛行速度和可用能量的約束下，以最大化系統的吞吐量為目標對無人機的飛行軌跡和功率分配進行了優化。文獻［6］通過聯合優化無人機的位置、通信和計算資源的分配，以最小化物聯網設備的服務延遲和無人機的能耗。文獻［7］提出了一種基于反向散射的任務卸載和資源分配算法，通過優化無人機的軌跡、用戶發射功率、計算頻率、卸載比例和反向散射的時間來最小化系統的總能耗。文獻［8］提出了一種新的數據卸載決策框架，采用非合作博弈來最大化每個用戶的滿意度。文獻［9］提出了一種多子群演化交互的均衡優化算法，能夠優化多個無人機的位置及網絡的卸載決策。

以上文獻采用傳統的優化算法或啟發式算法來解決無人機輔助MEC中的資源分配問題，取得了較好的效果，但是傳統的優化算法或啟發式算法需要大量的迭代，使得這些算法不適合在復雜時變環境中用于無人機通信，或作為計算服務的實時解決方案。為了實時解決無人機輔助MEC中的資源分配問題，研究人員采用了深度強化學習方法，智能體通過與復雜的環境交互，可以在沒有人工控制的情況下利用深度神經網絡強大的學習能力來實時生成最優策略，自動適應快速變化的網絡環境。

文獻［10］采用深度Q網絡和深度確定性策略梯度算法來優化無人機的軌跡和虛擬機的配置，以最小化系統的計算和通信延時。文獻［11］提出了一種基于深度強化學習的無人機任務調度算法，平衡了無人機的負載，提高了每架無人機執行任務的效率。文獻［12］提出了一種基于分布式深度強化學習的協同探索和優先經驗重放方法，采用分布式探索過程，允許移動設備協同學習以獲得具有最低成本的卸載策略。文獻［13］提出了一個5G網絡切片擴展設計框架，通過強化學習，系統控制器可以打開和關閉無人機的計算單元，并將任務卸載到其他無人機，以最大限度地減少功耗、任務損失和系統延遲。文獻［14］提出了一種多智能體深度強化學習算法，建立了無人機的成本收益模型，通過聯合優化功率控制、資源分配、用戶與無人機的關聯關系來最大限度地降低系統能耗，但該算法假定無人機集群只能沿著固定半徑的圓形軌跡飛行。文獻［15］提出了一種基于深度確定性策略梯度的無人機連續移動控制算法，考慮了能量消耗、用戶服務質量和無人機覆蓋的公平性。文獻［16］提出了一種深度強化學習算法來求解邊緣計算中多無人機的最優軌跡設計和卸載策略問題，但無人機只能在固定高度飛行。文獻［17］提出了一種基于多智能體深度強化學習的無人機軌跡控制算法，用于管理每架無人機的軌跡，并優化用戶的卸載決策。

以上算法能夠進行實時的資源分配，但這些算法沒有考慮用戶的移動性，不能根據用戶的移動來優化無人機的飛行軌跡，以最大化網絡的傳輸速率。文獻［18］提出了基于Q機器學習的無人機軌跡設計和功率控制算法。文獻［19］提出了一種基于深度強化學習的無人機軌跡設計和功率分配算法。這兩種算法都能規劃無人機的軌跡，實現無人機對用戶的跟蹤，提高網絡的傳輸速率，但都未考慮用戶的卸載策略。

綜上所述，在MEC中，現有基于深度強化學習的無人機輔助任務卸載算法沒有同時考慮用戶的移動性和用戶的卸載策略。因此，本文在用戶隨機移動的背景下研究了無人機的飛行控制、用戶與無人機的關聯關系、用戶的功率分配和卸載策略，以最大限度地減少網絡的時延和能耗，這是一個時間序列混合整數非凸規劃問題，涉及多個耦合的優化變量。為了解決這個問題，本文設計了一個雙層深度強化學習架構，上層采用多智能體深度強化學習實現無人機對用戶的跟蹤，優化用戶的功率分配，以提高網絡的傳輸速率，為用戶的任務卸載提供穩定的通信保障；下層使用多個并行的深度神經網絡生成最優卸載決策，以最小化網絡的時延和能耗。通過上下層的聯合優化來解決無人機的飛行控制和系統的資源分配問題。

1? 系統建模

1.1? 系統模型

本文的應用場景如圖1所示。在一個三維空間內有大量用戶、多個無人機和一個地面基站，由于地面基站無法為過多的用戶提供可靠的通信服務，為了給過載的地面基站分擔壓力，所以采用無人機作為輔助設備，通過NOMA接入技術為移動用戶提供高質量的通信和計算服務。當用戶與地面基站之間的傳輸速率低于額定速率RQos時，將由無人機為其提供服務。用戶在限定區域內可以自由移動，無人機（即智能體）能實時檢測用戶的位置，為用戶分配無人機并規劃無人機的飛行軌跡。假設被無人機服務的移動用戶個數為N，其集合表示為n∈Euclid Math TwoNAp={1，2，…，N}，無人機的數量為M，其集合表示為m∈Euclid Math TwoMAp={1，2，…，M}。無人機在T時間段內為用戶提供服務，將整個服務時間均勻離散為長度Δt的時隙，其集合表示為t∈Euclid Math TwoTAp={1，2，…，T}。無人機m在時隙t的位置為Ouavm（t）=（Xuavm（t），Yuavm（t），Huavm（t））。每個用戶n在時隙t的位置為Ousern（t）=（Xusern（t），Yusern（t），Husern（t）），設定用戶只在地面行走，所以Husern（t）=0。用戶隨機移動，用戶n在下一個時隙的位置可以表示為

Xusern（t+1）=Xusern（t）+randn×Vusermax×cos αn（t）（1）

Yusern（t+1）=Yusern（t）+randn×Vusermax×sin αn（t）（2）

其中：randn∈［0，1］，αn∈［0，2π］都是隨機數，表示用戶的移動方向；Vusermax表示用戶的最大移動速度，是一個系統參數。

1.2? 自適應關聯服務模型

為了減少干擾，根據用戶的位置信息，將所有用戶劃分為與無人機同等數量的用戶簇（C1，C2，…，CM），并為每個簇分配一個無人機，這樣保證每個用戶都能覆蓋到且不會被重復服務。在服務過程中，由于用戶處于隨機移動狀態，一段時間后簇內用戶之間可能會相距很遠，導致無人機與用戶之間的通信質量變差。所以，設定重新分簇的距離閾值為dmax，當簇內任意兩個用戶之間的距離超過dmax時將重新分簇，以維持用戶與無人機之間良好的通信狀態。

1.3? 信道模型

采用空對地無線信道雙射線路徑損耗模型，同時考慮了直射路徑（LoS）和非直射路徑（NLoS）兩種情況。在時隙t無人機m和用戶n之間的二維距離dm，n（t）和仰角θm，n（t）為

dm，n（t）=（Xusern（t）-Xuavm（t））2+（Yusern（t）-Yuavm（t））2

θm，n（t）=180°πarcsin （Huavm（t）/dm，n（t））（3）

直射路徑的概率取決于用戶與無人機之間的仰角θm，n（t），計算公式為

FLoSm，n（t）=11+a×exp（-b（θm，n（t）-a））（4）

其中：a和b是環境參數，非直射路徑的概率為

FNLoSm，n（t）=1-FLoSm，n（t）

無人機m和用戶n之間的平均路徑損耗為

Lm，n（t）=FLoSm，n（t）×LLoSm，n+FNLoSm，n×LNLoSm，n（5）

LLoSm，n=（4πfcdm，nλ）2ξLoS（6）

LNLoSm，n=（4πfcdm，nλ）2ξNLoS（7）

其中：LLoSm，n 和LNLoSm，n分別表示LoS和NLoS的路徑損耗；ξLoS和ξNLoS分別表示LoS和NLoS的過度路徑損耗參數；λ為波長；fc為載波頻率?？紤]小尺度衰落，在時隙t無人機m和用戶n之間的信道增益為

gm，n（t）=δm，n（t）×10-Lm，n（t）/10（8）

其中：δm，n（t）表示信道衰落系數。

在時隙t，無人機m和用戶n之間的關聯關系矩陣為

S=s1，1（t）…s1，N（t）

sM，1（t）…sM，N（t）

其中：sm，n（t）為服務標志，當無人機m為用戶n提供服務時，sm，n（t）=1，否則，sm，n（t）=0。假設無人機m的最大發射功率為Pmaxm，在時隙t無人機m分配給用戶n的發射功率為Pm，n（t），則無人機m的總發射功率為

Pm（t）=∑Nn=1sm，n（t）Pm，n（t）≤Pmaxm（9）

因此，在時隙t無人機m的疊加發射信號為［20］

xm（t）=∑Nn=1sm，n（t）Pm，n（t）xm，n（t）（10）

其中：xm，n（t）表示無人機m發送給用戶n的信號；Pm，n（t）表示無人機m分配給用戶n的發射功率。用戶n的接收信號由期望信號、簇內干擾、簇間干擾和高斯白噪聲組成，計算公式為

ym，n（t）=gm，n（t）xm，n（t）+Iinterm，n（t）+Iintram，n（t）+σm，n（t）（11）

Iinterm，n（t）=∑Mk=1，k≠mgk，n（t）Pk（t）xk（t）（12）

Iintram，n（t）=∑Nh=n+1sm，h（t）gm，h（t）Pm，h（t）xm，h（t）（13）

其中：gm，n（t）xm，n（t）表示期望信號；Iinterm，n表示當無人機m與用戶n通信時來自其他無人機的簇間干擾；Iintram，n表示當無人機m與用戶n通信時來自簇內其他用戶的干擾；σm，n（t）為高斯白噪聲。

采用NOMA接入技術時，接收端采用串行干擾消除（SIC）技術進行解碼以消除干擾。SIC技術將接收到的用戶信號功率從大到小進行排序后依次解碼，得到用戶數據，第n次被解碼用戶的信干噪比公式為

SINRm，n（t）=sm，n（t）gm，n（t）Pm，n（t）∑Nh=n+1sm，h（t）gm，h（t）Pm，h（t）+∑Mk=1，k≠mgk，n（t）Pk（t）+σm，n（t）（14）

在時隙t，無人機m與用戶n之間的傳輸速率為

Rm，n（t）=B log2 （1+SINRm，n（t）2）（15）

其中：B表示無人機m的帶寬。因此，在時隙t所有無人機與關聯用戶之間總的傳輸速率為

R（t）=∑Mm=1∑Nn=1Rm，n（t）（16）

1.4? 計算模型

假設在時隙t用戶n待處理任務的數據量為Dn（t）。采用二元卸載模式，用戶的計算任務可卸載到無人機上執行，也可在本地執行，用戶的卸載策略為

ψ=（x1（t），x2（t），…，xN（t））

其中：xn（t）∈{0，1}，如果xn（t）=0時，則用戶n的任務在本地執行，否則，用戶n的任務全部卸載到無人機上執行。時延由傳輸時延和計算時延兩部分組成，傳輸時延包括用戶向無人機卸載任務的時延和無人機將計算結果返回給用戶的時延，由于計算結果通常數據量比較小，所以和文獻［21］相同。忽略返回結果所用的時間，總時延為

Ttotal（t）=Ttrans（t）+Tuavcompu（t）+Tlocalcompu（t）（17）

Ttrans（t）=∑Nn=1? ∑Mm=1Dn（t）xn（t）Rm，n（t）（18）

Tuavcompu（t）=∑Nn=1Dn（t）ωuavxn（t）fuav（19）

Tlocalcompu（t）=∑Nn=1Dn（t）ωuser（1-xn（t））fuser（20）

其中：Ttrans（t）表示卸載任務的傳輸時延；Tuavcompu（t）表示邊緣服務器的計算時延；Tlocalcompu（t）表示本地的計算時延；ωuav和ωuser分別表示在邊緣服務器和用戶設備上處理每bit數據需要消耗的CPU周期數；fuav為無人機上邊緣服務器的CPU計算頻率；fuser為用戶設備的CPU計算頻率。完成任務的總能耗為

Etotal（t）=Etrans（t）+Euavcompu（t）+Eusercompu（t）+Emove（t）（21）

Etrans（t）=Ttrans（t）Pm，n（t）（22）

Euavcompu（t）=Tuavcompu（t）Puavcompu（23）

Eusercompu（t）=Tusercompu（t）Pusercompu（24）

Emove（t）=m（t）（Er-1）Ehmmax+Eh（25）

其中：Etrans（t）表示在時隙t任務的傳輸能耗；Euavcompu（t）和Eusercompu（t）分別表示無人機和用戶設備的計算能耗；Pm，n（t）為無人機m向關聯用戶n發射信號的功率；Puavcompu和Pusercompu分別表示無人機和用戶設備的計算功率；Emove（t）表示無人機的移動能耗；mmax表示無人機在一個時隙的最大移動距離；m（t）表示無人機在時隙t的移動距離；Eh表示無人機懸停一個時隙所消耗的能量；Er表示無人機飛行最大距離mmax所消耗的能量與懸停所消耗的能量之比。

1.5? 問題描述

算法通過優化無人機的軌跡、用戶的發射功率、用戶與無人機之間的關聯關系和卸載策略來最小化系統的時延和能耗，將優化問題定義為

P1：Q=minOuav，P，S，ψ? ∑Tt=0（βEtotal（t）+（1-β）Ttotal（t））（26a）

s.t.? Xmin≤Xuavm（t），Xusern（t）≤Xmax，m，n，t（26b）

Ymin≤Yuavm（t），Yusern（t）≤Ymax，m，n，t（26c）

Hmin≤Huavm（t）≤Hmax，m，t（26d）

Husern（t）=0，n，t（26e）

Ouavm（t）≠Ouavi（t），m，i∈Euclid Math TwoMAp，m≠i，t（26f）

Rm，n（t）≥RQos，m，n，t（26g）

∑Nn=1sm，nPm，n（t）≤Pmaxm，m，t（26h）

∑Mm=1sm，n（t）=1，n，t（26i）

Vuavm（t）≤Vuavmax，m，t（26j）

Vusern（t）≤Vusermax，m，t（26k）

xn（t） ∈{0，1}，n，t（26l）

其中：約束式（26a）～（26e）是對無人機和用戶位置的約束，保證無人機和用戶在規定的區域內活動；約束式（26f）是為了避免無人機之間發生碰撞；約束式（26g）是為了確保用戶的傳輸速率不低于額定速率，以保證通信服務質量；約束式（26h）是無人機的發射功率約束，保證每個無人機的發射功率不超過其最大發射功率；約束式（26i）表示每個用戶只能被一個無人機所服務；約束式（26j）（26k）分別是無人機和用戶的最大移動速度限制；約束式（26l）表示用戶采用的是二元卸載決策。

2? TDRL算法設計

在無人機輔助的移動邊緣計算系統中，無人機作為智能體與環境進行實時交互。TDRL算法分為上、下兩層，總體框架如圖2所示。上層首先對用戶進行分簇，每個簇分配一個無人機，建立用戶與無人機之間的關聯關系，然后設計一個基于深度強化學習的無人機軌跡優化和用戶功率分配算法，使無人機能實時跟蹤用戶的移動，并給用戶分配合適的傳輸功率；下層采用多個并行的深度神經網絡來求解最優卸載決策，以最小化網絡的時延和能耗。

2.1? 分簇算法

根據每個用戶的位置信息將用戶劃分成與無人機數量相等的簇，每個簇由一架無人機提供服務。為了均衡無人機的負載，分簇時應保證每個簇的用戶數量不超過上限值。另外，為了避免干擾，簇的分布應盡量分散。Kmeans++分簇算法具有較低的復雜度，因此，在該算法的基礎上進行改進，設計了自適應分簇算法。

假設用戶位置的集合表示為Euclid Math TwoOAp={o1，o2，…，oN}，M個簇分別表示為（C1，C2，…，CM），每個簇的質心分別表示為（p1，p2，…，pM）。

算法1? 自適應分簇算法

輸入：用戶位置Euclid Math TwoOAp；需要生成的簇數M；最大迭代次數K；每個簇能容納的最大用戶數δ。

輸出：M個簇（C1，C2，…，CM）。

從集合Euclid Math TwoOAp中隨機選取一個用戶oi

C1=C1∪{oi}? //將該用戶加入第1個簇中

Euclid Math TwoOAp=Euclid Math TwoOAp-{oi}? //從集合中刪除該用戶

p1=oi? //設置第1個簇的質心

for i= 1，2，…，M-1 do? //選出M個用戶作為初始的簇質心

dn=∑ij=1‖on-pj‖，on∈Euclid Math TwoOAp，/*計算每個用戶n與現有簇質心間的距離之和*/

j=arcmax （dn）? //取dn最大的用戶

Ci+1=Ci+1∪{oj}? //將該用戶加入第i+1個簇中

Euclid Math TwoOAp=Euclid Math TwoOAp-{oj}? //從集合中刪除該用戶

pi+1=oj? //設置第i+1個簇的質心

end

for i= 1，2，…，K do? //迭代

for n= 1，2，…，N do //所有用戶加入簇

dn，j=‖on-pj‖，1≤j≤M//計算用戶n與每個簇質心的距離

k=arcmin1≤j≤M（dn，j） //取dn，j最小的簇

Ck=Ck∪{on}? ?//將用戶n加入該簇

pk=1|Ck|∑o∈Cko? //更新簇的質心

end for

SSE（i）=∑Mj=1∑o∈Cj‖o-pj‖2? //計算本輪的最小誤差平方和

if SSE （i）=SSE （i-1） then

break

end if

end for

while |Cm|>δ，1≤m≤M do? //簇中的用戶數量超過上限值

將與質心pm距離最遠的用戶on從簇Cm中刪除

將用戶on添加到另一個與之最近的簇Ci中，Ci≠Cm

end while

輸出生成的M個簇（C1，C2，…，CM）

2.2? 無人機軌跡優化和用戶功率分配算法

將無人機看作智能體，通過與環境的交互獲得反饋信息，無人機對用戶的動態跟蹤和功率分配問題可以轉換成馬爾可夫決策過程（MDP），具體描述如下：

a）狀態空間。包括在時隙t無人機m的坐標位置（Xuavm（t），Yuavm（t），Huavm（t））、用戶n的坐標位置（Xusern（t），Yusern（t））、無人機m和所服務用戶n之間的信道增益gm，n（t），位置信息是無人機對用戶進行動態跟蹤和功率分配的依據。

b）動作空間。包括無人機的飛行控制動作和功率分配動作。由于連續的動作空間具有較高的復雜性，而且無人機的移動幅度較小，離散的動作空間不會對飛行軌跡的精確性造成很大的影響。所以，采用離散化動作，設置了水平向前、向后、向左、向右、垂直向上、向下和懸停七個標準動作，同時設置了六個功率擋位。無人機選擇一個飛行動作且為每個服務用戶選擇一個功率擋位后一直維持到下一個狀態。

c）獎勵函數。獎勵函數的設置為了在保證用戶公平性的前提下最大化網絡的傳輸速率，獎勵函數為

r=R（t）2k（27）

其中：R（t）表示所有用戶的傳輸速率之和；k是懲罰系數。引入懲罰系數是為了保證用戶的公平性和通信質量，當用戶n的傳輸速率低于約定的速率RQos時，其值加1，k的初始值為0，每輪分為若干個時隙，每輪重置懲罰系數的值。

d）動作策略。在訓練過程中采用遞減的貪婪策略指導智能體選擇動作，引入貪婪因子ε∈［0，1］，產生一個［0，1］的隨機數，若其值小于ε，則采用隨機動作，否則采用神經網絡的預測動作，貪婪因子ε每輪遞減。在訓練前期，智能體有較大的概率采用隨機動作，以探索更多的可能性，隨著訓練輪次的增加，預測動作被選用的概率逐漸增大，以得到最佳的飛行軌跡和傳輸功率。

e）神經網絡的訓練。在每輪訓練中，無人機檢測當前的狀態s，根據動作策略選擇下一步動作a，并為用戶選擇合適的功率擋位，得到獎勵值r，更新狀態s→s′，將（s，a，r，s′）保存到經驗池中，采用經驗重放技術，當經驗池中的數據達到一定數量時，隨機抽取部分數據訓練神經網絡。Q值的更新公式如下：

Q（s，a）=Q（s，a）+α［r+β max Q（s′，a′）-Q（s，a）］（28）

其中：α為學習率；β為折扣系數，0<β<1。假設θ和θ′為評價網絡和目標網絡的參數，采用均方誤差作為損失函數L（θ），計算公式如下：

y=r+β max Q（s′，a′，θ′）（29）

L（θ）=（y-Q（s，a，θ））2（30）

算法2? 無人機軌跡優化和用戶傳輸功率分配算法

輸入：用戶位置Ouser（t）；無人機位置Ouav（t）和用戶信道增益gm，n（t）。

輸出：飛行控制動作和功率分配動作。

初始化應用場景，定義無人機與用戶的活動范圍

初始化評價網絡和目標網絡的權重參數

ε=0.9 //動作策略的貪婪因子

for each episode do? //每一輪

ε= 0.99 ε? //貪婪因子遞減

k=0? //懲罰系數初值

對所有用戶進行分簇（C1，C2，…，CM），并給每個簇分配無人機

for t= 1，2，…，T do? //每一個時隙

獲取用戶和無人機的位置

計算各個簇內用戶之間的距離di，j，i，j∈Euclid Math TwoNAp

if max （di，j）>閾值 then

對用戶重新分簇，重新綁定服務關系

end if

for each UAV do

根據用戶和無人機的信息生成狀態數組s

根據動作策略選擇動作a

執行動作a，得到下一個狀態s′

if? R（t）

k=k+1

end if

根據式（27）計算獎勵r

將（s，a，r，s′）存儲到經驗池

從經驗池中隨機選取部分數據來訓練神經網絡

根據式（29）計算目標值y

根據式（30）計算損失L（θ）

采用梯度下降法更新評價網絡的參數

s→s′

end for

用戶隨機移動

end for

end for

2.3? 任務卸載算法

任務卸載算法的目標是根據用戶的傳輸速率和任務的數據大小，使用K個并行的深度神經網絡進行訓練，以得到最優的卸載決策。算法的訓練過程如下：輸入每個用戶在時隙t時任務的數據大小D（t）和傳輸速率R（t），使用K個DNN生成K個候選卸載決策，第k個卸載決策表示為ψk=（x1，x2，…，xN），xn∈{0，1}，用式（31）的參數化函數fθk表示生成卸載決策的動作，θk表示第k個DNN的參數。根據ψk計算對應的Q（D，R，ψk），選擇Q值最小的卸載決策作為最優卸載決策，記為ψ*。將數據元組（D（t），R（t），ψ*）存儲到經驗池中。

fθk：D（t），R（t）→ψk（31）

ψ*=argmin Q（D（t），R（t），ψk）（32）

使用K個并行的DNN，有利于加快算法的收斂速度、減少波動，每個DNN具有相同的結構，所有DNN共享一個經驗池，經驗池設置為固定容量，超出后依次刪除最舊的數據，采用經驗重放技術每次從經驗池中隨機選取部分數據來訓練DNN。由于使用二元卸載，但DNN的輸出不一定是0或1，所以需要進行數據轉換，當DNN的輸出大于0時，將其值轉換為1，否則轉換為0。采用交叉熵損失函數和梯度下降法更新各神經網絡的參數。

算法3? 任務卸載算法

輸入：各用戶待處理任務的數據大小D（t）和傳輸速率R（t）。

輸出：最優卸載決策ψ*。

初始化K個神經網絡的參數θk

創建經驗池memory，設置其容量的上限TOP和下限LOW

for each episode do //每一輪

for t= 1，2，…，T do? //每一個時隙

將D（t）和R（t）輸入到K個DNN中

K個DNN生成K個候選卸載決策ψk

計算各卸載決策的Q值

根據式（32），得到Q值最小的卸載決策ψ*

if memory_size > TOP then

從經驗池中刪除一條最舊的記錄

將（D（t），R（t），ψ*）存入經驗池

end if

if memory_size > LOW then

從經驗池中隨機選取部分數據來訓練神經網絡

更新各DNN的網絡參數θk

end if

end for

end for

3? 仿真實驗

3.1? 實驗參數設置

主要實驗參數設置如表1所示。

3.2? 權重參數β和學習率lr的影響

首先通過實驗研究權重參數β和學習率lr對算法性能的影響。不同權重參數β下的時延和能耗如圖3所示，當權重參數β較小時，TDRL算法的優化目標更注重時延，此時時延越小，獎勵值越大；反之當權重參數β較大時，優化目標更偏向能耗，此時能耗越小，獎勵值越大。用戶可以根據對時延和能耗的要求來調整權重參數。為了均衡時延和能耗對Q值的影響，以下實驗將權重參數β設置為0.45。

上層神經網絡在不同學習率下網絡的傳輸速率如圖4所示。網絡的傳輸速率指所有用戶的傳輸速率之和。當學習率為0.001時，算法的性能最好，在訓練過程中傳輸速率逐漸上升，在10 000輪后趨向穩定；學習率為0.1和0.01時，網絡的傳輸速率波動很大，沒有收斂，因此將上層神經網絡的學習率設置為0.001。下層神經網絡在不同學習率下的Q值如圖5所示，當學習率為0.01時，算法的性能最好，得到的Q值最小。因此，將下層神經網絡的學習率設置為0.01。

3.3? 實驗結果分析

1）無人機對用戶的自動跟蹤

當用戶移動時，無人機對用戶進行跟蹤的飛行軌跡如圖6所示。在圖6中，不同顏色的圓圈代表不同的用戶簇（見電子版），圖中共有6個用戶、3個簇，每個簇內有2個用戶，在初始狀態下的簇為A、B、C，用戶移動后重新分簇的結果為A′、B′、C′，虛線表示用戶的移動軌跡，實線是無人機的飛行軌跡，三角形▲是用戶或無人機移動的起點，五角星★是用戶或無人機移動的終點?？梢钥闯觯寒敵跏即谺和C內的用戶相距較遠時將觸發重新分簇，無人機能自動跟蹤用戶的移動，飛行到新簇的上方。

2）在不同分簇策略下傳輸速率的變化

將提出的自適應分簇算法與不分簇和周期性分簇進行了對比，實驗結果如圖7所示。周期性分簇是指設定一個固定的分簇周期，當分簇時間到達時觸發分簇。

在分簇后的早期階段，由于神經網絡的訓練，傳輸速率逐漸增加，但隨著網絡運行時間的延長，如果采用不分簇方式，則網絡的傳輸速率會逐漸降低。如果采用周期性分簇方式，則當到達分簇時間t=30 s時會觸發分簇，網絡的傳輸速率繼續上升，但在t=41 s后，隨著用戶的移動，簇內用戶之間的距離增加，網絡的傳輸速率逐漸降低。如果采用自適應分簇，則在t=14 s時，由于檢測到簇內有兩個用戶之間的距離過大，所以觸發分簇。重新分簇后傳輸速率快速上升，在t=45 s后，隨著用戶的移動，網絡的傳輸速率有所下降，但由于簇內用戶之間的最大距離沒有超過閾值，所以沒有觸發分簇。在三種分簇方式中，自適應分簇算法表現最好，為用戶與無人機之間的穩定通信起到了基礎保障作用。

3）在不同數據大小下各算法的Q值

為了評價無人機的飛行軌跡對網絡性能的影響，將TDRL算法與固定軌跡算法（FUT）進行了比較。在FUT中，所有無人機均圍繞一個圓心為（0，0），半徑為2G/4的圓飛行，每個無人機之間的角度間隔為2π/M，M表示無人機數量。為了評價任務卸載算法對網絡性能的影響，將神經網絡替換成DQN，其他設置不變。此外，還與文獻［21］提出的UMAP算法進行了比較。圖8展示了在不同的數據大小下各算法Q值的變化情況。

可以看出，隨著任務數據量的增大，各算法的Q值也隨之增大，Q值與數據量的大小呈正相關。這是因為當數據量增大時，任務傳輸、計算的能耗和時延也會相應增加，TDRL算法的性能最優。FUT算法由于移動軌跡固定，不能適時跟蹤用戶的移動情況，導致用戶的傳輸速率下降，時延和能耗增大，Q值也相應增加。TDRL算法采用多個并行的深度神經網絡進行訓練，每次取最優值，因此，其Q值小于DQN和UMAP。當數據量的大小為110時，TDRL的Q值比FUT小 17.5%，比DQN小11.2%，比UMAP小7.1%。

4）在不同用戶數量下各算法的Q值

圖9顯示了在不同用戶數量下各算法Q值的變化情況?？梢钥闯?，隨著用戶數量的增加，各算法的Q值也隨之增長，這是因為當用戶數量增加時，網絡需要處理的總數據量相應增加，造成網絡的時延和能耗變大。TDRL算法的Q值始終最小，其次是UMAP和DQN，FUT表現最差。這是因為當用戶數量增加時，FUT算法不能為用戶提供良好的通信環境，導致時延和能耗大幅增加。當用戶數量為30時，TDRL的Q值比FUT小 23.7%，比DQN小10.5%，比UMAP小7.8%。

4? 結束語

本文針對無人機輔助的移動邊緣計算場景設計了一個雙層深度強化學習架構。在無人機與用戶雙向移動的復雜環境中，上層將無人機的軌跡優化和用戶的功率分配問題轉換為馬爾可夫決策過程，采用多智能體深度強化學習算法實現了無人機對用戶的動態跟蹤和功率分配，提高了網絡的傳輸速率；下層通過多個并行的深度神經網絡生成最優卸載決策。實驗結果表明，在不同的數據大小、不同的用戶數量下，TDRL算法的性能均優于FUT、DQN和UMAP算法。未來的研究工作包括采用部分卸載及具有優先級的任務卸載方法。

參考文獻：

［1］張依琳，梁玉珠，尹沐君，等.移動邊緣計算中計算卸載方案研究綜述［J］.計算機學報，2021，44（12）：2406-2430.（Zhang Yilin，Liang Yuzhu，Yin Mujun，et al.Survey on the methods of computation offloading in mobile edge computing［J］.Chinese Journal of Computers，2021，44（12）：2406-2430.）

［2］施巍松，張星洲，王一帆，等.邊緣計算：現狀與展望［J］.計算機研究與發展，2019，56（1）：69-89.（Shi Weisong，Zhang Xingzhou，Wang Yifan，et al.Edge computing：state-of-the-art and future directions［J］.Journal of Computer Research and Development，2019，56（1）：69-89.）

［3］Tun Y K，Park Y M，Tran N H，et al.Energy-efficient resource management in UAV-assisted mobile edge computing［J］.IEEE Communications Letters，2021，25（1）：249-253.

［4］Seid A M，Boateng G O，Anokye S，et al.Collaborative computation offloading and resource allocation in multi-UAV assisted IoT networks：a deep reinforcement learning approach［J］.IEEE Internet of Things Journal，2021，8（5）：12203-12218.

［5］Xing Na，Wang Yuehai，Teng Liping，et al.Communication and trajectory design in UAV-enabled flying network［J］.Digital Signal Processing，2022，126：article lD 103489.

［6］Yu Zhe，Gong Yanmin，Gong Shimin，et al.Joint task offloading and resource allocation in UAV-enabled mobile edge computing［J］.IEEE Internet of Things Journal，2020，7（4）：3147-3159.

［7］李斌，楊蓉蓉.無人機輔助反向散射通信計算任務卸載與資源分配［J］.電子與信息學報，2023，45（7）：2334-2341.（Li Bin，Yang Rongrong.Computing task offloading and resource allocation in UAV-enabled backscatter communications［J］.Journal of Electronics & Information Technology，2023，45（7）：2334-2341.）

［8］Pavlos A A，Georgios F，Eirini E T，et al.Data offloading in UAV-assisted multi-access edge computing systems under resource uncertainty［J］.IEEE Trans on Mobile Computing，2023，22（1）：175-190.

［9］陳陽，皮德常，代成龍，等.多無人機協同陸地設施輔助移動邊緣計算的系統能耗最小化方法［J］.電子學報，2023，51（2）：1-9.（Chen Yang，Pi Dechang，Dai Chenglong，et al.Energy minimization for a multi-UAVs cooperative ground access points assisted mobile edge computing［J］.Acta Electronica Sinica，2023，51（2）：1-9.）

［10］Liu Ying，Yan Junjie，Zhao Xiaohui.Deep reinforcement learning based latency minimization for mobile edge computing with virtualization in maritime UAV communication network［J］.IEEE Trans on Vehicular Technology，2022，71（4）：4225-4236.

［11］Yang Lei，Yao Haipeng，Wang Jingjing，et al.Multi-UAV-enabled load-balance mobile-edge computing for loT networks［J］.IEEE Internet of Things Journal，2020，7（8）：6898-6908.

［12］Wei Dawei，Ma Jianfeng，Luo Linbo，et al.Computation offloading over multi-UAV MEC network：a distributed deep reinforcement learning approach［J］.Computer Networks，2021，199：article lD 108439.

［13］Faraci G，Grasso C，Schembra G.Design of a 5G network slice extension with MEC UAVs managed with reinforcement learning［J］.Journal on Selected Areas in Communications，2020，38（10）：2356-2371.

［14］Xue Jianbin，Wu Qingqing，Zhang Haijun.Cost optimization of UAV-MEC network calculation offloading：a multi-agent reinforcement lear-ning method［J］.Ad hoc Networks，2022，136：article ID 102981.

［15］Yang Peng，Cao Xianbin，Xi Xing，et al.Three-dimensional continuous movement control of drone cells for energy-efficient communication coverage［J］.IEEE Trans on Vehicular Technology，2019，68（7）：6535-6546.

［16］Luo Quyuan，Luan T H，Shi Weisong，et al.Deep reinforcement lear-ning based computation offloading and trajectory planning for multi-UAV cooperative target search［J］.IEEE Journal on Selected Areas in Communications，2023，41（2）：504-520.

［17］Wang Liang，Wang Kezhi，Pan Cunhua，et al.Multi-agent deep reinforcement learning-based trajectory planning for multi-UAV assisted mobile edge computing［J］.IEEE Trans on Cognitive Communications and Networking，2021，7（1）：73-84.

［18］Liu Xiao，Liu Yuanwei，Chen Yue，et al.Trajectory design and power control for multi-UAV assisted wireless networks：a machine learning approach［J］.IEEE Trans on Vehicular Technology，2019，68（8）：7957-7969.

［19］Zhong Ruikang，Liu Xiao，Liu Yuanwei，et al.Multi-agent reinforcement learning in NOMA-aided UAV networks for cellular offloading［J］.IEEE Trans on Wireless Communications，2022，21（3）：1498-1512.

［20］Cui Jingjing，Liu Yuanwei，Ding Zhiguo，et al.Optimal user scheduling and power allocation for millimeter wave NOMA systems［J］.IEEE Trans on Wireless Communications，2018，17（3）：1502-1517.

［21］Chen Jingxuan，Cao Xianbin，Yang Peng，et al.Deep reinforcement learning based resource allocation in multi-UAV-aided MEC networks［J］.IEEE Trans on Communications，2023，71（1）：296-309.

計算機應用研究2024年2期

計算機應用研究的其它文章: 基于BERT的多視角事件日志修復; 設備端基于深度學習的智能家居服務推薦框架; 基于網絡流跟蹤的信號燈檢測方法; 多域網絡中基于時延感知的虛擬網絡映射方法; 基于多IRS輔助的MU-MISO系統安全通信方案; 基于改進式免疫遺傳算法的車聯網任務卸載方案

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合