?

基于元強化學習的自適應卸載方法*

2024-02-28 03:09鄭會吉余思聰邱鑫源崔翛龍
電訊技術 2024年2期
關鍵詞:時延邊緣終端

鄭會吉,余思聰,邱鑫源,崔翛龍

(武警工程大學 a.信息工程學院;b.反恐指揮信息工程聯合實驗室,西安 710086)

0 引 言

近年來,隨著新的計算和通信技術快速發展,增強現實、無人駕駛以及移動醫療等創新型移動應用和服務日益涌現。這些移動應用對計算和存儲資源具有大量需求,從而在云和終端用戶之間產生較大的網絡流量,給傳輸鏈路造成沉重負擔,影響服務傳輸時延。新興的移動邊緣計算技術[1]為解決這一問題提供了一種解決方法,其核心思想是將云計算的強大能力擴展至靠近終端用戶一側,以緩解網絡擁塞和降低服務時延。

計算卸載是移動邊緣計算中的一項關鍵技術,它能將移動應用的密集型計算任務從終端用戶卸載到合適的邊緣服務器。一般來說,計算卸載和資源分配共同構成一個混合整數非線性規劃問題,是一種NP-hard問題[2],現有的許多方法都是基于啟發式或近似算法[3-5],但對于移動邊緣網絡,這些方法都十分依賴先驗知識和精確的模型,當環境發生變化時,則需要對應地去更新先驗知識和模型。因此,特定的啟發式或近似算法很難完全適應動態的移動邊緣環境。

深度強化學習(Deep Reinforcement Learning,DRL)將強化學習和深度神經網絡相結合,通過試錯學習來解決游戲、機器人等復雜問題。深度強化學習在各種任務卸載問題中的應用也被越來越多研究者關注,將終端用戶、無線信道以及邊緣服務器看作環境,通過與環境的交互學習卸載策略。此過程通常被建模為一個馬爾可夫決策過程(Markov Decision Process,MDP),主要元素包括(S,A,R,γ),分別表示環境的狀態、智能體執行的動作、環境反饋的獎勵以及折扣因子。文獻[6-12]提出的算法由于樣本效率比較低,需要進行充分的二次訓練以更新策略,因此比較耗時[13]。

元學習是以一種系統的、數據驅動的方式從先前經驗中去學習。收集描述先前學習模型的元數據,然后從元數據中學習,以提取和傳遞用于指導搜索用在新任務上的最佳模型的知識。本文中,元學習通過對不同任務場景先訓練一個通用元策略,明顯加快新策略的學習。同時,結合強化學習,元強化學習通過借鑒歷史任務,與環境的少量交互中學習新策略?;诖?本文提出一種基于元強化學習的自適應卸載模型,將卸載過程建模為一個馬爾可夫決策過程(Markov Decision Process,MDP)。該模型包含兩個子模型,一個外部模型利用歷史任務數據訓練得到元策略;基于元策略,內部模型通過少量梯度更新快速學習新策略,適應新環境[14]。

1 系統模型

圖1所示為本文的移動邊緣場景,由邊緣服務器和N個移動終端組成,表示為N={1,2,…,N}。每個移動終端在時間t時刻需要處理計算任務,不同任務權重值不同。計算任務遵循二值卸載策略,即移動終端要么在本地執行,要么將任務卸載到邊緣服務器執行。假設邊緣服務器的計算能力遠大于移動終端,定義t時刻的計算策略為xt={xn(t)∈{0,1}|n∈N},xn(t)=0表示本地計算,反之表示卸載計算。

圖1 移動邊緣場景

1.1 時延模型

主要研究移動邊緣網絡中考慮時變無線信道因素的時延優化問題。計算任務表示為一個列表taskn=[in,on,ζn],分別表示數據大小、回傳結果大小以及完成任務所需的CPU周期數。移動終端n和邊緣服務器之間傳輸速率為

(1)

式中:Bn是傳輸信道帶寬;Pn是傳輸功率;ω0是環境噪聲功率;hn(t)∈ht是對應的信道增益。則移動終端n的總通信時延為

(2)

邊緣服務器和移動終端的CPU周期數分別為fe和f0,根據前面的假設,滿足f0?fe。因此,邊緣服務器的處理時延為

(3)

同理,移動終端本地執行的時延為

(4)

則移動終端n的時延為

(5)

移動邊緣網絡的加權時延和為

(6)

式中:wn(t)表示移動終端n的權重。

1.2 問題描述

(7)

2 基于元強化學習的自適應卸載算法

MRL利用移動終端和邊緣服務器的計算資源進行訓練。訓練包括兩個模型:一個是針對具體任務的內部模型;另一個是針對元策略的外部模型。內部模型在移動終端訓練(內部模型往往只需較少訓練步驟和訓練數據,因此假設移動終端能支持訓練);外部模型在邊緣服務器上訓練。

MRL的詳細訓練過程如圖2所示,包括4個步驟:第一步,移動終端從邊緣服務器下載元策略;第二步,移動終端基于元策略和本地數據訓練內部模型,以獲得特定任務策略;第三步,移動終端將特定任務策略的參數上傳到邊緣服務器;第四步,邊緣服務器根據接收到的參數訓練外部模型,生成新的元策略,并開始新一輪訓練。

圖2 MRL訓練過程

2.1 MDP建模

將計算卸載過程建模為一個MDP過程,其基本要素包括:

1)狀態空間:環境的狀態是t時刻信道增益,則狀態空間表示為state={ht};

2)動作空間:由于采用二值卸載模式,因此動作空間表示為action={0,1};

3)獎勵函數:若動作為最優解的動作值,獎勵為最小優化函數值的相反數,反之為最大優化函數值的相反數。

MRL采用AC(Actor-Critic)算法,其中包括actor和critic兩個模塊。actor模塊會根據輸入產生卸載動作,而critic則會對產生的動作進行評價打分,最后輸出打分最高的卸載動作。

2.2 內部模型

訓練集包含Ω個不同任務場景I={ψi|i=1,2,…,Ω},一個任務場景包含K個樣本數據,表示為ψ={(hk,xk)|k∈K}。采用強化學習方法對元策略進行訓練,算法具體如下:

輸入:樣本數據(hi,xi)

1 從邊緣服務器下載元策略,初始化參數θi=θ

2 設定迭代數M

3 fori∈{1,2,…,M}do:

4 從I中采樣樣本數據Ib

5 forψi∈Ibdo:

6 從ψi中采樣樣本數據Di

7 輸入無線信道增益hi

8 利用保序量化算法產生φ個卸載動作{xi}

14 end

16 end

(8)

圖3 內部模型

式中:fθi是內部模型的函數。最后,通過梯度下降的方法對模型的參數進行更新,即

(9)

式中:α是一種超參數。

2.3 外部模型

圖4 外部模型

(10)

式中:β是步長?;诟碌耐獠磕P?將采樣下一批任務場景訓練直至收斂。

3 仿真實驗

3.1 參數設置

本文通過Python編程語言進行實驗仿真,實驗運行在Intel Core i7-9700H 3.6 GHz CPU,內存8 GB的服務器上,虛擬環境采用框架Tensorflow-gpu 2.3。假設所有移動終端隨機分布在指定區域,服從概率為3×10-4的泊松分布,其計算所需的計算周期與輸入大小有關,表示為γn=165 cycle[16]與邊緣服務器之間的信道功率增益服從路徑損耗模型H[dB]=103.8+20.9lgd[km],d表示移動終端與服務器之間的距離。部分實驗參數如表1所示。

表1 實驗參數

3.2 參數分析

圖5給出了MRL在不同參數下的收斂性能,包括學習率、內存大小和批量大小。圖5(a)為學習率在Adam優化器中的影響,從中容易得出,過大的學習率(0.1)會導致算法難以收斂,過小的學習率(0.001)收斂速度較慢,所以,在仿真實驗中,將學習率設置為0.01。在圖5(b)中,較小的內存(512 B)導致在收斂上較大的波動,但較大的內存(2 048 B )需要更多的訓練數據收斂至最優,因此將內存大小設置為1 024 B。如圖5(c)所示,較小的批量(64)并沒有充分利用保存在內存中的訓練數據,但較大的批量(512)則會頻繁采樣舊的數據從而降低收斂性能,因此,將批量大小設置為128。

(a) 學習率

3.3 性能分析

在圖6中,橫坐標為微調步數,縱坐標為歸一化計算速率(它是枚舉的最優卸載策略和評估策略之間的比值)。為更好說明MRL的性能,將一般強化學習算法RL[13]作為對比,可以看到,在MRL中,內部模型的參數是從預訓練的外部模型復制而來,它能在20步微調內適應新的任務場景,并使歸一化計算速率達到0.99以上;相反,一般的強化學習算法則需要更多的步數來收斂,這說明了MRL能更快更高效地適應新任務場景。

圖6 MRL算法的性能

圖7給出了3個不同任務場景ψ1,ψ2和ψ3下的MRL。一旦任務場景變換,例如從場景ψ1變到ψ2,借助外部模型快速訓練一個新的內部模型。如圖7所示,MRL快速適應新的場景,并在100步微調都能達到歸一化計算速率超過0.99。同時,如圖8所示,對比不同算法下3個場景的平均時延可以看出,MRL相比一般的RL、貪婪算法以及深度神經網絡[17](Deep Neural Network,DNN)具有最優的性能。

圖7 動態場景下的MRL

圖8 平均時延對比

表2 不同算法性能對比

4 結 論

本文針對以往深度學習算法的不足,提出了一種基于元強化學習的自適應卸載方法,它能適應動態MEC任務場景。移動終端基于元策略和本地數據訓練內部模型,以獲得特定任務策略,用更少的訓練數據可以快速訓練一個內部模型以適應新的任務。仿真實驗表明,MRL在少量的微調步數內能達到0.99以上的準確率。因此,該算法在未來移動邊緣網絡中的快速部署是可能的。

猜你喜歡
時延邊緣終端
X美術館首屆三年展:“終端〉_How Do We Begin?”
通信控制服務器(CCS)維護終端的設計與實現
基于GCC-nearest時延估計的室內聲源定位
基于改進二次相關算法的TDOA時延估計
一張圖看懂邊緣計算
多功能北斗船載終端的開發應用
FRFT在水聲信道時延頻移聯合估計中的應用
基于分段CEEMD降噪的時延估計研究
ABB Elastimold 10kV電纜終端及中間接頭
在邊緣尋找自我
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合