?

面向綠色計算的車輛協同任務卸載方法

2024-01-27 06:56張紅霞呂智豪席詩語劉佳敏郭加樹張培穎
電子與信息學報 2024年1期
關鍵詞:計算資源基站能源

張紅霞 呂智豪 席詩語 劉佳敏 郭加樹 張培穎

(中國石油大學(華東)青島軟件學院 青島 266000)

(中國石油大學(華東)計算機科學與技術學院 青島 266000)

1 引言

隨著智能交通的深入研究和快速發展,增強現實、自動輔助駕駛等新興應用不斷被提出。為了支持這些應用,通常需要在車輛端快速處理復雜任務。隨著技術的不斷成熟,新型車輛將擁有強大的計算能力,同時新能源汽車將通過配備能源收集(Energy Harvest, EH)設備收集環境中的太陽能等綠色能源,促進車載設備的自我可持續性和不間斷運行,實現綠色節能的目的[1]。然而綠色能源在時間和地域上的不確定性使得車輛無法完全依賴,結合車聯網和移動邊緣計算優點的車輛邊緣計算(Vehicular Edge Computing, VEC)為該問題的解決提供了新的范式,通過將計算資源下沉到車輛附近,在不顯著增加網絡傳輸時延的同時實現車輛能耗的有效降低[2]。

邊緣服務器的能效是實現VEC可持續計算的瓶頸,邊緣服務器通常位于難以吸納可再生能源的城市與人群中心,使用化石燃料燃燒產生的電網電力[3],僅依賴邊緣服務器無法充分挖掘綠色能源的潛力。盡管車輛協同任務卸載對節約能源成本有幫助,但從經濟的角度看車輛沒有義務在無任何補償的情況下作為服務提供者執行其他車輛的任務??紤]到自身資源消耗和出于安全的目的,可以預期車輛不愿意在沒有任何激勵的情況下貢獻其空閑資源[4]。

不同車輛會根據其乘客偏好生成特定類型的任務請求。例如,對于乘客偏好路線規劃的車輛會頻繁地請求交通狀況信息,對于乘客偏好舒適交通體驗的車輛會頻繁地請求交互式信息[5]。由于任務類型不同,其執行的必要程度也不同。然而,現有工作很少考慮到不同類型的任務給車輛帶來的體驗差異,所有任務都有相同的概率得到所需資源。當車輛資源不足時,可能導致一些關鍵任務的卸載失敗,造成嚴重后果。此外考慮到任務請求在時空上的動態性,在追求即時性能時不能忽略長期性能。然而車輛的高速移動性、時變網絡環境下的復雜資源分配對確保系統的長期性能提出了挑戰。

為了解決上述問題,促進VEC系統的可持續發展,本文提出了面向綠色計算的車輛協同任務卸載方法,主要貢獻包括3個方面:

(1)本文設計一種“綠色能源-電網”混合能源供應模式下的車輛協同任務卸載框架。在該框架下,車輛之間使用車對車(Vehicle-to-Vehicle, V2V)技術共享資源,節省邊緣服務器能源成本,并根據任務類型分別采用不同的效用函數,保證了高優先級任務的優先執行。

(2)本文引入一種動態定價方案,動態調整價格促進用戶和服務提供者之間的合作,緩解了任務車輛和服務車輛之間存在的利益沖突,激勵車輛按需共享其空閑資源,提高資源利用效率。

(3)本文提出一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient, TD3)[6]的在線任務卸載方法。實驗結果表明,本文所提方法在性能上相較基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)和基于貪心原則(Greedy Principle Execution, GPE)的方法分別提升了7.34%和37.47%。

2 相關工作

2.1 基于VEC的任務卸載方法研究

考慮到車輛擁有一定的閑置計算資源時本身可以被看作邊緣計算節點,針對車輛可能在收到任務處理結果前駛出路側單元覆蓋范圍的問題,文獻[7]構造了一個基于車輛卸載決策的博弈以最小化計算開銷。文獻[8]制定了一個具有通信、計算、緩存和協作功能的統一框架,車輛可以通過V2V通信進行數據中繼和計算的相互協作,并開發了一種調度方案以最小化系統范圍內的數據處理成本。但是能效限制仍然是制約VEC的一個關鍵問題,上述工作并沒有充分考慮邊緣服務器的能效。

2.2 面向綠色計算的任務卸載方法研究

大多數設備的能源有限,因此提供自主的能源至關重要,研究人員通過實施EH技術作為電池的可行且經濟實用的替代方案。文獻[9]針對具有EH模塊的物聯網設備提出了一種基于強化學習的卸載方法,根據當前電池電量、先前對每個邊緣設備的無線電傳輸速率以及預測捕獲的能源量來選擇邊緣設備和卸載速率。文獻[10]研究了多層次邊緣計算系統中的聯合任務卸載和能源調度問題,通過調用李雅普諾夫技術將長期優化問題分解為一系列僅使用當前系統信息的單時隙優化問題。文獻[11]提出了一種近鄰感知的分布式任務卸載方法,其中物聯網設備兼顧考慮其能源狀態和近鄰設備的決策,解決了大量移動設備同時將任務卸載到邊緣云上時任務無法在預期時間內完成的問題。然而現有的工作大多是在物聯網場景下,不適用于本文提出的動態異構VEC環境下車輛間通過共享綠色能源和計算資源協作執行任務的情況。

2.3 VEC中車輛協同激勵機制的設計

目前車輛協同激勵機制常見的設計思路大都受經濟學中契約理論、拍賣理論等的啟發。文獻[12]利用契約理論使得路側單元能夠根據資源共享車輛的貢獻和獨特特性為其提供量身定制的合同,從而獲得最適宜的獎勵。文獻[13]為鼓勵車輛共享資源制定了一個反向拍賣機制,并開發了一種基于單邊匹配的方法,利用整數線性規劃提供了具有個體理性以及匹配穩定性的解。然而,這些工作大都基于一個假設,即所有參與者都會公開自己的私人信息,然后依據相關指標對車輛類型進行劃分。計算資源分配策略應該實時響應環境變化,上述工作因很難及時獲得完整的系統模型和環境動態并做出反應而不太適用。而動態定價基于平衡計算需求和資源的關系,能使價格隨著資源的供需關系動態調整,展現出強大的激勵潛力。文獻[14]通過動態定價,由運營商租賃服務車輛實現了運營商收益最大化。文獻[15]研究了在多個服務提供者存在競爭的情況下如何動態定價。

3 系統模型

3.1 系統概覽

如圖1所示,本文提出一個面向綠色計算的車輛協同任務卸載框架(Green Computing Oriented Vehicle Collaborative task offloading framework,GCOVC)。在所提框架中,考慮一個城市雙向直行車道上,1個配備邊緣服務器的基站和多個車輛組成的網絡。每輛車都配有1個太陽能電池板,從環境中收集太陽能儲存在電池中作為提供持續能源的唯一來源。綠色能源可用于任務的本地執行,幫助其他車輛,以及任務卸載產生的通信開銷,且不計入系統內的能耗成本?;镜耐ㄐ啪嚯x遠大于車載通信距離,鑒于基站具有全局信息,其被信任為所有車輛做出全面的卸載決策。如果車輛進入基站的覆蓋區域后愿意參與協作,它將持續向基站發送包含其位置、速度、可用綠色能源量、計算能力等消息,基站可由此獲知其覆蓋范圍內的道路交通情況。系統內存在兩類角色:一類是任務車輛,即產生任務請求的車輛;另一類是服務車輛,即擁有大量綠色能源,可以對外提供服務以獲取報酬的車輛。本文將時間離散為多個時隙,在每個時隙,任務車輛首先向基站發送請求,然后基站決定任務分配,并將分配消息發送回任務車輛和所選服務車輛。假設在某一時段期間,基站的通信范圍內有M輛車,集合表征為M,車輛的計算能力表示為Fm,m ∈M。每一時隙每個車輛都會產生一個任務請求,任務車輛m在時隙l產生的任務可以用4元組{}表示,其中表示任務大小,表示任務所需的CPU周期,表示任務延遲容忍,βml表示任務類型。使用,d ∈{0, 1,...,M}表示任務車輛m的3類執行方式,其中akml,d=1,d=0表示任務被卸載到基站,=1,d=m表示任務在本地執行,=1,d=n,n ?=m表示任務被卸載到服務車輛n。

圖1 GCOVC架構

3.2 能源隊列模型

由于自然界中綠色能源的可捕獲量是隨機和突發的,為了體現綠色能源收集過程的不確定性,假定車輛m收集到的綠色能源服從最大值為Rm的均勻分布,并且每個時隙是獨立同分布的。此外,EH模塊的充電和放電過程是可以同時進行的,所收集的能源被緩存在一個存儲隊列中,定義為時隙l時車輛m的能源存儲隊列狀態,表示成功收集到的綠色能源,表示時隙內所消耗的綠色能源?;谏鲜龆x和假設,車輛m的EH模塊的動態變化為

3.3 通信模型

車輛通信方式可分為兩種:當整個系統內綠色能源充足時,為了節約能源成本,綠色能源供應不足的任務車輛可優先通過V2V方式將任務卸載到供應充足的相鄰車輛上執行;但當由于天氣原因使環境中可收集的綠色能源減少,整個系統內可用綠色能源無法滿足所有任務要求時,車輛可采用車對基礎設施(Vehicle-to-Infrastructure, V2I)方式通過蜂窩鏈接將任務卸載到基站的邊緣服務器上執行。

3.3.1 V2I通信

以道路為x軸,道路到基站的垂直連線為y軸,建立2維坐標系。假設基站位于(0,h)處,h表示基站與道路的垂直距離,車輛在道路上勻速行駛,車輛m的移動模式可由一個2元組{(xm,0),vm}表示,其中(xm,0)表示車輛m的初始位置,|xm|表示車輛與基站的橫向距離,矢量vm表示車輛的速度。假設無線信道狀態在任務的數據傳輸期間保持靜態,上行鏈路的數據傳輸速率為

其中,ω為分配的傳輸信道帶寬,Pm為任務車輛m的傳輸功率,gm,0為參考距離處的信道功率增益,α為路徑損耗指數,N0為加性高斯白噪聲,dm,0為任務車輛m與基站之間的距離,定義為

則任務車輛m與基站間的通信時延為

3.3.2 V2V通信

假設V2V通信采用正交頻率,忽略由其他V2V傳輸鏈接引入的干擾,從任務車輛m到服務車輛n的數據傳輸速率為

其中,dm,n為任務車輛m與服務車輛n之間的距離,定義為

由于車輛傳輸范圍有限且移動性強導致傳輸鏈路不穩定,定義鏈路失效時間為

其中,R表示固定傳輸功率下的V2V傳輸范圍,sign(·)是符號函數,當·>0時,sign(·)=1,表示兩個車輛彼此間正在遠離。則任務車輛m與服務車輛n間的通信時延為

3.4 計算模型

若車輛m選擇本地執行,任務的計算時延僅取決于本地處理器分配給任務的頻率,總時延為

若車輛m選擇將任務卸載到基站,假設基站有無限大的計算能力同時服務多個車輛,并為車輛提供固定大小為F0的計算能力,則任務在邊緣服務器上的計算時延為

由于結果通常很小,本文忽略反饋時延,僅考慮傳輸和計算過程,因此選擇卸載到基站的總時延為

若車輛m選擇將任務卸載到服務車輛n,用表示服務車輛分配給任務的頻率,計算時延為

因此選擇卸載到服務車輛n的總時延為

綜上,任務的完成時延可統一表示為

3.5 能耗模型

若車輛m選擇本地執行,車輛端每個CPU周期的能耗為,其中,κ受芯片架構影響,則本地執行任務消耗的綠色能源為

若車輛m選擇將任務卸載到基站,任務車輛為傳輸任務消耗的綠色能源為

假設邊緣服務器處理一個CPU周期的能耗為u,則服務器處理任務消耗的電網電力為。

若車輛m選擇將任務卸載到服務車輛n,任務車輛為傳輸任務消耗的綠色能源為

而服務車輛為執行任務消耗的綠色能源為

3.6 任務效用模型

一般來說,車輛任務可以分為高優先級和低優先級兩類。高優先級任務是指一類與安全密切相關,具有嚴格延遲約束的任務,如導航、路況感知等。低優先級任務是一類容忍延遲的任務,如車載娛樂服務等。如果高優先級任務在截止期限前完成,則任務的收益為非負值,并取決于完成時間。如果完成時間超過截止期限而失敗,則收益為負常值作為嚴厲懲罰。因此高優先級任務的收益函數定義為

如果低優先級任務在截止期限前完成,則任務的收益為正常值。如果完成時間超過截止期限,結果仍然被認為是可用的,但收益隨著超過截止期限時間的增加而下降。因此低優先級任務的收益函數定義為

任務的完成效用定義為任務收益與付出成本的差值,表示為

其中,I(·)是指示函數,當·為真時,I(·)=1,βH和βL分別表示高、低優先級任務,表示任務車輛m為卸載任務到服務車輛n支付的價格,當任務在本地執行時,=0,λ為系統能耗的重要性權重。

3.7 定價模型

服務車輛要同時執行本地任務和任務車輛的卸載任務??紤]到有限的計算能力,計算資源的分配首先要保證本地任務優先完成??紤]服務車輛n有本地任務表征為,則本地任務所需的最低頻率。如果車輛拒絕所有來自其他車輛的卸載任務,將所有計算資源分配給本地任務,則有=Fn。如果車輛決定接受來自車輛m的卸載請求并將頻率分配給卸載任務,本地任務的效用將下降,卸載任務的服務價格應補償本地任務效用的損失。為任務支付的價格應滿足

從式(22)可以看出,如果任務車輛想要使用服務車輛更多的計算資源,則應向其支付更高的價格。

4 問題描述

本文的目標是在基站的控制輔助下,調整相應的任務執行策略以最大化一段時間內的社會福利,即在最大化所有車輛平均任務完成效用的同時高效利用綠色能源,減少電網電力的使用。在每個時隙,基站要確定任務執行方式和卸載到服務車輛時對應的價格。最優化問題由式(23)給出

在上述問題中,約束條件C1保證支付價格為正且不超過最大值,約束C2表示任務采用整體卸載的形式,約束C3確保任務只能在本地端、邊緣端、服務車輛端中采取一種執行方式,約束C4表示為任務選擇的服務車輛必須可用,約束C5表示服務車輛提供的計算資源不超過自身限制。

5 解決方案

TD3算法克服了DDPG算法存在的超參數和其他微調魯棒性不足的缺陷。在處理最優決策問題時,TD3無需知道完整定義的系統模型即可通過與環境的交互感知環境變換,從而實現從環境特征到策略的映射,更適用于優化動態變換環境下的實時控制決策問題,可對任務卸載過程中計算資源的分配進行細粒度的頻率控制?;谝陨峡紤],本文基于TD3設計了車輛協同任務卸載方法。

5.1 馬爾可夫決策過程

由于系統動態特性對于基站是未知的,在每一時隙基站中的智能體觀測基站覆蓋范圍內的車輛環境,并收集環境參數作為觀測狀態。時隙l的狀態向量表示為:

智能體依據策略進行決策,時隙l產生的動作向量表示為:其中是一個確定的實數,用于決定任務執行方式及服務車輛應向任務車輛提供的計算資源。注意,由式(22)可知,給定可獲得的計算資源后,應付價格是唯一確定的。因此動態定價問題可等價轉化為計算資源分配問題。

在每一時隙中,智能體觀察狀態sl并執行動作al,獲得即時獎勵Rl,其值與式(23)中定義的單時隙的優化目標一致,lmax時隙內的累積獎勵用以表征系統的長期性能。

5.2 基于TD3的車輛協同任務卸載方法

如圖2所示,方法包含3個組件:actor網絡、critic網絡和經驗回放池。actor網絡包含主actor網絡μθ和目標actor網絡μθ′。critic網絡包含主critic網絡1QΦ1、主critic網絡2QΦ2、目標critic網絡和目標critic網絡。目標網絡具有與主網絡相同的結構,參數周期性地從主網絡復制。在每個時隙,環境狀態的轉變、智能體進行的動作和即時獎勵形成經驗存儲在池中。主critic網絡使用近似動作-價值的Q值函數評估所選行動。用神經網絡進行函數近似存在不精確性,同時使用后續狀態的估計來更新值函數的估計進一步夸大了這種不精確性。在每一次更新策略中錯誤被累加,使得不好的狀態被高估,策略無法被優化到最優。TD3使用雙重critic網絡來評估Q值,選取較小的Q值更新可以緩解Q值高估的現象。當更新critic網絡時,使用確定性策略的學習目標極易導致目標估計的方差大。這種誘導方差可通過目標策略平滑正則化來減少,即在計算目標值時,在下一個狀態的動作上加入擾動,使學到的價值函數在動作維度上更平滑,價值評估更準確。添加的噪聲服從正態分布,隨訓練進行逐漸衰退,對噪聲進行裁剪以保持與原始動作相似。在每個訓練步,從池中隨機抽樣一小批經驗作為樣本集ψ=。依據貝爾曼方程遞歸關系,通過最小化時間差分誤差更新主critic網絡,表示為

圖2 基于TD3的車輛協同任務卸載方法

主actor網絡旨在基于當前狀態產生一個使Q值最大化的動作,其最后一層為tanh層,有M個神經元,每個神經元的輸出分別對應每個車輛。將區間(-1,1)均等劃分為M+1個小區間,若落在小區間(-1,-1+2/(M+1)),代表任務車輛m選擇將任務卸載到基站;若落在小區間代表任務車輛m選擇將任務卸載到服務車輛n,從而滿足約束條件C2和C3。若m=n,即任務在車輛m本地處理,若沒有其他車輛將其作為服務車輛,則為任務分配最大頻率,否則為任務分配所需的最低頻率。若m ?=n,為了滿足約束條件C1和C5,服務車輛n為任務車輛m分配的計算頻率在經正則化操作后得出,表示為

當卸載過程中發生鏈路中斷時,不再考慮結果傳遞,高優先級任務效用與超過截止期限時相同,低優先級任務因=∞,效用為0,從而通過環境反饋施加的懲戒使智能體傾向于滿足約束條件C4。智能體通過策略梯度方法更新主actor網絡,損失函數的梯度表示為

為了穩定Q值,減少一些錯誤的更新,采用策略延遲更新。首先目標網絡與主網絡不同步更新,在主網絡更新多次后,再對目標網絡進行更新。同樣地,actor網絡與critic網絡不同步更新,在critic網絡更新多次后,再對actor網絡進行更新,即策略網絡以低于價值網絡的頻率更新。這樣一方面減少了不必要的重復更新,另一方面減少了多次更新中累積的誤差?;赥D3的任務卸載方法實現如算法1所示。

6 性能評估

6.1 仿真設置

本節通過仿真實驗來評估本文方法在最大化社會福利方面的性能。表1給出了實驗中典型參數值。

表1 仿真參數設置

為了驗證本文方法,引入以下4種方法進行比較:

(1)完全邊緣執行(Naive Edge Execution, NEE):所有車輛的任務全部卸載到邊緣服務器進行處理。

(2)隨機原則執行(Random Principle Execution, RPE):隨機選擇任務的執行方式和以V2V方式卸載任務時服務車輛應向任務車輛提供的計算資源。

(3)GPE:貪心地選擇具有最多剩余綠色能源的車輛作為服務車輛,并優先為高優先級任務分配使任務能在最大延遲容忍內完成的計算資源。

(4)DDPG:該方法使用與上文中定義的相同的狀態空間、動作空間和獎勵函數。

6.2 仿真分析

首先本文將一段時間內實現的累計社會福利作為評估標準,探索不同學習率對本文方法性能的影響。如圖3所示,方法在訓練迭代次數達400次左右時達到收斂,不同學習率實現的社會福利之間的差異很小,這表明本文方法對學習率參數不太敏感。當actor網絡學習率δa=0.000 1,critic網絡學習率δc=0.000 2時,方法的收斂性能最好,因為critic網絡更快的收斂能更好地指導actor網絡的更新。

算法1 基于TD3的車輛協同任務卸載方法

圖3 不同學習率下本文方法實現的累計社會福利

然后本文比較了5種方法在不同交通密度下實現的平均社會福利。假設在一段時間內沒有車輛的加入和離開,如圖4所示,在不同的交通密度下,每輛車獲得的平均社會福利維持基本穩定。當車輛增多時,狀態空間和輸出動作維度增加可能導致維數災難,但本文方法性能沒有出現明顯下降,說明方法具有很好的擴展性,可適應中等規模的車輛環境。且本文方法實現的平均社會福利均高于其他方法,相比DDPG和GPE方法分別有7.34%和37.47%的提升,而NEE方法的表現最差。這是因為在NEE方法中,綠色能源僅用作通信開銷,喪失了車輛協同減少電力使用的優勢。GPE方法目標僅是使每個時隙綠色能源的使用效率最大化,無法獲得一段時間內社會福利的最大化。盡管DDPG方法的優化目標也是最大化預期長期回報,但DDPG實現的平均社會福利略低于本文方法,這是因為DDPG雖然借鑒使用了兩個critic網絡,但在實際過程中仍存在高估Q值的情況,而在TD3中利用兩套critic網絡緩解了這一問題,并通過調整actor網絡的更新頻率避免了因盲目迭代被困在次優值。此外DDPG可能出現錯誤Q估值引導下的錯誤策略,TD3在動作一定范圍內隨機選擇來實現策略平滑,從而擺脫錯誤峰值的影響。這些策略使得TD3在選擇動作時更準確、更魯棒,可以探索更合適的行為。

圖4 不同交通密度下的平均社會福利

本文模擬了當車輛數量為15時,可收集綠色能源最大值對社會福利的影響。如圖5所示,隨著可收集綠色能源的增加,除NEE方法外,其他方法實現的社會福利都有提升,這驗證了更多的綠色能源可以為車輛協同任務卸載的優化提供更多潛力的事實。本文方法和DDPG方法實現的社會福利的增長幅度明顯高于GPE方法和RPE方法。這是因為GPE方法基于貪心原則優先選擇具有最多剩余綠色能源的車輛作為服務車輛,而RPE方法不考慮這些,隨機選擇任務的執行方式,所以對富余綠色能源的使用效率較低。但GPE方法同樣缺乏對最佳資源分配的考慮,為保障計算資源優先向高優先級任務分配,任務車輛支付給服務車輛的價格是根據預定義的法則得出的,這種固定模式無法使任務獲得最大完成效用。而本文方法通過動態定價,在確保高優先級任務可通過支付更高的價格獲取更多計算資源的同時,充分發揮了共享資源按需分配的優勢,提高了計算資源的利用效率。此外隨著可收集綠色能源的增加,社會福利的增速有所放緩,這意味著綠色能源足夠使任務在車輛端執行,社會福利更多地取決于任務的完成效用。

圖5 不同可收集綠色能源最大值下的累計社會福利

最后,如圖6所示,隨著可收集綠色能源的增加,低優先級任務完成效用的增速比高優先級任務快,說明本文方法在可收集綠色能源較少時優先確保了高優先級任務以盡可能大的效用完成,同時使低優先級任務以相對適當的效用完成。因此,本文方法在區分執行不同優先級的任務時具有較好的性能。

圖6 不同可收集綠色能源最大值下的任務完成效用

7 結束語

為了提高VEC系統中邊緣服務器能效,實現綠色計算,本文構建了“綠色能源-電網”混合能源供應模式,考慮多個配備能源收集設備的車輛之間任務協同卸載問題,通過動態定價解決了任務車輛與服務車輛之間存在的利益沖突,促進了二者間的資源共享。同時提出了一種動態VEC環境下基于TD3的任務卸載方法,通過引入雙重網絡、策略延遲更新、目標策略平滑等策略,本文方法在選擇任務執行方式和資源分配方面更具有準確性。最后實驗結果驗證了本文所提方法的優越性能,相比DDPG和GPE性能上分別提升了7.34%和37.47%。未來會考慮跨越邊緣服務器邊界的任務卸載以及協同過程中車輛個人隱私保護。

猜你喜歡
計算資源基站能源
基于模糊規劃理論的云計算資源調度研究
第六章意外的收獲
改進快速稀疏算法的云計算資源負載均衡
用完就沒有的能源
————不可再生能源
基于Wi-Fi與Web的云計算資源調度算法研究
耦合分布式系統多任務動態調度算法
可惡的“偽基站”
福能源 緩慢直銷路
基于GSM基站ID的高速公路路徑識別系統
小基站助力“提速降費”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合