?

基于GRU和LSTM組合模型的車聯網信道分配方法*

2024-02-28 03:10王永華何一汕伍文韜
電訊技術 2024年2期
關鍵詞:空閑時隙鏈路

王 磊,王永華,何一汕,伍文韜

(廣東工業大學 自動化學院,廣州 510006)

0 引 言

隨著5G通信技術的發展,車聯網(Internet of Vehicles,IoV)受到了越來越多的關注。車聯網中存在著不同類型的連接,分為車對基礎設施(Vehicle to Infrastructure,V2I)和車對車(Vehicle to Vehicle,V2V)鏈路。在5G蜂窩V2X網絡中,需要同時滿足高速率的海量數據傳輸以供娛樂,另一方面更需要可靠的信道資源以供必要的通信,因此,信道資源是實現車輛間的相互通信關鍵條件。為滿足這種不同場景下的通信需求,文獻[1]對5G網絡中異構網絡應用場景以及未來的研究趨勢進行了討論。然而信道資源的稀缺,顯然已經不能滿足當前車聯網中的高通信需求。因此需要設計更加智能的信道分配方案,降低通信時信道沖突,最大化車聯網的網絡效用,提升信道資源利用率。

為應對這個挑戰,文獻[2]為基于設備到設備的車載網絡開發了一種啟發式空間頻譜復用方案,減輕了對完整 信道狀態信息(Channel State Information,CSI) 的要求;文獻[3]指出的最大化V2I鏈路吞吐量的V2X資源分配方案能適應緩慢變化的大規模信道衰落,從而減少網絡信令開銷;文獻[4]利用網絡切片技術聯合優化頻譜資源塊分配和車輛信號發射功率控制,最大化信息娛樂服務切片的平均和吞吐量。然而,這些算法大多假設車聯網環境背景信息已知,但在實際情況下大多無法滿足。深度強化學習由于在處理大狀態和動作空間時能夠提供目標值(稱為Q值)的良好近似值而備受關注。文獻[5]針對車聯網可分配頻譜資源數目未知的情況,提出了一種基于深度Q網絡(Deep Q-Network,DQN)的聯合緩存和計算資源方案。為進一步解決高移動性和多數目車輛環境中的頻譜資源難以集中式管理問題,文獻[6]提出了一種用于 V2V 和 V2I 通信的混合式頻譜復用和功率分配方案,并設計基于卷積神經網絡(Convolutional Neural Networks,CNN)的實時決策方法實現頻譜復用和功率分配。

雖然使用深度強化學習算法能夠實現車輛自主探索未知空間,智能地解決信道分配問題,但在實際車聯網中由于傳輸需求不同,網絡拓撲結構的變化十分迅速,從而使得傳統的深度神經網絡(Deep Neural Network,DNN)對這種在時間序列上變化快速的數據進行建模,運用到深度強化學習中時也很難讓智能體學習到有效的信道分配策略。針對這個問題,目前的研究大多只是將長短期記憶(Long Short-Term Memory,LSTM)或者門控循環單元(Gated Recurrent Unit,GRU)去替代DNN在深度強化學習中的擬合Q函數的作用。雖然LSTM和GRU都能夠處理前后連續的歷史序列,但LSTM本身由于其結構內部參數較多,如果時間跨度很大,在網絡比較深的情況下會使得計算量變大,很耗時,且有過擬合的風險[7]。同樣,雖然GRU的簡單結構,讓其在訓練時擁有比LSTM更低的計算復雜度,但在擬合精度上卻比不上LSTM。這種由于網絡結構上的缺陷導致的算法性能上的不足,會使車聯網中的信道分配問題難以尋找到最優解,導致算力上的浪費。

將GRU訓練周期短與LSTM擬合精度和穩定性高的兩個優點結合起來,能使算法更加高效和穩定[8-10]。本文以此為出發點,考慮將GRU-LSTM組合網絡模型結合到分布式強化學習中,并圍繞如何降低車聯網中V2V鏈路的信道沖突并最大化網絡效用的問題進行研究。

1 系統模型及問題陳述

1.1 系統模型

圖1所示為由單個基站(Base Station,BS)以及M條V2I鏈路和N條V2V鏈路構成的十字路口車聯網無線通信模型[11],M條V2I鏈路將車輛與BS進行連接,承載著娛樂以及交通管理數據(非安全數據)的傳輸,N條V2V鏈路主要承載安全數據的傳輸。為保證高質量V2I鏈路通信,假設每條V2I鏈路已被預先分配了不同的正交頻譜子載波以消除網絡中V2I鏈路之間的干擾,同時假設V2V鏈路對V2I鏈路的干擾也在理想狀態內。V2I鏈路作為授權用戶,擁有獨立的信道,V2V鏈路可提供相鄰車輛之間的直接通信。為了提高頻譜利用率,V2V鏈路作為感知用戶需要利用與環境交互獲得的部分可知信息,動態地感知V2I鏈路的信道條件,復用V2I鏈路的上行鏈路頻譜進行信息交換,即在不影響V2I鏈路的正常通信的情況下以下墊式接入到其信道中來完成各自的傳輸任務。

圖1 車聯網系統模型[13]

因此如何設計一種快速穩定的算法完成這種信道資源稀少的場景下的信道分配問題,且能最大程度上降低信道沖突,提高V2V鏈路復用V2I鏈路信道資源的利用率是研究的重中之重。假設V2I鏈路被分配的正交信道數集合為C*={1,2,3,…,C},而V2V鏈路的數量集合表示為N*={1,2,3,…,N},當復用上行鏈路資源時,在每個時隙V2V鏈路都可以任意選擇V2I鏈路的信道,且可以動態的選擇繼續留在該信道還是切換信道發送信息。因此,為實現V2V鏈路在共享V2I鏈路過程中最大化網絡效用,盡可能降低信道沖突,就必須考慮各V2V鏈路之間的信道碰撞率,以及信道空閑率。

1.2 信道碰撞率

定義k為時隙t下第c條V2I鏈路中選擇復用此信道傳輸信息的V2V鏈路的數量,規定僅僅只能存在單條V2V鏈路選擇復用第c條V2I的信道時信息才能夠發送成功,當有兩條及兩條以上的V2V鏈路共同選擇復用同一條V2I鏈路時,就定義為產生了信道的碰撞,信息必定傳輸失敗,此時的碰撞次數就為1,如式(1)所示:

(1)

因此,將i次信息傳輸過程中C條V2I鏈路信道中產生的碰撞總次數與這i次傳輸中的總信道數的比值,定義為這i次傳輸中的信道碰撞概率μ,如式(2)所示:

(2)

1.3 信道空閑率

定義φ為信道空閑率來間接表示V2I鏈路信道的利用情況。當n條V2V鏈路都進行了信道的共享策略后,第c個信道中的剩余容量γc如式(3)所示。規定當第c條V2I信道被占用且V2V鏈路成功發送了信息,那么該信道的剩余容量γc就為0;如果該條信道上,發生了多條V2V鏈路的競爭,造成了通信失敗,此信道就沒有被利用,其剩余容量γc為1;當然,如果某條信道沒有被V2V用戶選擇共享,其信道剩余容量γc自然也為1。

(3)

規定將i次信息傳輸過程中C條V2I鏈路信道的剩余容量γc之和與這i次傳輸過程中的總信道數的比值,表示該回合信道空閑率,如式(4)所示:

(4)

可見,信道空閑率與碰撞率呈正相關關系,信道空閑率的降低,也間接表明了碰撞率的降低和信道利用率的提升。因此,本文提出的算法將圍繞這兩個優化指標來進行設計和實現。

2 本文提出的算法

2.1 深度強化學習算法框架

本文的車聯網信道分配場景中,由于真實環境信息是未知的、高維復雜的,因此,將信道資源分配問題建模為深度強化學習問題,提出一種基于GRU-LSTM組合網絡模型的深度雙重Q學習算法框架(Hybrid GRU-LSTM DDQN,HG-LDDQN),算法結構如圖2所示。

圖2 HG-LDDQN算法結構框圖

HG-LDDQN算法與環境交互模型如圖3所示。算法模型采用集中訓練、分布式執行的方式,將每條V2V鏈路作為智能體與環境進行交互,接收環境觀察結果O(t),以得到環境中在t時隙下的狀態信息S(t);將t時隙下的狀態S(t)送入GRU-LSTM組合神經網絡模型中進行訓練,得到Q函數的值Q(s,a)。然后,依據Q值智能體得到下一步所要進行的動作A(t),并且在同一種獎勵評判機制下,每條V2V鏈路單獨獲得回報Rn(t),繼而反復探索訓練,更新GRU-LSTM組合網絡。最后,通過迭代學習最大化每回合的平均獎勵,來改善信道分配策略。

圖3 HG-LDDQN算法與環境交互模型

下面對HG-LDDQN算法與環境交互模型中的幾個深度強化學習要素分別進行闡述。

1) 狀態空間

在算法模型中,t時隙下的狀態空間S(t)是通過V2V鏈路對環境進行觀察O(t)后得到的,其包含三部分,即V2V鏈路作為智能體的動作a(t)、當前每個信道的剩余容量δ(t)以及確認字符信號(Acknowledge character,ACK)的返回結果η(t)。

如果V2V鏈路用戶已經在t時隙選擇了第c條信道(1≤c≤C)進行數據傳輸,那么將該條信道狀態ac(t)設置成1,剩余的信道狀態設置成0。a(t)如式(5)所示:

a(t)={a1(t),a2(t),…,ac(t)}

(5)

此外,在時隙t對于當前C個信道中的第c個信道按式(3)中定義的單條V2I信道的剩余容量γc的計算方法,計算此刻所有V2I鏈路信道的剩余容量δ(t),如式(6)所示:

δ(t)={γ1,γ2,…,γc}

(6)

假設在時隙t完成信道共享后,V2V鏈路間發送數據包的同時也會給對方發送一條ACK信號,如果數據傳輸成功就返回一個數值為1的ACK信號,傳輸失敗,則返回的ACK信號為0。ACK信號返回結果η(t)如式(7)所示:

(7)

由此,構成了在時隙t下的狀態空間S(t),如式(8)所示:

S(t)={a(t),δ(t),η(t)}

(8)

2)動作空間

根據可選信道c,n條V2V鏈路在t時隙的可選動作空間A(t)由式(9)定義為

A(t)∈{0,1,2,3,…,c}

(9)

即每條V2V鏈路都可以選擇此時刻網絡空間中的任一V2I鏈路的信道。當t時刻下第n條V2V鏈路的動作值an(t)=0時,代表該條V2V鏈路在t時刻下選擇不接入V2I的信道。

3)獎勵值設定

在t時隙下,第n條V2V鏈路成功發送信息后,根據V2V的接收方返回的ACK信號狀態,對該次動作an(t)的選擇給予一個獎勵值Rn(t)。如果返回ACK信號為1,說明數據信息發送成功,即表明V2V鏈路合理地復用了V2I的信道,同時避免了信道的沖突,給予該次動作an(t)數值為1的正向獎勵;反之,不給予獎勵。因此,將t時隙下第n條V2V鏈路的動作an(t)的獎勵值Rn(t)定義為

(10)

2.2 基于GRU-LSTM組合網絡模型的深度雙重Q學習算法

根據前述的強化學習的基本要素,對本文提出的算法結構進行分塊闡述。

2.2.1 輸入層

在本算法中,每條V2V鏈路都被看作是一個智能體,智能體觀察并采集t時刻下的每個V2V鏈路的狀態值St∈{S1,S2,S3,…,Sm}作為GRU-LSTM組合網絡的輸入。當V2V鏈路在狀態St執行動作a(t),根據環境返回的η(t)獲得一個獎勵R(t)后,就轉移至下一個狀態St+1。

2.2.2 GRU-LSTM組合神經網絡層

由于車聯網的高移動性和網絡拓撲的快速變化,經典的DNN無法學習到前后聯系的歷史序列,同時循環神經網絡(Recurrent Neural Network,RNN)存在梯度消失和梯度爆炸以及可能過擬合的缺陷,因此,本算法使用GRU-LSTM組合神經網絡模型。該組合神經網絡模型的網絡結構有3層。第一層采用 GRU,它將LSTM中的遺忘門和輸入門合并為一個“更新門”,減小了矩陣乘法,更容易使算法收斂,可以減少訓練時間[12]。但 GRU的擬合精度不如多參數的 LSTM,并且雙層 LSTM 的精度要優于單層 LSTM[13]。因此,模型的第二層和第三層結構均采用LSTM。下面對該組合層進行分層介紹。

第一層神經網絡由多個GRU單元組成。對于每個GRU單元,如圖4所示,Zt為當前時刻的輸入,Yt-1為上一個時刻的輸出,Yt為當前時刻的輸出。

圖4 GRU單元結構圖[10]

GRU有兩個門,第一個門為更新門vt,決定了有多少歷史信息可以繼續傳遞給未來。更新門vt的計算方法如公式(11)所示[8]:

vt=σ(Wv·[Yt-1,Zt]+bv)

(11)

式中:Wv為更新門的權重矩陣;bv為偏差向量;σ表示激活函數 sigmoid。

第二個門為重置門rt,主要功能是確定有多少歷史信息不能傳遞到下一個狀態。重置門rt的計算方法如公式(12)所示[8]:

rt=σ(Wr·[Yt-1,Zt]+br)

(12)

式中:Wr為重置門的權重矩陣;br為偏差向量。

計算出更新門vt和重置門rt后,GRU將會計算候選隱藏狀態ht。候選隱藏狀態ht的計算方法如公式(13)所示[8]:

ht=tanh(Wh·[rt·Yt-1,Zt]+bh)

(13)

式中:Wh為對應的權重參數;bh為對應的偏差參數;tanh代表雙曲正切函數。

最后t時刻 GRU 的輸出Yt的計算方法如公式(14)所示[8]:

Yt=(1-vt)·Yt-1+vt·ht

(14)

在GRU網絡層輸出后第二層和第三層是LSTM網絡層,對比于RNN和GRU,LSTM 模型的擬合精度總體更高,如圖5所示。

圖5 LSTM單元結構[10]

LSTM有3個門,如圖5所示,Ct-1為前一時刻神經元的狀態,Ut-1為前一時刻神經元的輸出,Nt為當前時刻的輸入,Ct為當前時刻神經元的狀態,Ut為當前時刻神經元的輸出。以下是每個LSTM單元的前向傳播公式:

ft=σ(Wf·[Ut-1,Nt]+bf)

(15)

式中:Wf是遺忘門的權重矩陣;bf是偏差向量;ft表示最后一層神經元被遺忘的概率[8]。

it=σ(Wi·[Ut-1,Nt]+bi)

(16)

式中:Wi是輸入門的權重矩陣;bi是偏差向量;it表示當前需要保留的負載信息的比例[8]。

pt=tanh(Wc·[Ut-1,Nt]+bc)

(17)

式中:Wc是輸入門的權重矩陣;bc是偏差向量;pt是當前需要保留的負載信息的比例[8]。

Ct=ft·Ct-1+it·pt

(18)

ot=σ(Wo·[Ut-1,Nt]+bo)

(19)

式(19)中:Wo為輸出門的權重矩陣;bo為偏差向量;ot為輸出門[8]。

Ut=ot·tanh(Ct)

(20)

此處,LSTM層的輸入就是GRU網絡層的輸出Yt。顯然,此組合網絡的數據更新過程比單純的LSTM更簡潔,也比單純的GRU 網絡擬合Q值過程更具有精確性和穩定性。

在組合神經網絡中,使用Huber損失函數來計算算法訓練時的目標值Y以及估計值f(x)之間的差值。Huber損失是平方損失和絕對損失的綜合,它克服了平方損失和絕對損失的缺點,不僅使損失函數具有連續的導數,而且利用均方誤差(Mean Square Error,MSE)梯度隨誤差減小的特性,可取得更精確的最小值,也對異常點更加魯棒,可以提高算法的穩定性[14]。Huber損失計算方法如式(21)所示[14]:

(21)

式中:δ為選擇超參數,作為選擇MSE與MAE時的評判值,由反復實驗確定。

2.2.3 輸出層

為解決算法訓練中的過度估計問題,使用DDQN來解耦目標Q值動作的選擇和目標Q值的計算[15]。具體而言,使用兩個深度組合模型Q網絡,Q1網絡用于選擇動作an(t),Q2網絡用于估計與所選動作相關聯的Q值。DDQN中的Q值的近似估算公式如式(22)所示[15]:

(22)

將提出的HG-LDDQN算法為所有V2V鏈路進行訓練,訓練步驟如下:

1 初始化:迭代輪數T,V2I鏈路條數 C,V2V鏈路條數N,步長α,衰減因子γ,探索率ε,經驗回放池D,當前GRU-LSTM net1的參數ω,目標 GRU-LSTM net2的參數ω′=ω,所有狀態和動作對應的價值Q

2 For iterationi=1,…,Ido

3 For episodem=1,…,Mdo

4 For time-slott=1,…,Tdo

5 For V2V linksn=1,…,Ndo

6 從環境中觀察得到狀態值Xn(t),輸入到GRU-LSTM net1,產生對應所有可選的動作a∈{0,1,2,…C}的估計Q值Q(a)

9 在經驗回放池中存儲

10 從經驗回放池中隨機抽取批量樣本訓練組合神經網絡

11 計算當前的目標Q值:

12 計算目標Q值與估計Q值的

Huber loss與網絡權重ω

13 End for

14 End for

15 End for

16 使用狀態輸入Xn(t)和輸出Qs訓練GRU-LSTM net1

17 每一個iteration使Q2←Q1

18 End for

3 實驗與結果分析

仿真場景為位于十字路口道路的雙向和單向車道區域,其寬為300 m,長為 400 m。場景中車輛起始位置和行駛方向在區域范圍內隨機初始化,在該范圍內規定有2條V2I鏈路、3條V2V鏈路以及1個基站。在該場景模型中,使用HG-LDDQN算法實現3條V2V鏈路共享V2I鏈路的2個信道條件的嘗試,分別在信道碰撞率、信道空閑率以及平均獎勵和平均成功率4個評價指標上與其他信道分配算法對比,以驗證HG-LDDQN算法的性能。

實驗中構建圖2中的GRU-LSTM組合神經網絡,GRU層和兩層LSTM均設置128個神經元。Huber損失函數的超參數δ經過大量實驗設置為1.35。實驗每次輸入t-5個時刻的狀態序列,使用Adam算法優化網絡權重ω,經驗池D的容量設置為1 000,探索率ε設置為0.02,探索率的衰減率設置為0.000 1,學習率設置為0.01,獎勵折扣設置為0.9,干擾設置成0.1,模擬退火常數設置為1。

3.1 信道碰撞率對比

圖6表示在55 000次的迭代中,3條V2V鏈路在動態共享2條V2I鏈路的信道時的碰撞率的變化情況,每5 000次作為一個回合,對數據結果進行一次記錄。從圖中可見,沒有歷史序列前后記憶功能的DQN算法在處理這種歷史序列的學習任務時幾乎沒有學習能力,碰撞率很大,而對于單一循環網絡算法而言,GRU+DDQN算法由于具有比LSTM+DDQN更為簡單的結構,其學習迭代的更快。但這兩種算法最后的收斂表現差不多,在第10個訓練回合時收斂到0.27左右。相較而言,HG-LDDQN算法由于使用了GRU-LSTM混合網絡模型,兼具GRU和LSTM網絡單元的雙重性能,能將GRU網絡單元結構簡單、訓練快速的優勢運用到V2V鏈路的訓練中,當訓練達到第4個回合時碰撞率就以最大的下降速度降低,使V2V鏈路之間的碰撞次數迅速減少,同時又因為LSTM網絡單元中的多參數能帶來更加精確的擬合精度,使得HG-LDDQN算法不僅提前5個訓練回合完成收斂,又能夠將碰撞率維持在比其他算法訓練結果更低的0.006附近。

圖6 3條V2V鏈路共享2條V2I鏈路信道時的碰撞率

3.2 平均獎勵對比

圖7為3條V2V鏈路共享2條V2I鏈路信道時的平均獎勵的對比,可見HG-LDDQN算法憑借GRU-LSTM組合網絡中GRU網絡單元的簡單結構,使V2V鏈路能夠在第4個回合以后快速學習獲得獎勵,又可以憑借組合網絡中LSTM網絡單元的多參數擬合精確的特點,使V2V鏈路在第5個回合后幾乎每次都能成功共享V2I鏈路的2條信道,完成信息成功發送,學習到了比其他算法更優的信道分配策略。本文算法比RNN+DQN算法提前約6個訓練回合收斂,而GRU+DDQN和LSTM+ DDQN算法由于單一的網絡結構無法在整體性能上表現出組合優勢,導致在整體的算法性能上不如HG-LDDQN算法高效和穩定,最終的平均獎勵值只能收斂到1.8附近,甚至不如傳統的RNN+DQN算法。DQN算法還是因為使用DNN的原因,處于一種無法學習的狀態,幾乎不能獲得獎勵。

圖7 3條V2V鏈路共享2條V2I鏈路信道時的平均獎勵

3.3 信道空閑率對比

圖8為3條V2V鏈路共享2條V2I鏈路的信道時的空閑率的對比。由于建模時允許某些V2V鏈路可以選擇不發送信息,即不選擇信道接入,因此該圖與碰撞率的圖有些許的差別。顯而易見HG-LDDQN算法由于組合網絡模型結構帶來的雙重優勢,在收斂速度上比LSTM+DDQN或者GRU+DDQN算法快5個訓練回合,比RNN+DQN快6個訓練回合。在收斂后的空閑率上,隨著迭代次數的增加,HG-LDDQN算法能使信道空閑率穩定在較低的水準,使V2I的2條信道基本都有V2V鏈路成功的共享,相較于單一網絡結構的LSTM+DDQN或者GRU+DDQN算法下降了約27%。DQN算法同樣由于網絡結構的原因,不具備學習歷史序列數據的能力。RNN+DQN算法下,信道的空閑率呈現出上下振蕩的不穩定性,以及收斂速度慢的情況。

圖8 3條V2V鏈路共享2條V2I鏈路信道時的信道空閑率

3.4 平均成功率的對比

圖9表示3條V2V鏈路嘗試共享2條V2I鏈路的信道的過程中的平均成功率情況。由于獎勵函數的設計是每次對于V2V鏈路成功共享到V2I鏈路信道,并完成信息傳輸的動作選擇就設置獎勵值就加1,發生碰撞信道共享失敗,獎勵值就為0。因此,每一個回合內的累計的成功共享次數與該回合內的累計獎勵值是一致的,可以看到平均化后的成功率折線圖是和獎勵圖的趨勢是一致的。從圖中仍然可以發現,HG-LDDQN算法具有明顯優勢,能夠快速完成收斂,使平均成功率達到了接近1的效果,比GRU+DDQN和LSTM+DDQN算法下的平均成功率提高了約10%,能夠保證在之后的每個時隙中V2I的2個信道中都有V2V鏈路成功進行了共享且完成了信息傳輸。

圖9 3條V2V鏈路共享2條V2I鏈路信道時的平均成功率

4 結束語

本文研究了針對車聯網中V2V鏈路復用V2I鏈路信道時的信道沖突以及網絡效用低下的問題,提出了一種基于GRU和LSTM組合模型的動態信道分配算法。該算法以最大化每回合平均獎勵為目標訓練V2V鏈路,不需要在線協調,可實現多個V2V鏈路通過實時探知環境狀態,選擇V2I鏈路未使用的空閑頻譜以完成V2V鏈路自身信息的傳輸任務,同時解決了大狀態空間下V2V鏈路用戶隨著車聯網節點拓撲結構變化帶來的訓練困難、訓練周期長的問題。仿真實驗結果表明,該算法能使V2V鏈路作為智能體在與環境不斷交互過程中學習到合理的信道共享策略,有效地解決了快速變化的車聯網環境中的信道分配問題,同時減少了V2V鏈路用戶的信道碰撞率以及空閑率,間接最大化了V2V鏈路復用V2I鏈路信道資源的利用率。

后續將會在本文的基礎上對V2I以及V2V鏈路的頻譜資源分配進行信道及功率的聯合優化研究。

猜你喜歡
空閑時隙鏈路
家紡“全鏈路”升級
恩賜
天空地一體化網絡多中繼鏈路自適應調度技術
“鳥”字謎
復用段單節點失效造成業務時隙錯連處理
彪悍的“寵”生,不需要解釋
一種高速通信系統動態時隙分配設計
時隙寬度約束下網絡零售配送時隙定價研究
WLAN和LTE交通規則
基于TDMA的無沖突動態時隙分配算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合