?

基于強化學習的LTE與WiFi異構網絡共存機制

2021-06-19 06:46林粵偉
電子科技大學學報 2021年3期
關鍵詞:子幀數據包頻段

林粵偉

(1.青島科技大學信息科學技術學院 山東青島266061;2.海爾集團博士后工作站 山東青島266000)

隨著無線通信技術的發展,LTE、5G、WiFi等技術方興未艾,8K視頻、VR、AR等新穎的高吞吐率、低時延業務需要更大的頻譜帶寬支持?,F有頻譜資源分為授權和非授權頻帶,僅僅依靠授權頻帶已無法充分保證未來4.5G、5G高吞吐量業務的帶寬QoS要求[1]。載波聚合(carrier aggregation,CA)或頻譜聚合是LTE-Advanced標準R10的一個重要特性,通過將多個連續或非連續的載波(頻譜)聚合成更大的帶寬(最大100 MHz),能夠實現在100 MHz的帶寬內,提供下行1 Gbit/s、上行500 Mbit/s的速率[2]。LTE早期只專注于授權頻段的聚合,在4.5G、5G研究領域,聚焦于授權與非授權頻段的頻譜聚合技術也被提出并得到廣泛研究,其中將LTE部署在非授權頻段的技術稱為LTE-U(unlicensed)[3-4],使用的是低于6 GHz的非授權頻段。毫米波頻段(如60 GHz)不在LTE-U的研究范圍內,有專門的技術對LTE在毫米波頻段部署進行研究[5]。

LTE-U使用的6 GHz以內的非授權頻段主要指2.4 GHz和5.8 GHz兩個頻段,在這兩個頻段已經部署有WiFi、藍牙、雷達等無線通信系統,LTE-U作為后來者,需要解決好LTE與現有無線通信網絡(尤其是WiFi網絡)之間的共存與干擾問題。主要有兩種技術來解決非授權頻段中的已有無線通信系統與LTE-U的共存干擾問題,分別是:基于listen-before-talk(LBT)[6?7]和不基于LBT(non-LBT)[8]的兩類技術。LBT類似于WiFi的(carrier sense multiple access)CSMA/CA(載波偵聽多址接入/沖突回避)多址接入協議,采用基于競爭的接入策略。LTE-U在發送數據前需要先探測信道是否空閑以決定是否接入,以降低LTE-U與WiFi的沖突概率。文獻[9]使用基于LBT的方法處理多個RAT之間和RAT內部由于LTE-U與WiFi共存帶來的干擾問題。在美國、中國、韓國、印度等國家,并沒有強制要求LTE-U必須實現LBT機制,并且在LBT機制下兩種無線通信系統都要檢測信道,頻譜利用率降低。non-LBT機制中,LTE-U會周期性地靜默一段時間,在該段時間內不發送或幾乎不發送數據,從而使WiFi有更多機會發送數據。

文獻[10-11]基于non-LBT方法處理了LTE-U和WiFi系統間的共存與干擾問題。文獻[10-12]分別使用了基于空白子幀、duty-cycle、上行鏈路功率控制的方法,都沒有觸及ABS空白子幀的比例問題?;趲缀蹩瞻鬃訋?almost blank subframe,ABS)(下面簡稱空白子幀)的方法是一種典型的non-LBT的LTE-U與WiFi在非授權頻段的共存機制,該機制最為重要的是如何確定空白子幀所占無線幀的比例,以確保系統的公平性和性能。文獻[13]使用頻譜偵聽的方法對一定區域內WiFi AP的數目進行估算,進而提出了一種根據LTE基站周圍WiFi熱點的強度調整空白子幀數目的方法。文獻[14]基于排隊論模型研究了數據包的到達對LTE-U和WiFi的平均數據包時延的影響,但沒有提出具體的異構網絡共存機制,只是為WiFi和LTE-U的共存提供了一個指導準則。文獻[15-16]研究了如何決定ABS空白子幀的比例以確保公平性,但是沒有考慮無線網絡的業務量負載情況。文獻[17]考慮了業務量負載情況,但只研究了單一的業務(FTP)和吞吐量QoS指標,沒有考慮多業務場景和時延等技術指標。

本文針對基于ABS空白子幀的LTE-U小基站(small BS/SBS)與WiFi AP共存的場景,提出了基于強化學習算法的智能化LTE-U與WiFi的共存機制,考慮了無線網絡的業務量負載情況,能夠提高不同無線網絡的時延性能,進而提高系統的用戶滿意度。較已有的動態配置ABS空白子幀的算法,提出的基于強化學習的QL-ABS算法能夠較好地利用以往學習經驗(具有更好的在線性能),后續決策可以利用先前學到的經驗,從而做出更為合理的配置決策,提升系統的時延、在線性能及用戶滿意度。

1 系統模型

考慮由一個宏基站(macro BS)、一個LTEU小基站(small BS/SBS)、一個WiFi AP組成的網絡模型,如圖1所示。分別有Nl個SBS用戶設備(user equipment, UE)和Nw個WiFi終端(STA),LTE基站可與WiFi AP進行協作式信息交互。在較低的授權頻帶,UE的控制數據由宏基站發送,UE的業務數據由小基站發送。小基站和AP共享公共的非授權頻帶,由小基站配置空白子幀。LTE幀長10 ms,包括10個1 ms的子幀,不允許小基站在空白子幀期間發送數據。此時,相應信道將為空閑狀態,并且可以被WiFi AP訪問。本機制專注于確定空白子幀的數量,當多個空白子幀為時間連續時,WiFi可以獲得更多的傳輸時間,一旦確定了空白子幀的數量,n幀的連續子幀就被指定為空白子幀。

圖1 網絡模型

對于非授權共享頻帶(信道),在時間域WiFi AP基于CSMA/CA的講前先聽(LBT)的接入方式進行訪問,LTE-U小基站則使用ABS空白子幀的方式降低與WiFi的沖突概率。使用排隊論對上述WiFi AP和LTE-U小基站的共享非授權無線頻率的行為進行建模[14,18]。WiFi AP和LTE-U小基站可以被看做兩個互相獨立的M/G/1隊列,接收到的數據包被放入隊列。如圖2所示,數據包的到達率服從強度為λi(i∈{w,l})的泊松分布,其中λi表示LTE-U或WiFi無線網絡的業務負載強度。每個節點S的數據包服務時間互相獨立,服從一般分布。以Si,o表示進行包傳輸的信道占用時間,Si,o服從強度為μi的指數分布,E[Si,o]=1/μi。以Si,v表示占用業務信道之前數據包在隊列中的等待時間。Si,o和Si,v這兩個時間之和即為數據包服務時間(以Si表示),即:

使用平均包時延Di作為衡量系統性能的指示參數。參數Di與包到達率λi和LTE幀中空白子幀的數量n有關。

圖2 LTE-U與WiFi共存系統的M/G/1排隊模型

2 基于強化學習的LTE-U與WiFi共存機制

前文排隊論中的時間參數可以映射為無線通信系統的數據包從到達基站(或AP)到被UE(或STA)終端接收兩個時間點之間的總時間,即數據包傳輸時延??疾閃iFi和LTE-U無線通信網絡的時延,并將其作為定量評估不同無線通信網絡性能的指標參數。對于LTE-U所采取的基于ABS空白子幀的非授權頻帶的共享訪問方式,如果一個LTE無線幀總共含有N個子幀,其中空白子幀的數量為n??紤]第一種情況,LTE-U在信道空閑狀態下可隨時接入信道,那么LTE接入信道的概率為1?n/N。此時,LTE-U系統的數據包服務時間Sl,case1=Sl,o??紤]第二種情況,在系統恰好處于ABS空白子幀時間段的時候,LTE-U不能訪問共享非授權頻率,產生該情形的概率是n/N,LTE-U只有等待剩余的空白子幀時間段結束,才能馬上接入無線共享信道并發送數據包,此時,LTE-U的數據包服務時間:

式中,Rw服從均勻分布,該參數是除去已經在時間上流逝掉的,剩余的需要LTE-U小基站等待的空白子幀的時間。綜合考慮前文描述的兩種情形,得出LTE-U系統的數據包服務對應的平均時間:

式中,Rw和Sl,o彼此獨立,得出Sl的數學期望和方差分別為:

然后,由Pollaczek-Khinchin (P-K)公式計算得出LTE-U系統的平均包時延的算式:

WiFi AP的MAC層使用CSMA/CA協議接入無線信道。AP發送數據包前先對信道進行監聽,如果監聽到信道在一段時間間隔(分布式幀間間隔(DIFS))內處于空閑狀態,則AP將產生一個隨機退避(back-off)間隔,該退避間隔服從0~CWmax的均勻分布,其中CWmax表示競爭窗口最大值。只要信道空閑就開始倒計時,每流逝1個WiFi時隙的時間倒計時計數器減1。當計數器達到零時,AP發起一次數據傳輸。否則,如果在倒計時過程中信道被其他設備占用,AP必須重新啟動DIFS并繼承先前剩余的退避計數。對于WiFi系統而言,WiFi AP對于共享非授權無線信道的占用受到LTE-U小基站的影響。當LTE-U小基站沒有接入無線信道時,AP基于前文描述的偵聽協議發起接入信道的操作,只有在計數器的值減少到0時才可接入信道,這時WiFi數據包服務時間:

此外,對WiFi系統來說,如果其數據包在非空白子幀時刻到達,那么AP只有等到LTE-U的非空白子幀時間,即數據傳輸時間結束后才被允許訪問占用信道。此時AP的數據包服務時間:

式中,Rl服從均勻分布,該參數表示剩余的非空白子幀時間段,式中各項彼此獨立。根據前文分析,得到AP的數據包服務時間:

式中,Sback服從0~CWmax的均勻分布;常數SDIFS是分布式幀間間隔(DIFS)。進而分別得到AP的數據包服務時間的均值與方差:

根據式(11)~(12)可以得到:

由P-K公式,得到WiFi系統的平均包時延的算式:

下面介紹基于強化學習中的Q學習的智能空白子幀配置算法(QL-ABS),該算法可以提升異構無線網絡在非注冊頻帶的時延性能。對于動作的選擇,探索策略采用ε貪婪算法。為LTE-U預先定義一個時延性能目標Ptar。LTE-U的SBS小基站可以自主地動態調整空白子幀的數量,這里多個空白子幀時間上連續挨在一起而不是離散分隔開,使得性能盡可能地接近Ptar。SBS的動作集合為A={a1,a2,···,am},狀態集合為S={s1,s2,···,sn},ak和sj分別代表SBS可能的動作和狀態。在Q學習中,SBS小基站(agent)會維護一個Q值表,該表存有每一對狀態sj∈S(1≤j≤n)和動作ak∈A(1≤k≤m)對應的Q值Q(sj,ak),該值表示當SBS在狀態sj選擇執行動作ak時對未來代價的預測。

SBS小基站在某一狀態sj選擇并執行動作ak,基于來自環境的反饋,用代價值c表示該反饋,該代價值定義為在前一空白子幀配置周期中的LTE數據發送時間里得到的LTE-U的性能P與目標性能Ptar差值的絕對值。進而得到SBS小基站的下一狀態sj′∈S(1≤j′≤n)。然后,基于得到的下一狀態sj′和計算出的代價值c,更新當前狀態動作對sj和ak對應的Q值:

式中,α,γ分別為學習率和折扣因子(仿真中取值為0.5)。學習率 α(0≤α≤1)決定學習的速度,如果α過小,學習過程的時間會很長;如果α過大,算法可能會不收斂;折扣因子 γ(0≤γ≤1)控制未來代價的價值,體現了未來代價相對當前代價的重要性。γ越小,學習將越依賴于當前代價;γ越大,學習將越依賴于未來代價。合理的選擇這兩個參數的值,可以有效控制Q學習算法的學習過程。

選擇動作時,需要考慮“探索?利用”的折中問題,即在給定狀態條件下,是嘗試新的動作以獲得更多的經驗,還是根據已有的學習經驗來選擇動作。嘗試更多新的動作將獲得更為全面、豐富的經驗,進而達到更好的優化目標,但相應消耗的學習時間也更多;更多依賴以往經驗可以令算法的學習過程收斂并較快穩定,但也可能陷入局部最優解。一旦當前狀態動作對sj和ak的Q值得到更新,為下一狀態sj′選擇一個動作ak′∈A(1≤k′≤m)。采用ε?貪婪算法,首先生成隨機數r∈U(0,1),并與ε貪婪參數比較,該參數通常取值很小(如0 .01≤ε≤0.05)。如果r值小于ε貪婪參數的值,則隨機選擇一個動作。否則,在得到的下一狀態sj′中選擇使Q值最小的動作,即:

將LTE-U SBS小基站的動作、狀態、代價定義如下。

動作:

式中,ak∈A(0≤ak≤1)表示一個LTE幀(含10個子幀)內所有空白子幀所占的時間比例。比如0.1表示每10個子幀中有1個LTE空白子幀,9個LTE數據發送子幀。

狀態:

式中,P為系統總體實驗性能(反映了用戶對時延性能的滿意度);Pi為第i個用戶的用戶滿意度;Dj為前文推導過的LTE-U SBS小基站或WiFi AP的平均包時延;di為每一用戶對應業務(假定每一用戶在任一時刻只有一種業務)的時延QoS要求。VoIP業務的時延要求為di=2 ms,Video Streaming業務的時延要求為di=5 ms,FTP業務的時延要求為di=20 ms[19],設置Ptar=0.9。

QL-ABS算法流程的偽代碼如下所示,LTEU與WiFi以協作模式共存,可以彼此進行信息交互。LTE-U的SBS小基站在每次數據傳輸階段開始前,先獲取WiFi與LTE-U網絡接下來的業務負載強度λw與λl。

3 仿真結果

仿真考慮在非授權頻段競爭頻譜資源的場景,WiFi與LTE-U都只對非授權頻段的頻譜資源使用。用戶終端的移動速率為3 km/h,分布服從均勻分布。其他的相關仿真參數如表1所示。兩類系統的信道占用服務時間都是0.9163 ms。為了計算前文提到的系統總體實驗性能P,基于服務類型得到每一用戶的數據包時延要求,假定每一用戶在任一時刻只有一種業務。

表1 仿真參數配置

對不采用共享接入算法(without-ABS)、傳統的空白子幀數量固定的共享接入算法(ABS)、以及本文提出的基于強化學習的空白子幀數量動態配置的共享接入算法(QL-ABS)的性能進行了仿真對比,如圖3所示。其中LTE-U的包到達率為λl=150 packets/s。在WiFi系統的包到達率λw增大時,不使用任何共享接入算法時,等待隊列中積聚的被阻塞的WiFi數據包逐步增多,進而使平均包時延增加。使用空白子幀共享接入算法可以有效的減少系統時延。在高負載時,QL-ABS算法的WiFi系統的時延性能較ABS算法可以提升50%左右;在低負載時,WiFi時延性能可以提升20%左右。這是由于相比于空白子幀數量固定算法,基于Q學習的空白子幀數量配置算法可以根據系統業務強度智能的動態調整空白子幀數目,可以更好的保證WiFi與LTE-U兩種系統在非授權頻段共享接入的公平性。另一方面,使用QLABS算法后,LTE-U的時延只有微小的增大。相比空白子幀數量固定算法LTE-U時延大約增加了0.2 ms,相比不使用空白子幀的算法LTE-U時延增加了0.7 ms左右。如圖4所示,λl=150 packets/s時,在不同的用戶數情況下,QL-ABS算法都具有較好的平均包時延性能。用戶數較多時,LTEU和WiFi的平均包時延都有一定程度的增加。低負載時,WiFi的時延性能增加5%左右;高負載時,WiFi的時延性能增加2%左右。

圖3 平均包時延性能分析

圖4 不同用戶數的平均包時延性能分析

圖5展示了在不同的空白子幀數量配置條件下,在采用QL-ABS動態空白子幀配置算法時,WiFi和LTE-U的時延性能變化,其中λl=150 packets/s,λw=100 packets/s。與空白子幀數量固定配置算法相比,QL-ABS在提供了較好的WiFi時延性能(低于5 ms,能夠滿足VideoStreaming業務的時延QoS要求)的同時,能夠保證LTE-U的時延性能只有微小的下降(低于2 ms,可以滿足時延QoS苛刻的VoIP語音業務要求)。QL-ABS更適合WiFi和LTE-U異構網絡的整體時延性能優化,在高負載情況下QL-ABS的這種優勢會更加明顯。WiFi時延性能增加的原因是當SBS小基站考慮性能目標Ptar,基于突發的業務強度動態調整空白子幀數量時,WiFi獲得了更為公平的接入共享非授權頻譜的機會。

圖5 ABS配置與時延

圖6顯示了動態的WiFi和LTE-U數據包總到達率,圖7顯示了對應系統總體時延性能P(用戶滿意度)的結果,并對比了QL-ABS和基于效用函數的動態自適應ABS配置算法(A-ABS)[17]的在線性能??梢钥闯鱿到y第二天的性能明顯好于第一天,且QL-ABS較A-ABS算法具有更好的在線性能,這是因為QL-ABS算法第二天的決策可以利用第一天學到的經驗,從而做出更合理的動作。隨著在線性能的提高,用戶滿意度也會相應得到提升。

圖6 連續兩天動態變化業務量

圖7 QL-ABS算法在線性能

4 結束語

本文提出基于Q學習的LTE-U的空白子幀配置機制,使用排隊論對LTE-U與WiFi共存的5G異構網絡進行建模。仿真結果表明,通過自主學習過程,本算法可在不同的負載條件下為LTE-U產生較為合理的空白子幀配置策略,具有較好的在線學習性能。較傳統方法,本機制更好地解決了5G異構網絡中LTE-U與現有WiFi網絡在非授權頻帶的共存問題,提升了網絡的總體時延性能和用戶滿意度,具有更好的在線性能。在未來的工作中,將把所提出的方案擴展到更為復雜的多個LTE-U SBS和WiFi AP共存的場景。

本文研究工作得到泛網無線通信教育部重點實驗室(北京郵電大學)開放課題(KFKT-2018107)的資助,在此表示感謝!

猜你喜歡
子幀數據包頻段
二維隱蔽時間信道構建的研究*
5G高新視頻的雙頻段協同傳輸
gPhone重力儀的面波頻段響應實測研究
民用飛機飛行模擬機數據包試飛任務優化結合方法研究
雷聲公司交付首套中頻段下一代干擾機
SmartSniff
中國移動LTE FDD&TDD載波聚合部署建議
LAA系統在非授權頻段上的動態子幀配置策略
推擠的5GHz頻段
TD—LTE特殊子幀配比的優化設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合