?

無人機輔助通信網絡中基于強化學習的用戶速率優化算法*

2024-04-24 09:20張延年
火力與指揮控制 2024年2期
關鍵詞:用戶數鏈路信道

張延年,吳 昊,張 云

(南京交通職業技術學院電子信息工程學院,南京 211188)

0 引言

無人機(unmanned aerial vehicles,UAV))[1-2]因其高機動、低成本和可提供視距鏈路增益特點,UAV 可作為空中基站(base stations,BS),為地面用戶提供輔助的通信服務[3]。地面基站因固定地面上,難以提供視距鏈路增益,并且易受自然災害破壞或者人為摧毀。因此,將UAV 和地面基站混合,形成基于UAV 輔助的蜂窩網絡系統,進而滿足用戶對網絡速率的需求。

基于UAV 輔助的通信系統也面對諸多挑戰。首先要考慮的是無人機與用戶間的匹配問題,即哪架無人機為用戶提供通信服務;其次,信道分配問題,即如何為無人機與用戶間通信分配對應的信道;最后,無人機采用多大的功率向用戶傳輸信號,即功率設置問題。這些問題直接影響到用戶的速率。針對上述問題,研究人員進行了較深入研究,見文獻[4-5]。然而,上述工作只考慮了單架無人機場景。在實際應用環境中有多架無人機同時為多用戶提供通信服務。

為此,基于UAV 輔助的蜂窩網絡,提出MBRO先建立聯合無人機與用戶間匹配、信道分配以及傳輸功率的用戶速率的優化問題??紤]到直接求解優化問題的全局最優解的復雜性,采用交替優化法,將原優化問題進行分解,形成兩個子問題,再分別利用改進后K-means 算法、多臂賭博機算法求解。仿真結果表明,提出的MBRO 算法有效地提升了用戶的平均速率,并降低了鏈路中斷概率。

1 系統模型

1.1 網絡模型

考慮如圖1 所示的無人機輔助場景,一個宏基站覆蓋區域內有多個微基站和M 個用戶。在覆蓋區域上方部署U 架無人機。為了表述簡單,用表示用戶集;用表示無人機集。區域內的微基站和用戶通過泊松過程生成。即它們到達區域的過程服從泊松過程。

圖1 網絡模型Fig.1 Network model

假定覆蓋區域內因自然災害,如地震、火災,導致地面上微基站發生故障,無法為用戶提供服務。在覆蓋區域上方部署無人機作為臨時空中基站,進而為地面用戶提供通信服務[6]。

1.2 UAV 空地信道模型

由于UAV 部署在空中,其與地面用戶之間存在視距鏈路的可能[7-8]。因此,首先考慮UAV 同地面用戶間信道的自由空間損耗。當信號傳輸至地面時,可能存在障礙物,如障礙物、大型卡車,這些障礙物阻礙信號的傳播,形成信號的非視距傳輸,導致鏈路的額外損耗。據此,本文考慮UAV 至地面用戶的通信鏈路由視距鏈路和非視距鏈路組成[8]。令hi,k表示UAV vi至用戶間信道增益:

式中,c 表示光速,fc表示載波頻率;di,u表示UAV vi至用戶uk間距離;ηNLoS、ηLoS分別表示非視距傳輸、視距傳輸時所對應的額外損耗[9]。

回顧到式(1),依據國際電信聯盟的定義,PLoS可表述為:

式中,a、b 為常數,它們取決傳播環境;θ 表示仰角,且,其中,Hi表示UAVvi的高度,表示UAVvi至用戶uk間的水平距離,如圖1 所示。

依據香農公式,UAVvi在信道n 上為用戶uk提供服務,使得用戶uk端獲取的速率為:

令Q 表示可用信道集。令WACC表示可用的帶寬。將總帶寬WACC劃分為|Q|個正交信道,每個信道的帶寬為WACC/|Q|,其中,|Q|表示可用信道數。

1.3 問題構建

提出MBRO 算法的目標是通過聯合優化無人機位置、無人機- 用戶的匹配、信道分配和無人機的傳輸功率,提升用戶的速率。用矩陣表示無人機傳輸功率,其中,N=|Q|;用表示無人機-用戶的匹配矩陣;將信道分配矩陣表示為;用表示無人機位置矩陣。因此,所優化問題可表述為:

式中:約束項C1 表示任意一個用戶只能由一架無人機服務;約束項C2 表示任意一架無人機至少占用一個信道為用戶提供服務。此外,對于任意一架無人機,當無人機已指定,則一個信道只允許被分配至一個用戶。為此,設定約束項C3。約束項C4、C5對無人機-用戶的匹配矩陣中元素、信道分配矩陣中元素的取值進行限定,只能取0 或1。

2 優化問題的求解

2.1 基于改進的K-means 聚類的無人機部署

K-means 是基于質心的數據聚類算法。最初,K-means 算法[10-11]從樣本集隨機選擇K個樣本作為K 個集群的中心,再計算剩余樣本離這些中心點的最小距離。并將這些剩余樣本歸類至離自己最近的集群中。然后,計算每個集群的中心,重復上述過程,不斷更新聚類中心位置,直到得到最佳聚類結果[12]。

由于隨機選擇初始聚類中心,容易陷入局部最優。為此,基于樣本數據的密度產生K個初始聚類中心。具體而言,先計算樣本數據的密度,再依據密度按從大至小對樣子進行排序,將前K 個樣本作為初始聚類中心。

本文利用改進的K-means 算法解決無人機-用戶的匹配問題。匹配問題涉及到無人機的位置以及無人機為哪個用戶提供服務,即和。依據用戶位置,利用改進的K-means 算法對用戶進行聚類劃分,每個聚類的中心位置作為無人機的水平位置。每個無人機服務一個聚類的所有用戶。

算法1 給出了求解過程。以用戶位置為算法輸入,并設置迭代次數。第1 步,計算每個用戶的密度,再依據密度值按從大至小排序,選擇K 個用戶作為初始聚類中心位置。第2 步,進入循環,計算剩余用戶至初始聚類中心位置的距離,并將用戶歸納至離自己最近的聚類。第3 步,更新聚類中心位置。即計算每個聚類內用戶的平均位置,并利用此平均位置作為該聚類的中心位置。第4 步,判斷是否達到循環終止的條件。即計算本次中心位置與上次中心位置的差值,若差值小于預定閾值,就終止循環?;蛘哐h次數達到最大迭代次數,也終止循環。最終,輸出K個聚類中心位置(,),i=1,2,…,K。

images/BZ_46_1295_1698_2107_1747.pngimages/BZ_46_1291_1763_2103_2539.png

2.2 基于多臂賭博機算法的信道分配和傳輸功率的求解

2.2.1 多臂賭博機算法概述及在MBRO 算法中的應用

多臂賭博機算法來源于賭博學中的老虎機。在賭徒面臨一臺持有多個搖臂的老虎機時,他最初并不知道搖動哪個臂能夠獲得最大的收益。當他經歷了有限次的嘗試后,賭徒可能掌握了一些搖臂的期望收益分布知識。接下來,賭徒面臨了一個選擇:是依據現有知識搖動期望收益最高的臂,還是嘗試搖動未知的臂?這實質上屬利用和探索的困境問題還是探索新方法獲取不確認收益(可能獲取較大收益,也可能較小收益)?

作為多臂賭博機的經典算法,置信區間上界(upper confidence bound,UCB)算法通過多次嘗試,并統計作出所有選擇后的平均收益。

MBRO 算法利用多臂賭博機算法求解第二個子問題。第二個子問題涉及到:UAV 以多大功率向用戶傳輸信號以及選擇哪個信道,即信道分配和功率設置問題。因此,UAV 扮演多臂賭博機的賭徒。將UAV 的功率設置和信道分配問題看成其動作,即搖動哪個手臂,圖2 給出多臂賭博機算法與微基站、UAV 作為賭徒的對應關系。

圖2 多臂賭博機與MBRO 算法間對應關系Fig.2 The correspondence between multi-armed bandit and MBRO algorithm

2.2.2 利用多臂賭博機算法求解

令ai表示UAVvi的動作,其由傳輸功率,信道分配兩項信息構成,即。利用式(6)計算選擇UAVvi作為輔助基站獎懲函數:

式中:Ni表示UAVvi為用戶提供服務的用戶集;為歸一化因子,其中,表示用戶端的數據包到達率;表示用戶端的數據包大小。

為了最大化收益無人機選用收益最大化的動作。此處收益是指用戶的速率,即最大化用戶收益。采用UCB 算法求解。UCB 考慮的是每個手臂獎賞的置信區間的上界。

3 性能分析

3.1 仿真參數

假定所有用戶在實驗區域內均勻分布。宏基站部署在離實驗區1 km 的地方。在實驗區域內部署U架無人機和M 個用戶。無人機的高度為100 m。假定實驗區域部署在城區,無人機空地信道模型的參數取值為(9.61,0.28,1.0,20)。具體的仿真參數如表1 所示。

表1 仿真參數Table1 Simulation parameters

為了更好地分析MBRO 算法的性能,考慮兩個基準算法:1)Random+Bandit。Random+Bandit 算法表示無人機以隨機方式與用戶進行匹配,但仍采用多臂賭博機算法完成信道分配和功率設置,2)K-means+Random。K-means+Random 算法表示以K-means 算法解決無人機與用戶間的匹配問題,用隨機方式向用戶分配信道和無人機的傳輸功率,且無人機傳輸功率在2~5 W 區間。

3.2 基于改進K-means 算法的無人機與用戶匹配后的分布圖

首先,分析利用改進后K-means 算法實現無人機與用戶間的匹配結果,如圖3 所示。14 個用戶分布在內。圖中的三角形表示用戶。利用改進K-means 算法實現無人機與用戶間的匹配,即依據用戶的分配,部署無人機。圖中黑色圓圈表示無人機。通過改進K-means 算法能夠將用戶劃分為多個簇,然后,再在每個簇內部署無人機,使每個用戶到為其提供通信服務的無人機的距離最短。

圖3 無人機與用戶匹配后的分布圖Fig.3 Profile after the matching of UAVs with users

3.3 用戶的平均速率

接下來,分析MBRO、Random+Bandit 和K-means+Random 算法的用戶平均速率,用戶數為20,信道數為15。Random+Bandit 算法采用5 架無人機。需要說明的是:MBRO 和K-means+Random 算法是通過K-means 算法部署無人機,即依據用戶部署無人機。因此,無需指定無人機數。

從圖4 可知,在信道數給定的條件下,用戶平均速率隨用戶數的增加而下降。原因在于:用戶數越多,資源競爭越激勵,彼此間干擾越大,這就降低了用戶端的速率。此外,相比于Random+Bandit 算法、K-means+Random 算法,MBRO 算法提升了用戶的平均速率。MBRO 算法利用改進后K-means 算法部署無人機,優化了無人機與用戶間的匹配。同時利用多臂賭博機算法完成信道分配和功率設置,緩解干擾。相比于K-means+Random 算法,在用戶數較少時,Random+Bandit 算法在用戶平均速率方面具有優勢。原因在于:Random+Bandit 算法采用固定的無人機數,在用戶數較少時,無人機服務的用戶數較少,能夠提升用戶速率。但是隨著用戶數的增加,Random+Bandit 算法不再具有優勢。

圖4 用戶數對用戶的平均速率的影響Fig.4 The impact of number of users on the average rate of users

接下來分析,可接入信道數對用戶的平均速率的影響,如圖5 所示。設用戶數為16、無人機數為6,可接入信道數從5~25 變化。

圖5 可接入信道數對用戶的平均速率的影響Fig.5 The impact of the number of accessible channels on the average rate of users

從圖5 可知,用戶的平均速率隨可接入信道數增加而上升。原因在于:當用戶數和無人機數固定時,可接入信道數越多意味著可選的傳輸通道越多,用戶間干擾會隨之減少。相比于Random+Bandit和K-means+Random 算法,MBRO 算法提升了用戶的平均速率。

3.4 鏈路的中斷概率性能

最后,分析用戶與無人機通信鏈路是否發生中斷。用鏈路中斷率表示鏈路質量,鏈路中斷率等于發生中斷的鏈路數與用戶總數的比值。鏈路中斷數越多,鏈路質量越差。無人機數為5,可接入信道數為15,用戶數從10~20 變化。

從圖6 可知,Random+Bandit 和K-means+Random 算法的中斷概率隨用戶數增加而上升。有兩方面原因:1)Random+Bandit 算法未能優化用戶與無人機匹配,以隨機方式關聯用戶,當用戶數較多時,其不足就凸現,增加了用戶中斷概率;2)Kmeans+Random 算法未能優化功率和信道分配,當用戶數較多時,由于未能優化功率和信道分配,用戶間的干擾嚴重,增加了用戶中斷概率。相比于Random+Bandit 和K-means+Random 算法,MBRO 算法降低了中斷概率,并且MBRO 算法的中斷概率隨用戶數的波動較小,這也說明MBRO 算法能夠自適應環境,動態地分配信道和功率。

圖6 中斷概率Fig.6 Interruption probability

4 結論

本文針對基于無人機輔助通信的蜂窩網絡,研究了基于無人機與用戶的匹配、無人機傳輸功率和信道分配的聯合優化問題。先建立優化用戶和速率的優化問題,再利用改進的K-means 算法和多臂賭博機算法求解。最后,通過仿真數據驗證了用戶的平均速率性能。從仿真數據可知,通過優化無人機傳輸功率和信道分配,可有效提升用戶的速率。

盡管提出的MBRO 算法提升了用戶的速率,但本文只考慮了無人機與用戶間通信,未能同時考慮蜂窩基站與用戶間通信。在實際環境中,這兩類通信可能同時存在,彼此相互干擾。后期,筆者將同時考慮這兩類通信,并對算法進行改進,這將是下一步的研究工作。

猜你喜歡
用戶數鏈路信道
家紡“全鏈路”升級
天空地一體化網絡多中繼鏈路自適應調度技術
基于導頻的OFDM信道估計技術
基于VBS實現BRAS在線用戶數的自動提取
一種改進的基于DFT-MMSE的信道估計方法
基于MED信道選擇和虛擬嵌入塊的YASS改進算法
基于3G的VPDN技術在高速公路備份鏈路中的應用
2016年6月電話用戶分省情況
2013年12月電話用戶分省情況
一種基于GPU的數字信道化處理方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合