?

面向分層異構網絡的資源分配:一種穩健分層博弈學習方案

2017-02-06 00:34邵鴻翔趙杭生孫有銘孫豐剛
電子與信息學報 2017年1期
關鍵詞:資源分配下層雙層

邵鴻翔 趙杭生 孫有銘 孫豐剛

?

面向分層異構網絡的資源分配:一種穩健分層博弈學習方案

邵鴻翔*①④趙杭生②孫有銘③孫豐剛①

①(解放軍理工大學通信工程學院 南京 210007);②(南京電訊技術研究所 南京 210007);③(解放軍信息工程大學信息系統工程學院 鄭州 450000);④(洛陽理工學院 洛陽 471023)

該文研究了信道狀態不確定條件下分層異構微蜂窩網絡中的無線資源分配優化問題。首先引入信道不確定模型描述無線信道的隨機動態性,并將該問題建模為考慮信道不確定度的雙層魯棒斯坦伯格博弈;然后給出了該博弈的均衡點分析;最后提出了一種分布式改進型分層Q學習方案以實現宏基站和微基站的均衡策略搜索。理論分析和仿真表明,所提出的分層博弈模型可以有效抑制由于信道狀態不確定引起的收益下降。所采用的學習方案較傳統Q學習方案收斂速度明顯加快,更加適用于短時快變的通信環境。

異構網絡;斯坦伯格博弈;不完美信道信息;魯棒決策;雙層Q學習;離散策略

1 引言

隨著5G中新媒體數據應用需求的不斷增長,密集組網技術將成為下一代通信的關鍵技術之一。通過在宏蜂窩基站(Macro-cell Base Station, MBS)周圍布設小蜂窩基站(Small-cell Base Station, SBS),能夠擴展覆蓋區域,改善能量效率,提高用戶體驗。異構分層蜂窩網大都采用分享復用的用頻模式(shared-spectrum),這種方式在增加頻譜的空間重用效率的同時會引起小蜂窩與主蜂窩間的跨層干擾以及小蜂窩間的同層干擾,如果不進行適當的干擾協調,會造成基站間干擾的加劇和發射功率的巨大浪費[1]。

雙層斯坦伯格博弈是一種處理不同等級理性參與者相互間利益決策的方法,已被廣泛應用于分析和解決分層網絡的資源分配問題[2]。文獻[3,4]應用斯坦伯格博弈模型研究了雙層網絡中功率分配和干擾控制的問題。然而這些文獻的研究都是假設所有用戶和基站間信道狀態信息(Channel State Information, CSI)已知,并據此做相應的決策。但是在實際情況下,由于無線信道的動態隨機特性,現有模型中不同層級間的基站用戶完美獲取相互間信道信息并不實際。如果使用以往在完美信道信息條件下得到的資源分配策略很可能使實際系統的性能惡化。在優化領域有兩種方法用來處理信息的不確定,分別是基于概率分布的貝葉斯模型[5]和考慮極端情況的魯棒優化模型[6]。在已知不確定信息發生概率分布的前提下,貝葉斯模型是用其期望值來表示不確定信息,但現實中信息的分布卻難以得到;由于現實中環境參數的不確定度往往是有界的,魯棒控制理論通過假定不確定度在一定范圍內變化來進行建模[7]。另外,現有的工作大都是考慮連續數值的資源分配問題。相比連續的資源分配策略,離散策略的資源分配方式可簡化傳輸設計和數據處理,降低基站之間的信息交換開銷,如在3GPP LTE蜂窩網絡中就只支持離散功率控制的下行傳輸[8]。

本文將基于頻譜復用的下行異構蜂窩網絡模型,研究在不完美信道信息條件下雙層網絡的分布式離散策略資源分配問題。通過引入干擾付費機制,建立魯棒離散策略的斯坦伯格博弈模型。針對常用離散策略決策中使用的強化Q學習方法收斂速度慢的問題,提出一種改進的分布式雙層Q學習高效算法尋找穩定解,并探討不確定因素對參與者的決策的影響。

2 系統模型和問題描述

下行鏈路的OFDM雙層蜂窩網絡模型如圖1所示。MBS和SBSs分享復用網絡頻譜資源。每個基站間通過數字用戶線鏈接,作為控制信道用來交換信息。為便于分析,假設每個基站在一個時隙只服務一個用戶。因為SBS與MBS復用相同的頻段,就不可避免地發生不同基站間的跨層和同層干擾。為了保護MBS內宏用戶的通信質量,我們使用干擾價格對下層SBS的發射功率加以約束,并限定SBS對MBS的累積干擾必須小于門限值。這樣,SBS需要優化自己的功率策略來獲取干擾代價和自身通信收益的平衡。而上層MBS希望在干擾滿足限定約束的條件下,盡可能提高對下層SBS干擾收費的總收益。斯坦伯格博弈是一種存在雙層結構的非合作博弈,可用于本文去聯合優化上下層用戶的效用。上層博弈參與者作為leader,具有強勢地位,首先做出決策并向下層廣播;下層參與者follower是跟隨關系,根據上層的決策從可能的策略集中選擇對自己最有利的策略。本文采用單leader多follower形式。MBS作為leader首先行動,發布單位干擾定價;SBSs作為follower,根據上層MBS的定價,選擇最優功率分配策略來最大化其效用收益。

圖1 異構雙層網絡模型

對于下層小蜂窩,SBS接收到的信干噪比可寫為

(2)

式(2)由3部分組成,分別表示SBS的容量收益,功耗代價和SBS對MBS帶來的干擾,其中表示帶寬,表示SBS對MBS宏用戶的信道增益,表示單位能耗定價,表示單位干擾定價。下層SBS必須選擇合適的功率策略最大化自己的效用。對于每個SBS而言,優化問題可建模為式(3)所示的問題1:

對于上層MBS,其目標是在其干擾可承受的范圍內,最大化下層SBS對其干擾的累加付費收益。所以上層的優化目標可建立為帶約束優化問題,如式(4)所示的問題2:

(4)

信道不確定條件下的魯棒斯坦伯格博弈

下層SBS的效用函數可轉化為

類似地,上層MBS的效用函數轉化為

(6)

利用柱形模型[9]和柯西不等式,信道增益不確定分量的上界及由不確定所帶來的最大干擾可分別表征為

(8)

3 斯坦伯格博弈模型

斯坦伯格博弈是一種雙層博弈的模型,下層效用式(8)和上層效用式(9)一同形成斯坦伯格博弈。博弈的目標是找到斯坦伯格均衡(Stackelberg Equilibrium, SE),使得上下層用戶都不能通過單獨改變其策略而得到自身效用的提高。下面分析所提雙層斯坦伯格博弈均衡。

首先,將本文的斯坦伯格博弈表示為

斯坦伯格均衡是本文所提博弈的穩定解,它意味著沒有參與者可以通過單方面的改變策略來提高自己的效用。找出穩定均衡解是非合作博弈建模的基礎和首要問題,下面將證明本文提出的博弈具有唯一SE。

當其等于零時,可求出下層SBS的最優功率,如式(13)所示:

(13)

由式(14)可知,下層效用是一個凸函數,一定存在最優極值。 證畢

(16)

由性質1和性質2可證明上下兩層都具有均衡解,所以所提博弈具有SE,定理1成立。

4 分布式雙層Q學習算法

強化學習是一種動態規劃算法,具有處理離散決策問題的優勢,主要應用在最優控制理論中。本節將在文獻[10,11]的所提強化Q學習思路的基礎上,針對學習效率低的問題,提出改進型雙層Q學習算法來找到均衡解。在本文所提的雙層博弈框架中,每個參與博弈的用戶都具有有限離散策略集。定義用戶的可用策略集為,表示策略集的個數。定義其在第次迭代時,各策略概率矢量為,同時滿足概率和。這樣,用戶的期望效用可表示為

在Q學習過程中,用戶的策略被參數化為函數,它表示每個特定策略的相對效用。參與博弈的用戶每次改變策略都將帶來即時回報。通過不斷嘗試,用戶最后會選擇最大化長期回報的最優行動策略[12]。定義用戶在第次迭代時基于策略概率所選的策略的函數為。通過用戶之間的策略和環境交互,得到每個策略的相應回報獎勵,更新函數。在選擇策略后,相應的值通過式(18)更新:

是用戶在第次迭代選擇策略的期望回報。其中且。每個基站用戶根據式(19)的玻爾茲曼分布來更新其策略。

圖2 雙層Q學習算法流程圖

下層SBS的函數通過式(20)更新:

(21)

在實際算法運行過程中,當用戶的策略集相對較大時,收斂的速度將指數增加。而文獻[12]的算法,每次只更新一個策略的值,無法滿足雙層迭代的速率要求。如果能更高效利用交互信息,在一次迭代中更新所有策略的值,算法收斂速度會有明顯提升。本文提出改進型雙層Q學習算法,具體步驟如表1所示。

表1改進型雙層Q學習算法

改進型雙層Q學習算法 步驟1 上層學習過程c=1:C。初始化所有用戶Q函數=0,; 為各策略等概率分布。步驟2 下層學習過程t=1:T(1)在每個時間段開始,MBS根據其策略概率集,選擇一個定價策略,并廣播給所有的下層SBS。(2)每個SBS i根據自己的策略概率集選擇各自功率策略。(3)每個SBS i根據反饋信息計算其效用,并根據式(21)更新其估計期望效用。(4)每個SBS i根據式(8)計算其他個策略的效用 。(5)每個SBS i根據式(20)和式(19)更新其Q值和策略概率集。(6)在T時隙結束,所有SBS把最后策略傳給MBS。步驟3 MBS計算其第c個時間段的效用,并根據式(22)和式(19)更新其Q值和策略概率集。步驟4 MBS根據其已更新的策略概率集選擇上層策略。步驟5 c =c +1,直到c =C最大時間段數。

5 仿真結果

本節將通過仿真來分析所提博弈模型和改進型雙層Q學習算法的性能。不失一般性,考慮一個MBS和兩個SBS組成的異構網絡,每個基站服務一個用戶。設置SBS1和SBS2對MBS宏用戶的標稱信道增益分別為,下層SBS間的標稱干擾信道增益分別是,歸一化SBS對其自身用戶的信道增益為。噪聲功率。設MBS的干擾價格策略集為[2.5,3.0,3.5,4.0,4.5],SBS的功率分配策略集為,其中SBS的最大傳輸功率。設置每個時間段由個時隙組成,上層迭代時間段數。對于不確定模型,我們假設不確定度是隨標稱值線性變化,不確定部分服從均勻分布,表示不確定值與標稱值的比例。因此我們得到不確定界。

首先研究算法得到SE的收斂性。當不確定度增加時,只是效用函數中的信道數值發生變化,博弈參與者策略的選擇有所不同,但收斂形式類似,所以我們以完美信道條件為例說明算法的收斂性。圖3、圖4、圖5分別給出了Q學習算法改進前后收斂性能比較,可看出改進算法的收斂速度和收斂效果都要好于原算法,且改進算法中各離散策略經過較少迭代便可達收斂到一個純策略,而原算法只能收斂到一個混合策略。

圖6展示了上層MBS的干擾約束對其收益的影響,在保護上層MBS傳輸的前提下,上層MBS對于干擾的容忍度越大則收益越多。另外,上層擁有先動優勢,下層只是被動接受調整,所以在條件變動的情況下,上層總是獲得盡可能多的收益。圖7給出了采用魯棒建模方法前后,隨不確定度等級變化時,MBS收益情況。隨著不確定度等級的增加,信道狀態相對估計標稱值惡化加劇。采用魯棒建模MBS的收益比原MBS收益有較大改善。對于提出的魯棒方法,上層MBS考慮了最差信道狀態信息,MBS隨著信道變化而根據收益情況,自適應改變了自己的相應定價策略,使得總收益總是向著自己有利的方式改變。

圖3 兩種算法的期望收益比較 圖4 SBS1策略的兩種算法各策略收斂性比較 圖5 MBS策略的兩種算法各策略收斂性比較

圖6 不同干擾門限值下的MBS收益 圖7 不同不確定度下的MBS收益

6 結論

本文針對無線異構網絡中實際信道信息獲取不完美,從而導致信道不確定度變化引起的用戶收益減少問題,提出了一種基于斯坦伯格博弈模型的分布式魯棒資源分配方案。證明了所提雙層博弈模型均衡的存在性和唯一性。針對用戶采用離散策略集方式,提出一種改進型的分布式雙層Q學習算法。通過仿真表明,本文設計的魯棒模型能有效抑制隨不確定度變化帶來的用戶收益減少的問題。與原算法相比,所提算法在收斂速度和性能上都有較大提升。

[1] ZAHIR T, ARSHAD K, NAKATA A,Interference management in femtocells[J].&, 2013, 15(1): 293-311.doi: 10.1109/SURV.2012. 020212.00101.

[2] HAN Zhu, NIYATO D, SAAD W,Game Theory in Wireless and Communication Networks[M]. Cambridge: UK, Cambridge University Press, 2012: 88-91.

[3] 扶奉超, 張志才, 路兆銘, 等. Femtocell雙層網絡中基于Stackelberg博弈的節能功率控制算法[J]. 電子科技大學學報, 2015, 44(3): 363-368.

FU Fengchao, ZHANG Zhicai, LU Zhaoming,. Energy- efficient power control algorithm based on Stackelberg game in two-tier femtocell Networks[J]., 2015, 44(3): 363-368.

[4] LASHGARI M, MAHAM B, KEBRIAEI H,. Distributed power allocation and interference mitigation in two-tier femtocell networks: A game-theoretic approach[C]. Wireless Communications and Mobile Computing Conference, Dubrovnik, Croatia, 2015: 55-60.

[5] DUONG N D, MADHUKUMAR A S, and NIYATO D. Stackelberg Bayesian game for power allocation in two-tier networks[J]., 2016, 65(4): 2341-2354. doi: 10.1109/TVT.2015.2418297.

[6] ZHU Kun, HOSSAIN E, and ANPALAGAN A. Downlink power control in two-tier cellular OFDMA networks under uncertainties: A robust Stackelberg game[J]., 2015, 63(2): 520-535. doi: 10.1109/TCOMM.2014.2382095.

[7] 吳敏, 何勇. 魯棒控制理論[M]. 北京: 高等教育出版社, 2010.

[8] ZHANG H, VENTURINO L, PRASAD N,Weighted sum-rate maximization in multi-cell networks via coordinated scheduling and discrete power control[J]., 2011, 29(6): 1214-1224. doi: 10.1109/JSAC.2011.110609.

[9] YANG K, WU Y, and HUANG J. Distributed robust optimization for communication networks[C]. IEEE Infocom Conference, Phoenix, AZ, USA, 2008: 1157-1165. doi: 10.1109/ INFOCOM.2008.171.

[10] FUDENBURG D and TIROLE J. Game Theory[M]. Cambridge, MA, USA, The MIT Press, 1991: 29-34.

[11] CHEN X, ZHANG H, CHEN T. Improving energy efficiency in femtocell networks: A hierarchical reinforcement learning framework[C]. IEEE International Conference on Communications (ICC), Budapest, Hungary, 2013: 2241- 2245. doi: 10. 1109/ICC.2013.6654861.

[12] WATKINS C and DAYAN P. Q-learning[J]., 1992, 8(1): 279-292.

邵鴻翔: 男,1983年生,博士生,講師,研究方向為異構無線網絡資源分配、博弈論、電磁頻譜管理.

趙杭生: 男,1962年生,博士,博士生導師,研究方向為異構無線網絡資源分配、電磁頻譜管理.

孫有銘: 男,1988年生,博士生,研究方向為異構無線網絡、超密集組網、資源分配、強化學習.

孫豐剛: 男,1982年生,博士生,講師,研究方向為無線通信傳輸技術、陣列信號處理.

Resource Allocation for Heterogeneous Wireless Networks: A Robust Layered Game Learning Solutions

SHAO Hongxiang①④ZHAO Hangsheng②SUN Youming③SUN Fenggang①

①(,,210007,);②(,210007,);③(,,450000,);④(,471023,)

This paper investigates a resource allocation scheme in heterogeneous wireless small cell networks with imperfect Channel State Information (CSI). In this work, the math expression for the stochastic dynamic uncertainty in CSI is proposed for model analysis and the robust Stackelberg game model with various interference power constraints is established firstly. Then, the Stackelberg game Equilibrium (SE) is obtained and analyzed. Lastly, an improved hierarchical Q-learning algorithm is also given to search the Stackelberg equilibrium strategies of macro-cell base station and small-cell base station. Both theoretical analysis and simulation results verify the proposed scheme can effectively restrain declining revenue due to incomplete CSI and the proposed algorithms can improves the convergence rate, especially applicable to the fast varying communication environment.

Heterogeneous wireless networks; Stackelberg game; Incomplete Channel State Information (CSI); Robust decision; Hierarchical Q-learning; Discrete strategy

TN929.5

A

1009-5896(2017)01-0038-07

10.11999/JEIT160285

2016-03-28;改回日期:2016-10-09;

2016-11-16

邵鴻翔 shaohongxiang2003@163.com

國家自然科學基金(61471395, 61401508),江蘇省自然科學基金(BK20161125)

The National Natural Science Foundation of China (61471395, 61401508), The Natural Science Foundation of Jiangsu Province, China (BK20161125)

猜你喜歡
資源分配下層雙層
新研究揭示新冠疫情對資源分配的影響 精讀
墨爾本Fitzroy雙層住宅
一種基于價格競爭的D2D通信資源分配算法
一類多個下層的雙層規劃問題
云環境下公平性優化的資源分配方法
積雪
陜西橫山羅圪臺村元代壁畫墓發掘簡報
次級通道在線辨識的雙層隔振系統振動主動控制
傳統Halbach列和雙層Halbach列的比較
有借有還
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合