?

基于數據和知識驅動的低軌衛星資源智能調度研究綜述

2024-01-12 04:50李宛靜李加洪劉昊鈞張更新
空間電子技術 2023年6期
關鍵詞:波束調度驅動

李宛靜,李加洪,張 晨,劉昊鈞,張更新

(1.南京郵電大學 通信與信息工程學院,南京 210000;2.中國空間技術研究院西安分院,西安 710000)

0 引言

各通信領域權威標準化組織認為,引入衛星通信網絡的空天地一體化網絡可以有效解決當前第五代移動通信系統(5th generation mobile communication technology, 5G)基站覆蓋不足的問題。同時,衛星通信網絡可以很好地為全球空天地全域范圍內的用戶提供寬帶接入服務[1]。

與地球靜止軌道(geostationary earth orbit, GEO)衛星和中地球軌道(medium earth orbit, MEO)衛星相比,低軌(low earth orbit, LEO)衛星具有低傳播時延、高時效性、低鏈路傳輸損耗等優勢[2],但在低軌衛星的發展過程中也面臨著如下挑戰。一方面,LEO衛星的星上功率資源嚴重受限;另一方面,低軌衛星的覆蓋區域不固定導致信道環境、用戶終端分布和業務需求情況不斷動態變化[3]。目前,大多數部署的衛星通信系統在很大程度上仍依賴于人類的專業知識和人工干預,這將對衛星通信系統的性能造成一系列影響。首先,人為參與系統控制活動會導致高運營支出和系統時延[4]。其次,快速變化的無線電環境需要自主適應機制,這是人為干預無法提供的。最后,衛星通信服務于海量用例和場景將產生大量的數據。綜上,設計合理的資源調度策略以使衛星能夠自主采取可靠的行動是有益且必要的。

為了合理利用和分配星上資源以滿足業務需求,研究人員從基于數學模型驅動的資源調度方法逐漸轉向數據驅動的資源調度方法。但上述方法存在精確度低、時效性差等問題,無法較好滿足衛星通信低時延的要求。為了在滿足低軌衛星通信低時延要求的同時充分發揮模型和數據驅動各自的優勢,研究人員提出將基于理論模型和專家經驗的領域知識與神經網絡方法深度融合,設計數據和知識聯合驅動的資源調度方法[5]。

本文針對數據和知識聯合驅動的低軌衛星智能資源調度進行綜述。首先,概述數據驅動和知識驅動方法并對其特點進行分析。其次,對不同的低軌衛星資源調度策略進行綜述,分為傳統數學模型驅動的低軌衛星資源調度方法、數據驅動的低軌衛星資源調度方法以及未來數據和知識聯合驅動的資源調度方法。最后,對本文所提及的3種資源調度方法進行總結,并展望低軌衛星資源調度方法的未來研究方向。

1 數據驅動和知識驅動的方法概述與特點分析

從本質上來看,數據驅動方法與知識驅動方法都源于對人類知識的總結和拓展,都是以一定的數學理論為基礎。雖然兩種方法都以數學理論為骨架,但仍然存在一定區別,數據驅動方法中經驗模型的功能由樣本數據決定,而知識驅動方法中則由功能和需求的特點決定機理模型的形式[6]。本節先介紹數據驅動方法,其次對知識的定義和分類進行介紹,進一步介紹知識驅動方法,最后對知識融入的途徑進行介紹。

1.1 數據驅動方法

數據驅動指通過對數據的分析和實驗驗證等手段,以事實為依據來制定決策和解決問題。數據驅動強調以事實為依據,根據事實進行決策。數據驅動的實現過程是通過移動互聯網或者其他的相關軟件為手段采集海量的數據,將數據進行組織形成信息,之后對相關的信息進行整合和提煉,在數據的基礎上經過訓練和擬合形成自動化的決策模型。因此,數據驅動的過程非常復雜,需要有數據和不斷的輸入,需要模型根據比對決策結果和現實數據把偏差信息反饋給機器學習,在其后不斷的機器學習迭代過程中進行自我完善,數據驅動的流程圖如圖1所示。

圖1 數據驅動流程圖Fig.1 Data-driven flowchart

根據模型分析所使用理論工具的不同,文獻[6]將數據驅動方法分為統計分析方法和人工智能方法。統計分析方法更關注于分析樣本數據或數據集的特性,而人工智能方法更關注于構建描述研究對象的近似模型。統計分析方法嚴格遵循數學推導,相比人工智能方法有更好的解釋性,并且統計分析方法的性能不那么依賴于樣本數據的質量和數量。人工智能方法雖然在可解釋性和樣本依賴性上略遜一籌,但它在發現輸入輸出數據間的非線性關系方面具有優勢,并且可以在新的樣本數據產生時快速給出結果。

目前大多數關于數據驅動方法的研究都集中于人工智能方法,尤其是機器學習(machine learning, ML)。機器學習是人工智能的一個分支,通過利用從數據中獲得的經驗和知識來進行計算、統計和預測。機器學習包括深度學習(deep learning, DL)和強化學習(reinforcement learning, RL)。深度學習允許模型在沒有明確編程的情況下根據大型數據集進行分類、預測或決策。三者與人工智能之間的關系如圖2所示[7]。此外,機器學習從訓練方法上可以分為監督學習、無監督學習和半監督學習[8]。監督學習從標記的訓練樣本中學習來解決分類或回歸問題,無監督學習從未標記的數據中學習來實現聚類或數據降維,半監督學習算法從不完整的訓練數據中開發數學模型,其中部分樣本輸入沒有標簽[9]??梢詫W習和模擬人類的人工智能通常是由深度學習+強化學習實現的。

圖2 人工智能、機器學習、強化學習和深度學習關系圖Fig.2 Relationship graph of artificial intelligence, machine learning, reinforcement learning and deep learning

傳統數據驅動的機器學習模型如圖3所示[10]。設x,y,θ分別表示神經網絡的特征、數據集的標簽和參數。對于輸入、輸出和參數的所有可能值的集合分別被稱為輸入空間X、輸出空間Y和參數空間Θ。數據驅動模型的任務是將數據集的實例從X映射到Y,同時在Θ中找到全局最優解。然而,在數據驅動的機器學習網絡之間,X和Y的相關性難以捉摸,它不得不依靠龐大的數據集而不是數學模型進行優化,這導致了網絡結構的高復雜性和高訓練成本。

圖3 數據驅動的機器學習模型Fig.3 Data-driven machine learning model

雖然數據驅動方法有自身的優勢,但該方法存在嚴重的“黑盒”問題,無法考慮問題全局特征,同時嚴重依賴歷史數據[11],這制約了其在實際系統上的應用。此外,深度學習的可解釋性不足,這限制了其在無線通信系統等高可靠性場景中的應用。

1.2 知識的定義與分類

知識的定義為:(1)通過經歷或教育獲得的專業知識和技能,對某一學科的理論或實踐理解;(2)在某一特定領域或總體上已知的知識、事實和信息;(3)通過對事實或情況的經驗獲得的認識或熟悉程度。根據定義,知識可以分為隱性知識和顯性知識兩種。在知識管理領域,隱性知識的概念是指一種只有個人知道的知識,這種知識很難與組織的其他成員交流。易于交流的知識稱為顯性知識,顯性知識是已經或能夠被表述、編纂和存儲在特定媒介中的知識[12]。

在網絡領域,文獻[5]重新對知識進行定義,即網絡知識是對用戶主體、業務需求的個性化特征、演變規律等的整體描述,是對網絡資源調度過程中的邏輯規則、理論算法等的總結。從知識來源角度出發,文獻[13]將其分為3大類:相對專業化和形式化的科學知識、日常生活中的世界知識以及更直觀的專家知識,對于3類知識,具體描述如下。

1)科學知識:科學知識包括技術、工程和數學。這些知識通常是通過科學實驗進行形式化和明確驗證的。例如物理學的普遍定律,基因序列的生物分子描述或物質形成的過程。

2)世界知識:世界知識指的是幾乎所有人都知道的日常生活中的事實,因此也可以稱為一般知識。通常,它是直觀的并且可以通過人類對周圍世界的推理來隱含地驗證。因此,世界知識通常描述的是人類感知到的世界中出現的物體或概念之間的關系,例如鳥有羽毛而且會飛。此外,世界知識還包括語言學。

3)專家知識:專家知識是由特定專家掌握的一組知識。在專家的圈子里,它也可以被稱為常識,這類知識是非正式的,并且需要被形式化,例如人機界面。

為了滿足當前低軌衛星資源調度的復雜性和精確性,從越來越多的研究中考慮將專家知識融入數據驅動的資源調度方法,以降低系統復雜度并提升時效性和可解釋性。

1.3 知識驅動方法

知識驅動方法借助已有的領域知識、專家知識等,分析研究對象的運行機制和原理,并建立數學模型來描述因果關系。一方面,知識驅動方法通過指定一系列邏輯規則以增強數據驅動方法的穩健性和可解釋性,并降低訓練樣本大小、提升系統的學習性能;另一方面,通過知識的共享和遷移,來提升資源調度的決策速度[14]。

同樣地,根據所使用理論工具的不同,知識驅動方法可分為模式分析、概率模型和優化模型等。模式分析方法注重狀態量和觀測量之間的關系,經過大量場景驗證后形成模型或規則,但該方法存在主觀性且需要大量實驗時間來優化和改進模型。概率模型方法側重于事件發生的可能性即概率,根據假設的特定條件或參數,結合數據來形成模型的參數與形式。概率模型方法也因此易于和數據驅動方法結合。優化模型方法通過算法求解帶約束條件目標的最優解或可行解,雖然建模過程簡單,但求解過程相對復雜。在實際應用中,3種方法相輔相成,需要結合實際需求選擇合適的方法[6]。

考慮到數據驅動機器學習的缺點,文獻[10]提出了知識驅動機器學習(knowledge-driven machine learning,KDML)模型,該模型旨在利用領域知識簡化ML網絡結構,降低其訓練成本,提高其可解釋性。雖然KDML是建立在數據驅動ML方法基礎上的,但它更強調領域知識的提取和開發。文獻[15]將無線領域知識定義為對各種無線通信和無線網絡中涉及的所有問題的描述、理解和認知的總稱。換句話說,無線領域知識包括對無線用戶、傳輸、系統、網絡、業務等的描述、理解和認知。在無線領域知識定義的基礎上,從無線領域知識的特征變量和數據模型出發,進行無線領域知識的數據挖掘。

KDML的基本模型如圖4所示[10]。在數據驅動的ML中,將X映射到Y是導致神經網絡高度復雜性的關鍵因素。相比之下,KDML的目的是通過在X輸入后續ML模塊之前降低X的維數來簡化整個學習網絡。在機器學習中,改變輸入數據空間的常用方法是特征提取和特征選擇,這兩者都可以實現空間轉換和降維。

圖4 知識驅動的機器學習模型Fig.4 Knowledge-driven machine learning model

KDML最重要的特點是利用領域知識來重建學習任務,并使學習模塊的輸入空間與其輸出空間保持一致。神經網絡的輸入特征數量會明顯減少,訓練成本也會相應降低。此外,知識模塊也可以直接給出學習問題的近似解。因此,即使學習模塊失敗了,KDML模型仍然能夠輸出近似解。同時,KDML模型在領域知識和機器學習之間具有清晰的交互機制,它將前者的輸出作為后者的輸入,使得KDML模型具有更高的可靠性和可解釋性。

目前,知識驅動方法的應用領域越來越廣泛,下一小節將通過分析知識融入的途徑來分析數據和知識聯合驅動資源調度方法的實現形式。

1.4 知識融入的途徑

如上所述,現有使用ML的資源調度方法大多忽略了領域知識的固有好處。隨著越來越多的學者開始研究數據和知識聯合驅動的資源調度方法,目前關于如何將知識引入數據驅動方法的研究有3種研究類型。

(1)利用現有數據中的知識并將其應用于特定的ML

文獻[16]考慮到監督學習的關鍵問題之一是訓練集大小的不足,利用可能在該領域可用的先驗知識或可以從原型示例中學習到的信息來解決泛化能力不足。通過創建虛擬示例來討論使用先驗知識的概念,從而擴大有效訓練集的大小。在某些情況下,這個想法在數學上等同于將先驗知識作為正則化器,這表明該策略是動機良好的。

(2)將知識嵌入機器學習過程

文獻[17]利用正則化理論作為知識來解決ML的過擬合問題,其中ML的一些學習參數被限制在一定的范圍內。文獻[18]進一步提供了將約束嵌入正則化框架的充分條件,這也使得機器學習算法在不同的數據集上表現更好。

(3)將成熟的傳統算法和ML方法的知識結合來解決實際問題

文獻[19]開發了一種知識輔助深度強化學習算法來設計5G蜂窩網絡中的無線調度器。該文獻提出了一個理論深度強化學習(deep reinforcement learning, DRL)框架,其中使用無線通信的理論模型來制定DRL中的馬爾可夫決策過程。為了縮短收斂時間并提高每個用戶的用戶服務質量(quality of service, QoS),設計了一個知識輔助的深度確定性策略梯度(knowledge-assisted deep deterministic policy gradient, K-DDPG),該DDPG采用了調度器設計問題中的專家知識。仿真結果表明,該方法顯著縮短了DDPG的收斂時間,實現了比現有調度器更好的QoS。

綜上,為了更好地理解知識的融入方式,本文從知識分類出發,將不同種類知識的表征形式和融入途徑歸納為如圖5所示[5]。

步驟2 對和進行脈沖壓縮,計算和脈壓后峰值位置x(n)和xd(n),相應的位置偏移量Δn=x(n)-xd(n),并對定標信號進行補償。

圖5 知識的分類、表達形式及融入途徑Fig.5 Classification, expression and integration of knowledge

2 低軌衛星資源調度方法概述

傳統的低軌衛星資源調度方法分為基于優化理論等數學模型驅動的調度方法和基于深度強化學習等數據驅動的調度方法?;跀祵W模型驅動的研究方法在前計算機時代有其合理性和可解釋性,但是在計算機快速發展的今天,模型驅動的方法就存在諸多問題,如算法準確度低、精準性差等。數據的增加和計算機的發展帶動了數據驅動的資源調度方法迅速發展,其優勢在于可以用大量的離線訓練換取在線計算時間,但存在可解釋性差、泛化能力差等問題。學術界開始考慮融合各個方法的優勢,將數學模型、深度強化學習和現有的知識融合,以達到在訓練樣本有限的情況下提升訓練速度并增強可解釋性和泛化性。由此誕生了數據和知識聯合的資源調度方法。本節將從3個方面介紹低軌衛星資源調度方法,分別是傳統數學模型驅動的低軌衛星資源調度方法、傳統數據驅動的低軌衛星資源調度方法以及未來數據和知識聯合驅動的調度方法。為了更加清晰直觀地展示本文所調研的內容,構建低軌衛星資源調度策略的知識圖譜如圖6所示。

圖6 低軌衛星資源調度方法知識圖譜Fig.6 Knowledge graph of resource scheduling methods for LEO satellite

2.1 傳統數學模型驅動的低軌衛星資源調度方法

由于地面用戶的時空分布不均,導致各波位間的業務需求不平衡,為了滿足日益增長的用戶業務需求,早期的低軌衛星資源調度方法大多利用數學模型驅動方法來解決資源分配問題。傳統數學模型驅動的低軌衛星資源調度方法包括但不限于凸優化算法、迭代算法、啟發式算法等。該類方法的優點是可解釋性強,在衛星系統中對系統性能的提升也較為明顯,可以很快解決業務和資源不匹配的問題。

文獻[20]利用遺傳算法對一個實際系統的跳波束時隙規劃進行了優化。結果表明,與傳統系統相比,該系統的容量增益可以達到30%,雖然算法有一定的優勢,但存在算法復雜度高、時效性低、不能適應業務動態變化場景等問題。文獻[21]假設同信道干擾可以忽略不計,利用凸優化方法來解決資源分配問題。文獻[22]針對業務請求分布不均勻的情況,研究了基于遺傳算法的動態波束跳變方法,以提高資源利用率。遺傳算法在尋找最優解的過程中自適應調整搜索空間,是一種能夠獲得全局最優解的高效并行方法。在此基礎上,該文獻還采用了一種基于時分復用的多動作選擇方法,有效地降低了算法的復雜度。仿真結果表明,該方法能夠實現滿足用戶需求的智能跳波束,有效提高系統性能。文獻[23]通過聯合功率控制和波束形成,提出了一種迭代算法來獲得優化的功率分配策略。結果表明,聯合波束形成方案優于固定波束形成方案,且可以保障系統安全性。文獻[24]研究了衛星系統前向下行鏈路中資源分配的容量優化算法并提出了兩種啟發式算法,根據流量請求來分配容量資源。結果表明,所提算法在可用容量方面比傳統系統有一定的提升。

綜上所述,傳統數學模型驅動的低軌衛星資源調度方法在解決初期業務量和資源不匹配方面有一定的優勢,它的模型依據通常是有一定研究基礎的數學理論等。但該方法存在復雜度高、建模時間長、成本昂貴等實際應用問題。隨著計算機領域的發展,研究人員逐漸從數學模型驅動轉向數據驅動,以尋求更為簡單、高效的資源調度方案。

2.2 數據驅動的低軌衛星資源調度方法

傳統數學模型驅動的資源調度方法通常是輸入數據后根據一定的模型來得到相應的結果,而數據驅動則會根據訓練過程中的變化相應對原始模型做出改變和優化。二者一個非常明顯的區別在于,模型驅動不會改變原始模型,但數據驅動會改變模型。數據驅動需要大量數據,這就需要系統不斷采集和輸入以實現較理想的結果,然后需要模型根據比對決策結果和現實數據把偏差信息反饋給機器學習,在之后不斷的機器學習迭代過程中自我完善,因此數據驅動還存在反饋過程。隨著低軌衛星的不斷發展和研究學者們的不懈努力,已有不少數據驅動的低軌衛星資源分配方法實現應用。數據驅動的低軌衛星資源調度方法系統架構如圖7所示。衛星建模為智能體,地面用戶建模為環境。衛星寬波束收集地面業務請求發送至星上緩沖區等待數據處理,監控器收集信道狀態、波束分配功率等信息并發送至控制器??刂破魍ㄟ^數據驅動的資源調度算法訓練得到功率資源分配結果并通過分配器進行功率分配和波束調度。

圖7 數據驅動的低軌衛星資源調度方法系統架構Fig.7 System architecture of data-driven resource scheduling method in LEO satellite

文獻[25]提出了一種基于深度強化學習的多目標優化(multi-objective optimization, MOP)算法。所提算法基于DRL和MOP技術,對動態變化的系統環境和用戶到達模型建模,以歸一化處理后的頻譜效率、能量效率和業務滿意度指數的加權和作為優化目標,實現了系統和用戶累計性能的優化。仿真對比表明,所提算法可以更好地解決面向多波束衛星系統的多目標優化問題,系統性能和用戶滿意度優化結果較好,且收斂快、復雜度低。文獻[26]提出了一種基于DRL的動態波束圖案和帶寬分配策略,該方案可靈活地利用時間、空間和頻率3個自由度??紤]到帶寬和波束圖案的聯合分配會導致動作空間溢出,文中提出了一種協同多智能體深度強化學習(multi-agents deep reinforcement learning, MADRL)的框架,其中每個智能體只負責一路波束的照明分配或帶寬分配。智能體可以通過共享成果來學習協作以實現通信目標,即最大吞吐量和最小單位間時延公平性。仿真結果表明,離線訓練的MADRL模型能夠實現實時的波束圖案和帶寬分配,以匹配非均勻和時變的流量請求。此外,當流量需求增加時,所提模型具有良好的泛化能力。

綜上,基于數據驅動的低軌衛星資源調度方法多數采用前文所述的人工智能方法,具體來說可以是強化學習、深度學習或者深度強化學習等方法。其中深度強化學習通過結合RL和DL,完成系統特征的學習并智能地執行資源分配策略[27]。系統利用RL不斷與環境進行交互獲取樣本,再利用DL提取樣本特征,完成當前場景到資源分配策略的映射[28]。雖然當前的數據驅動方法對低軌衛星系統性能已有大幅提升,但仍需對訓練時間、樣本空間大小等進行優化,這就需要研究數據和知識聯合驅動的資源調度方法。

2.3 未來數據和知識聯合驅動的資源調度方法

和數據驅動不同的是,數據和知識聯合驅動的資源調度方法在訓練過程中融合了知識。這些知識包括上文提及的專家知識、領域知識等。通過知識的融入可以實現減少訓練周期、減少訓練參數、改進算法收斂時間等目標。文獻[29]提出了一種帶保護機制的知識輔助強化學習框架,如圖8所示。智能體接收到初始狀態后,根據策略生成動作,并將其傳遞給保護器。然后保護器通過求解優化問題,從融入了專家知識、領域知識等信息的分析模型中得到標準動作,并通過標準動作對智能體生成的動作進行調整產生新的動作,稱為執行動作。執行動作是在環境中實際執行的動作。在確認執行動作安全后,執行動作將被同時發送給環境和分析模型。智能體從環境中收集獎勵,同時從分析模型中收集指導獎勵,這兩種獎勵結合起來產生更新獎勵,策略使用更新獎勵來更新自己。在存儲數據并更新智能體策略之后,根據下一個狀態生成下一個智能體動作。如果分析模型認為執行動作是不安全的,且執行動作未通過安全確認,則保護器將拒絕執行動作,并將其發送給智能體?;谠摽蚣?本文從知識是否在系統中遷移出發,將數據和知識聯合驅動的資源調度方法分為基于本地知識的資源調度方法和基于知識共享和遷移的資源調度方法。

圖8 知識輔助的強化學習系統架構Fig.8 Architecture of knowledge-assisted reinforcement learning system

2.3.1 基于本地知識的資源調度方法

基于本地知識的資源調度方法,是從本地網絡訓練過程中學習到的知識出發來指導資源調度,知識在系統中沒有過多的遷移或共享。本文按照知識融入的途徑來綜述現有的低軌衛星資源調度方法。

將知識嵌入機器學習過程的資源調度方法會對網絡結構、訓練參數等產生一定的影響。文獻[30] 從保證各波束間業務公平性、最小化實時業務傳輸延遲、最大化非實時業務傳輸吞吐量等多目標出發,研究了DVB-S2X衛星跳波束的最優策略。文獻采用無模型多目標深度強化學習方法,通過與環境交互學習最優策略。為了解決動作維度災難問題,將領域知識融入學習過程提出了一種基于雙環學習(double-loop learning, DLL)的多動作選擇方法。并利用深度神經網絡對其多維狀態進行了重新表述和獲取。結果表明,該方法能夠同時實現多個目標,并能根據用戶需求和信道條件智能地分配資源。然而,該方法只考慮了跳波束的情況,并假設每個波束共享整個帶寬,這將導致波束之間產生嚴重的共信道干擾。同時,由于視衛星為單智能體,因此動作空間會隨著波束的增加而呈指數增長。

將成熟的傳統算法和ML方法的知識結合來解決實際問題的資源調度方法,以ML的相關知識為基礎,融合其他算法以提升系統性能。文獻[31]以傳統強化學習算法為基礎,結合了深度學習提取信道容量、用戶業務量、時延等特征的能力與強化學習進行波束調度決策的特點,提出了基于深度強化學習的動態波束調度算法。仿真表明,結合傳統算法和ML知識的算法可以降低系統時延并提高系統吞吐量。

綜上所述,基于本地知識的資源調度方法相比數據驅動方法對低軌衛星系統的性能有一定的提升,在一定程度上降低訓練成本并減少動作空間大小,加快了訓練的收斂速度。但存在對實際應用中影響因素考慮不夠全面的問題。

2.3.2 基于知識共享和遷移的資源調度方法

基于知識共享和遷移的資源調度方法可以更好地在不同網絡之間實現信息和策略更新,因此也更適用于現實系統。它可以很好地適應業務快速變化、服務需求多樣性的場景,以滿足現代通信的要求。本文將這部分分為基于無監督強化學習的遷移方法和基于有監督深度學習的遷移方法。

無監督強化學習側重讓算法自行發現數據集中的規律和模式,基于無監督強化學習的知識遷移資源調度方法通常先訓練模型再對數據進行遷移。文獻[32]提出并評估了低軌衛星的在線決策算法。文中提出了兩種基于RL的解決方案,以克服傳統動態編程(dynamic programming, DP)的計算負擔。第一種方法是基于Actor-Critic方法并結合時序差分(temporal-difference, TD)學習的方法。這個方法中有兩個角色,第一個是Actor角色,在一些資料中也稱為“演員角色”。這個角色是一個相對獨立的模型,可以把它理解成一個神經網絡,任務就是學動作。優化它的過程和優化一個普通DQN網絡沒有太大的區別。另一個是Critic角色,也稱作“評論家角色”。它負責評估Actor的表現,并指導Actor下一階段的動作,這個角色也是一個獨立的模型。在這種思維的指導下,估值學習也是一個獨立的、可優化的任務,需要通過一個模型進行擬合。動作輸出也是一個模型,通過一個模型進行擬合。這種方法中,兩個角色(網絡)互相交互并訓練模型,最后達到一個較好的效果;第二種方法是基于Critic-only的方法,稱為樂觀時序差分學習方法。該算法在存儲需求、計算復雜性和計算時間等方面都對系統性能有一定提高??傮w結果表明,RL框架可以很好地提升低軌衛星系統性能。

有監督深度學習相比無監督強化學習有一個目標值,訓練過程中不停地和目標值進行比對以改進模型?;谟斜O督深度神經網絡的遷移方法通常是以領域知識或歷史數據為基礎,構建資源調度的神經網絡模型或初始化模型參數[5]。文獻[28]提出一種基于遷移深度強化學習(transfer deep reinforcement learning, TDRL)的低軌衛星跳波束資源分配方案。采用DRL算法,將衛星數據包緩存量、信道狀態重構為狀態空間,執行小區的波束調度、功率分配決策。根據小區數據包的積累量定義獎勵函數,使LEO資源分配過程更加自動化和智能化。在新的低軌衛星接入網絡時需要重新獲取樣本數據并再次訓練模型,因此為了降低模型的訓練成本,使模型更快速地適應LEO動態變化的環境,文獻提出將遷移學習(transfer learning, TL)和DRL算法結合起來。利用TL將模型訓練得到的知識遷移至新的模型以引導新模型更快地收斂而非從零開始。結果表明,TDRL算法在保證用戶服務質量的同時可以提升系統吞吐量并最小化包平均時延。

綜上所述,基于知識共享和遷移的資源調度方法讓知識在不同網絡中實現共享,可以很好地降低新接入衛星的模型訓練收斂時間,同時仍能提升系統性能。在實際中比基于本地知識的資源調度方法有更好的應用前景。但現有研究沒有考慮到衛星網絡中多種知識的融合和利用。

3 結論

本文針對數據和知識驅動的低軌衛星資源智能調度研究進行了綜述。首先概述數據驅動方法和知識驅動方法并分析其特點,其次對低軌衛星資源調度方法進行綜述。傳統數學模型驅動的方法雖然可解釋性強,但由于存在復雜度高、求解困難等問題,已經逐漸被數據驅動方法取代。數據驅動方法大大降低了求解復雜度,但為了得到較好的訓練結果往往需要大量樣本數據,且訓練時間長、可解釋性差、泛化性差。由此,研究學者考慮采用知識和數據聯合驅動的調度方法來提升系統的穩定性。在未來的研究中,更應注意以下幾個方面的突破:(1)現有數據和知識聯合驅動資源調度方法中融合的知識相對單一,如何在保證算法低復雜度的基礎上實現多種知識融合;(2)資源調度方法的設計過程離不開跳波束圖案設計,如何在波束成形、網絡拓撲等層次上設計更加靈活的有效載荷;(3)面對未來業務種類更加多樣、應用場景更加豐富多元的情況,如何將不同領域和場景的知識提取并融入低軌衛星通信系統。綜上,本文總結了低軌衛星資源智能調度方法并為后續研究奠定基礎。

猜你喜歡
波束調度驅動
基于模糊PI控制的驅動防滑仿真系統分析
屈宏斌:未來五年,雙輪驅動,砥礪前行
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
軌旁ATC系統門控柜接收/驅動板改造
一種基于負載均衡的Kubernetes調度改進算法
虛擬機實時遷移調度算法
毫米波大規模陣列天線波束掃描研究*
圓陣多波束測角探究
Helix陣匹配場三維波束形成
基于S3C6410的Wi-Fi驅動移植實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合