[楊峰 杜翠鳳 蔡十華 王新宇]
隨著數字化、智能化時代的到來,傳統集約化、中心化的云計算無法滿足部分低時延、大帶寬、低傳輸成本的場景,如智慧安防、自動駕駛等的需要。算力必然會從云和端向網絡邊緣進行擴散,形成云、邊、端算力資源多級分布的形態[1]。云計算聚焦非實時、長周期數據的大數據分析,在大模型訓練等領域發揮特長。邊緣計算聚焦實時、短周期數據的分析,能更好地支撐本地業務的實時智能化處理與執行。算力網絡作為解決多級算力資源并存情況下資源統一供給問題的一種新型網絡技術方案,通過網絡控制面分發服務節點的算力、存儲、算法等資源信息,并結合網絡信息和用戶需求,提供計算、存儲、網絡等資源的分發、關聯、交易與調配,從而實現整網資源的最優化配置和使用[2~4]。
算力網絡路由是一種集網、云、算為一體的綜合路由。在網絡入口節點,算力網絡路由根據用戶業務的算力和網絡雙SLA約束,制定算網路由策略。與當前IP拓撲路由顯著不同的是,IP/多協議標簽交換(MPLS)拓撲路由本質上解決的是“去哪里”,即明確路由的網絡目的節點,在參數上體現為IP地址或標簽。在算力網絡架構下,網、云、算綜合路由本質上解決的是“去哪里”+“干什么(執行何種計算服務)”,即在IP路由的基礎上,疊加了算力服務路由[5]。
與傳統的通信網絡不同,算力網絡具有如下一些特點:(1)算力網絡中的算力節點通常遠少于網絡節點;(2)算力節點的算力資源信息是實時變化的,算力資源信息需要計算更新,算力路由表需要較快的更新頻率;(3)網絡節點通常不會頻繁更換設備,網絡拓撲變化頻率較低,所以網絡路由表的更新可以采用相對較慢的頻率。因此有必要針對算力網絡的特點提出一種新型的路由機制。
文獻[6]提出了一種微服務集群架構下的端到端路由技術解決方案,在確保與現網平滑兼容前提下,從協議轉控面角度分析IPv6 段路由(SRv6)和虛擬可擴展局域網(VxLAN)的增強算力路由解決方案。參考文獻[7]在算網融合調度和路由系統中引入服務標識,為IP分組網絡提供了一個面向業務和算力系統的新型接口,從邏輯上構成一個在IP分組網上的Overlay服務子層,使網絡得以提供面向服務標識的路由和尋址功能。參考文獻[8]提出了算力網絡混合式路由調度解決方案,由算力網絡編排管理系統和算網基礎設施兩部分構成,算力網絡編排管理系統負責資源狀態感知與通告,算網基礎設施包括算力資源和網絡資源,算力資源負責向上層系統上報算力狀態信息,網絡資源負責接收上層系統下發的算力狀態信息。
以上關于算力網絡路由技術的研究,都是將算力信息承載到路由協議報文中,算力路由節點需要在傳統的路由表中,基于接收的算力狀態信息,在網絡信息表基礎上維護本地算力信息表?;趯W絡、計算、存儲等多維資源、服務的狀態感知,將算力信息注入路由表,生成“網絡+計算”的新型路由表。
相比于傳統的路由表,算力感知的路由表中新增了“算力參數信息”和“網絡、計算總參數信息”。此方案的優點是不用單獨發明新的路由協議,對傳統網絡的擴展性好,缺點是沒有充分考慮算力網絡中算力節點信息和應用信息靈活變化的特點,需要頻繁在網絡中發布路由信息,增加了網絡的開銷。
現有算力網絡中算力信息的交互是通過路由協議擴展,將算力信息包含在網絡路由報文中發布給網絡中的所有節點,其路由轉發表過于臃腫,控制平面的信息同步頻繁,路由收斂慢。本文對算力網絡的架構和業務特性進行了分析,基于算力網絡特點,提出了一種新的基于網關分區的算力網絡架構及算力路由機制,主要包括以下2個關鍵點。
(1)通過將網絡劃分為不同的區域,每個區域設置一個區域網關節點,負責本區域內網絡路由建立和算力路由建立,可以有效減小網絡路由通告開銷。
(2)由于每個區域的算力節點數量通常是遠小于網絡節點,且算力節點的算力資源信息是實時變化的,而網絡節點通常不會頻繁變化,將網絡路由和算力路由分開建立,并設置不同的更新頻率,可以盡量減小算力網絡中網絡路由維護開銷,而且可以有效提高算力路由的更新頻率。
如圖1所示,本方案主要由算力節點、區域網關節點、轉發節點R、接入節點AR及用戶構成,其中算力節點包括云計算節點C1、邊緣計算節點MEC1和MEC2,區域網關節點包括GW1和GW2,分屬于不同網絡。
圖1 基于分區的算力網絡架構
云計算節點C1:該類云計算節點可以提供的算力資源類型和數量非常豐富,對于單一用戶而言,可以認為其算力資源是接近無限量供應的。云計算節點通常集中部署在電力資源充裕、遠離城區的位置。因此從網絡角度來看,云計算節點到用戶的時延是很難控制與保障的,通常用于處理模型訓練等對時延不敏感業務,如ChatGpt等大模型的訓練。
邊緣計算節點MEC1、MEC2:該類節點靠近用戶設立,時延可以非常低,且不容易被其他用戶干擾,網絡連接的質量可以得到有效的保障。但由于受限于機房條件,其能夠提供的算力資源類型和數量非常有限,通常用于處理推理計算等對時延敏感要求比較高的業務,如車聯網等。
區域網關節點GW1、GW2:區域網關節點作為各區域網絡路由的出口,負責建立到本區域內算力節點、網絡節點及用戶的網絡路由和算力路由,以及維護網絡路由表和算力路由表并定時更新。
轉接節點R:負責區域網絡中網絡路由信息、算力路由信息的轉發。
接入節點AR:接入節點負責為用戶提供有線或者無線(5G、WiFi、LoRa、NB-IoT等)接入服務。
用戶:這里的用戶指需要調用算力開展業務的行業用戶或個體用戶,如AR用戶、車聯網用戶或者大模型研發者,通過無線或有線的方式接入網絡。
結合流程圖來說明本方案的具體實施方式。
網絡路由建立階段,信息交互流程如圖2所示。
圖2 網絡路由建立過程
步驟1 設備部署以后,采用通用的TCP/IP協議建立計算節點、網絡節點和終端設備之間的網絡連接;
步驟2 區域網關節點GW周期性向區域網絡廣播路由更新請求消息;
步驟3 接收到該路由更新請求消息的節點(計算、網絡)向區域網關節點GW回復路由響應消息,該路由更新響應消息中包含區域網絡中各個節點的設備類型、IP地址等信息;
步驟4 區域網關節點GW收到各個節點返回的路由更新響應消息后,建立從本節點到區域網絡中其他節點之間的路由,并更新路由表信息。
由于通常區域網絡中節點的變化不大,因此區域網絡路由的更新可以設置為較低的頻率。
算力路由建立階段,本階段只需要建立算力節點到各個區域網絡節點之間的路由鏈路,信息交互流程如圖3所示。
圖3 算力路由建立過程
步驟1 算力節點評估本節點的算力資源使用情況,并沿著之前建立的路由向區域網關節點發送算力路由建立請求消息;
步驟2 區域網關節點GW收到該算力路由建立請求消息后,記錄該算力節點可以提供的算力資源類型和數量,并建立到該算力節點的算力路由;
步驟3 算力節點周期性評估本節點的算力資源使用情況,并向區域網關節GW點發送算力路由更新消息;
步驟4 區域網關節點GW收到各算力節點發來的算力路由更新消息后,更新到各個算力節點的算力路由表。
由于算力節點的使用情況是實時變化的,因此為了及時反映各個算力節點的使用情況,需要將算力路由的更新設置為較高頻率,以滿足網絡使用需求。
算力路由階段,信息交互流程如圖4所示。
圖4 分區算力路由過程
步驟1 用戶向區域網關節點GW1發送算力需求消息,該算力需求消息包含算力資源的需求類型和數量;
步驟2區域網關節點GW1收到算力需求消息后,查詢算力路由表,查找滿足需求的算力節點,并將滿足需求算力節點的地址反饋給用戶;如果區域網關節點GW1查詢本節點的算力路由表后,發現沒有滿足條件的算力節點,則將該算力需求消息轉發給外網的其他區域網關節點GW2,直到找到滿足需求的算力節點,并將滿足需求的算力節點地址反饋給用戶;
步驟3 用戶使用Ping命令分別測試到滿足需求的各個算力節點的往返時延,根據本身業務需求,選擇合適的算力節點;
步驟4 用戶將計算任務發送給選定的計算節點進行任務處理;
步驟5 計算節點處理完后,反饋計算結果給用戶。
本文針對算力網絡的業務特點,提出了一種基于分區的算力網絡架構和路由機制,通過將網絡劃分為不同的區域進行分區管理,由區域網關負責本區域內網絡路由建立和算力路由建立,并將網絡路由和算力路由分開建立,設置不同的更新頻率,可以盡量減小算力網絡中網絡路由維護開銷,提高算力路由的更新頻率。