?

數據中心網絡智能運維的帶內遙測技術

2021-01-11 22:13
數字通信世界 2021年9期
關鍵詞:收集器數據包數據中心

魏 航

(思科系統(中國)網絡技術有限公司,北京 100022)

0 引言

隨著數字化轉型企業對云計算基礎架構依賴程度的提高,融合了大數據和人工智能最新發展的智能運維(AIOps)逐漸成為提高基礎架構服務質量的關鍵[1]。Gartner在AIOps的研究報告[2]中指出,AIOps平臺應由監測(Observe)、處理(Engage)和行動(Act)三個部分結合大數據和機器學習組成一個閉環結構,而監測是觸發整個閉環反饋的基礎和關鍵,沒有高質量的監測,就缺乏人工智能所需的大數據基礎,因而也無法形成智能化的處理和相應的主動運維行為。但在性能飛速提升的數據中心,數據平面監測是一直以來的難點。本文將探討在高速網絡環境中進行數據平面監測的方法和發展趨勢,為智能運維系統的建設提供參考。

1 傳統方法的問題

長期以來監測數據中心網絡采用的也是傳統網絡常見的周期輪詢、周期探測、事件觸發異常告警或事件觸發主動探測等手段,其共同特點是采用從一個網管中心出發主動向被管節點拉?。≒ull)數據的模式,能夠以最低開銷和可控數據規模收集一個管理模型所需的基本數據,SNMP(簡單網絡管理協議)網管、Syslog、Ping、Traceroute、SLA探針以及流量鏡像分析工具等本質上都屬于此類數據收集方式。其開銷低、使用廣泛,但缺點是不能展示業務流量的全貌,在輪詢周期內或是探測包發送的間隙,都是數據收集的盲點;其次以CPU運行軟件的方式,也無法在高速數據平面中更密集和更多維度的提供測量,導致在大型云數據中心內普遍出現的閃斷丟包、流量微突發、延遲抖動等網絡異常無法被偵測,累積形成的故障無法預警和溯源,這都對追求極致體驗的數字化轉型類業務構成了較大的威脅。

2 新興的帶內遙測技術

更適合大數據平臺的數據采集方式不能以某個數據采集點為中心構建,而應當充分利用大規模分布式處理的思維,把從被管節點被動收集的Pull模式轉變為被管節點主動向收集器推送(Push)數據的模式。該模式特點是充分發揮每個被管節點本地的處理能力,以更密集的時間粒度和更多維度的管理狀態把本地信息向外報告,數據采集能力隨著數據中心規模的擴展同步增長。這種分布式數據采集方法也稱為“遙測”(Telemetry)。但即便采用分布式處理后,面對現代數據中心高密度、高帶寬的帶內數據平面的采集需求,仍然面臨處理性能的巨大考驗。因而普遍需要借助被管節點的大規模專用集成電路(ASIC),同時在收集和后續處理上使用由大量服務器構成的大數據分布式處理集群。下面將著重探討在被管節點一側的遙測技術。

在數據中心場景中被管節點往往是網絡交換機,因而為網絡設備制定硬件可編程語言標準的開源組織P4(p4.org)對帶內網絡的遙測(In-band Network Telemetry,INT)做了功能分類和定義[3],基本涵蓋了主流的INT技術實現方式。

2.1 INT eMbed Data(INT MD)

“內嵌數據”(MD)方式是指在用戶帶內業務數據包中內嵌管理數據,這樣當數據包經過各個被管節點時便把路徑上的狀態信息附著在數據包中。到末端節點時,全路徑上的管理信息會在數據包內形成一個逐跳堆疊起來的管理數據堆棧,末端節點再將該數據堆棧取出,封裝到連接收集器集群的隧道中完成信息的推送。

在工程實踐中,為避免附加數據堆棧給用戶關鍵業務數據包帶來額外的處理和轉發延遲,也為避免MTU溢出風險和改動業務包負載引起的安全合規顧慮,往往采用不觸碰原始數據包,而是在起始節點將原始數據包的包頭克隆出來形成新包,將逐跳的管理信息附著在新包上。這樣由于包頭相同,新的管理包仍沿與業務數據包一致的路徑收集信息,達到與后者收集信息近似的效果。

MD方式的優點是獲取了全路徑上最接近用戶實際傳輸狀態的第一手信息,而且信息載量理論上可以非常大,因而功能強大且可擴展。但這種機制也有明顯缺陷,首先網絡異常出現頻率相比數據包轉發頻率相距懸殊,因而逐包攜帶信息的冗余度非常大,大量重復的數據對末端節點的導出和收集器的分析也是巨大的壓力;但采用抽樣的方式又可能錯過各種突發和趨勢變化等重要信息;而且也要考慮到數據包可能因為安全策略、隊列擁塞等原因被中途丟棄,因而沒有一定程度抽樣密度是達不到大數據所需的數據量要求的。

因而MD方式在起始節點要精心設計算法,過濾出對業務有潛在沖擊、值得逐包監控的流,同時對攜帶的信息類型也要做權衡;在末端節點還需有復雜的去重機制以減輕自身和收集系統的壓力,比如通過統計分析算法得出更加明確的異常事件而非將每一個包的全量監測信息上報。整個機制增加了網絡邊緣設備的資源占用和處理的復雜性,而邊緣往往是低端接入設備,硬件成本是極大挑戰。

2.2 INT eMbed instruct(X)ions(INT MX)

如果沿業務流路徑攜帶的并非管理數據本身,而是管理指令(信令),被攜帶數據量可大幅縮減,甚至可直接嵌入到用戶數據流包頭字段而無需復制現有數據流,這種方式稱為“內嵌指令”(MX)。明顯MX對設備的處理能力和資源要求都較低,但指令必須與設備自身功能配合,也限制了管理的通用性,因而更多被用于對特定關鍵指標的測量,比如端到端的丟包與延遲。

與傳統Pull模式引入外來探測包的測量方式不同,MX方式通過嵌入指令實現用真實用戶數據包作為測量探針,不僅避免引入干擾,也讓數據更為真實。常用“周期著色”法,比如每30秒對起始節點發出的數據包打上特定測量標記,同時所有末端節點對流入的有特定標記的包進行統計,然后收集器對發出和收到的標記包數進行差值計算,就可精確的確定單位周期真實的丟包數量。由于不同周期的標記不同,所以不同周期的計數不會因為傳輸延遲而混疊。如果該過程加入了高精度時間同步協議(PTP),則可在初始節點和末端節點驗證時間戳差值而統計出延遲和抖動。

MX方式用較低的開銷實現了全路徑、全流量的測量,但其功能有限,比如丟包延遲的精確位置、原因等信息無法給出。

2.3 INT eXport Data(INT XD)

“輸出數據”(XD)方式則力求在開銷和功能之間找到平衡點。XD方式不將管理信息攜帶在每個用戶數據包內,而是由每個被管節點直接把管理信息推送給收集器。這樣做的優勢是將處理分散到所有中間轉發節點而非集中在起始和末端,每個轉發節點盡可能簡化處理,比如無須分析大量歷史數據,而是僅處理一個短時間周期(如1秒)的信息;無須處理端到端全路徑信息,而僅處理本跳局部信息;無須逐包處理,而是對歸并后的流(比如按五元組歸并)處理管理信息,這樣可以大大降低每個節點的資源占用和處理復雜度,而全景化的匯總、關聯、拼接、分析等工作交給收集器所在的大數據集群完成。所以XD理論上可以提供較高的信息載量和靈活的功能擴展,卻不過多消耗節點資源,因而可以在包括低端接入設備在內的全網內全時、全量開啟,更具實用價值。

XD也有一些制約,其信息碎片化程度高,大數據集群在關聯拼接時需要網絡有預設的拓撲或具備PTP時間戳以便排序;在分類批次設計中五元組流表與轉發流水線的硬件整合也是難點,一方面需要對關鍵指標完成實時統計、事件觸發和流表記錄,同時對資源占用和處理性能要求要能適于部署在低端邊緣設備上,這些都需要更高水準的硬件芯片設計來實現。

3 商用化現狀和未來發展

INT MD功能全面,但對資源和處理性能要求高,商用化多實現在12.8T-25.6Tbps級別的單芯片系統上;INT MX相對輕量化,但功能有限,對系統功能整合度要求高,多實現在廠商特定功能集內;INT XD做到了功能和開銷的相對平衡,但對芯片設計要求高,采用不同權衡策略的芯片功能差異也較大,需要不同企業在AIOps設計時根據需求詳細考查。從未來發展上看,通用企業數據中心會偏重將帶內遙測通過XD方式實現,而運營商和互聯網企業在升級到100/200G接入或普遍引入智能網卡之后,會重點考慮MD功能。當然工程上的實現并不絕對,不同解決方案會走向某種模式為主、其他模式補充的混合形態,以追求性能、功能與代價的最優平衡。

猜你喜歡
收集器數據包數據中心
一種病房用24小時尿蛋白培養收集器的說明
二維隱蔽時間信道構建的研究*
淺析數據中心空調節能發展趨勢
一種用于內鏡干燥的酒精收集器的設計與應用
民用飛機飛行模擬機數據包試飛任務優化結合方法研究
關于建立“格薩爾文獻數據中心”的初步構想
C#串口高效可靠的接收方案設計
2017第十屆中國數據中心大會榜單
雷電收集器
土壤重金屬收集器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合