?

人工智能促進數據中心綠色節能研究

2024-03-13 12:19陳曉朋許可欣梁宇棟
信息通信技術與政策 2024年2期
關鍵詞:冷卻系統數據中心運維

陳曉朋 許可欣 梁宇棟

(1.華為技術有限公司,深圳 518129;2.中國信息通信研究院云計算與大數據研究所,北京 100191)

0 引言

隨著新一輪科技革命和產業變革的興起,以數據為核心的生產要素、以數字技術為驅動力的新型生產方式蓬勃發展,社會正快速步入數字經濟時代。數據中心是發展數字經濟的算力底座,也是數字化產業鏈的關鍵一環。截至2023年6月,全國在用數據中心機架總規模超過760 萬標準機架,算力總規模達到197 EFLOPS,位居全球第二,比2022年同期增長30%[1]。與此同時,數據中心能耗問題日益凸顯,在傳統數據中心,產品級節能技術應用已接近天花板,且系統復雜、設備多,各設備間能耗影響關系錯綜復雜,難以用傳統工程學公式模擬,加之傳統控制方式各自為政,作用已到極限。在此背景下,數字化及人工智能(Artificial Intelligence,AI)技術是推動數據中心電能利用效率(Power Usage Effectiveness,PUE)預測和指標優化實踐的重要基礎工作?;趯<医涷灥膫鹘y人工PUE預測和能效優化基本著眼于單設備或者單系統運行能效,尚未考慮到多系統協同與聯動。通過AI技術應用,可以保障數據中心能效優化由數據驅動,更加有章可循,從而規范和促進我國數據中心節能提效。

1 綠色數據中心發展趨勢

隨著產業的規模發展,數據中心能耗成為社會廣泛關注的話題。對于從業者而言,實現數據中心的綠色化發展也是體現技術水平的重要方面[2]。數據中心是技術密集型產業,設備和系統技術復雜,對性能、安全要求較高,能耗也涉及多個方面。因此,節能降碳是一項系統工程,涉及規劃、設計、建設、運維等方面,任一環節出現問題都會影響最終能效水平。據統計,數據中心IT及網絡設備在數據中心總耗電占比約為45%~50%,制冷設備占比約為30%~45%,制冷系統耗電與選址地點、系統方案以及運行要求相關,并與當地全年氣候變化息息相關;供配電設備約占10%~15%,供配電系統耗電通常以供電效率損失和配電損耗為主,供配電架構確定后供電效率和損耗即確定,只要其他系統用電就會有一定的損失[3]。故PUE數值計算結果受多種因素影響,當單一系統節能潛力充分挖掘后,下一個階段能效管理的核心命題則是“集成”,需考察具體項目全生命周期、系統規劃節能方案能力,打造全棧節能能力是節能減碳未來主要創新發展趨勢。

《新型數據中心發展三年行動計劃(2021—2023年)》提出新建大型及以上數據中心PUE降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下。此外,我國工業和信息化部通過創建國家綠色數據中心、國家新型數據中心典型案例名單,引導企業建設發展綠色集約型數據中心。2023年,我國新建大型及以上數據中心PUE降至1.3以下,全國最優水平達到1.08,能效水平逐步提升。綠色低碳技術廣泛應用,我國有120多個數據中心綠色低碳等級達到4A級以上[4]。雖然新建大規模數據中心PUE設計及運行水平穩中向好,但目前我國老、舊數據中心綠色技術應用及PUE發展與歐洲、美國等國家和地區相比還存在一定的差距。數據顯示,我國中、小規模數據中心PUE值普遍偏高,各地政府及數據中心企業已經開始關注到這一發展問題,主動探尋“老、舊、小、散”數據中心的節能改造路徑,相信未來在生產制造、通信、互聯網、公共機構、金融、能源等重點領域將迎來老、舊數據中心改造浪潮[4]。

2 AI在數據中心節能方面的應用

鼓勵數據中心應用綠色先進技術。一方面應在應用上鼓勵數據中心采用高效系統,優先采購先進綠色技術產品,建設數據中心能源消耗在線監測平臺,開展數據中心能耗監測評估,從數據中心應用上實現節能;另一方面應在源頭上引導數據中心高效利用清潔能源和可再生能源,深化數據中心綠色設計、施工、采購與運營管理,全面提高資源利用效率,從源頭上實現減碳[5]。除此之外,近年來也涌現出一批基于AI、大數據、物聯網、仿真模擬的數字化新技術,可以優化機房的冷/熱氣流布局,實現精確送風、熱源快速冷卻、冷源設備精準自動調節,目前已在華為、阿里巴巴、百度、騰訊等企業大量應用,并取得了顯著的節能效果。

在數據中心運行過程中,能耗主要由IT設備、配電設備(配電損耗)和冷卻系統構成[6],圖1給出了一個PUE為1.59的典型傳統數據中心能耗分布比例示意。其中,IT設備能耗占比最高。案例中數據中心配電設備效率已接近或達到90%以上,配電損耗也難以大幅降低,因此降低冷卻系統能耗對提升該數據中心能效非常重要。

圖1 典型傳統數據中心能耗分布實例

隨著大數據、云計算技術不斷演進,AI、物聯網技術的成熟,綠色數據中心對新一代信息技術應用進入快速發展階段。數據中心冷卻系統是典型的多變量耦合非線性時變系統,各部件相互影響、制約。針對冷卻系統末端負荷和室外環境變化,基于AI節能技術通過監測運行參數(如溫度、壓力、流量、能耗等),獲得全面的溫度場、速度場、壓力場等參數,同時建立系統能耗模型(如冷機、水泵、空調機等),可據此確定冷卻系統不同運行工況下各部件的功率消耗。大量數據通過智能化運維平臺進行聚合、分析,調整冷卻系統運行狀態,為冷卻系統運行適配提供建議。最終根據需求側負荷變化,優化各部件運行狀態(如壓縮機轉速、水泵轉速、風機轉速等)到系統最佳運行狀態,從而降低系統能耗。

2.1 技術應用及發展

國際領先企業早在數年前就采用AI與數據中心運維相結合來優化能效、降低成本。例如,谷歌數據中心打造了專門的AI能力來自動管理其數據中心復雜的冷卻設備。該項目以谷歌DeepMind AI部門在2016年首次發布的工作成果為基礎,開發的機器學習系統可以收集有關冷卻設備的運行數據,為工程師提供關于如何優化電力使用的建議。該系統每5 min會對數據中心內冷卻設備運行參數進行“快照”,根據包括設施溫度、熱泵運行狀態等信息來決定采取哪些措施優化電力消耗。目前,共有8種機制可以確保該系統按預期工作,如果出現問題,系統將快速回退到用于管理冷卻系統的預定義自動化模式。隨著時間的推移,系統收集并處理的數據越來越多,實現的節能效果也會不斷提高。

近年來,數據中心相關設備廠商、大型數據中心企業開始探索將大數據、AI等技術運用于運維管理中(如提高數據采集的實時性和準確性,研究訓練節能、告警等數據模型,開展故障預測等),進一步提升運維管理系統的服務能力和智能化水平[7]。國內產業界在數據中心AI節能技術上也有多項研究:中國電信與華為聯合發布《PUE數字化技術白皮書》,以仿真與監測多數據交互為冷卻系統提供更優建議切入,論述了數字化技術優化PUE的相關企業實踐進展;開放數據中心委員會(Open Data Center Committee,ODCC)發布的《2023數據中心自適應AI節能白皮書》聚焦利用AI進行空調群控節能,從數據、算力、算法等方面進行了分析;ODCC發布的《數據中心制冷系統AI節能技術及其應用白皮書》介紹了數據中心制冷系統AI節能技術及其應用前景。

2.1.1 基于機器學習的AI節能技術

基于機器學習的智慧運維算法是依靠大數據,采用深度神經網絡或深度機器學習等AI算法,通過計算機模擬訓練出冷卻系統運行參數與能耗和機房溫度之間的數學關系,從而指導數據中心冷卻系統的運維。

如圖2所示,基于大數據分析步驟包括:業務模型(基于業務的分析,獲取相關的業務參數,并對參數進行降維、降噪、清洗等處理);數學模型(選擇適合業務的數據模型);領域算法(根據輸入的參數選擇可收斂的算法);實現模型(求出滿足輸出條件解,該解包括對于制冷能耗的預測模型以及對應業務最優的決策模型);發布模型(將預測以及決策模型發布到節能優化的平臺系統中,以在線給出可以調優的決策模型);數據應用(決策模型給出系統最優調優建議,并與控制系統對接,執行調優建議)。

圖2 大數據分析步驟示意圖

(1)深度神經網絡算法

運用深度神經網絡算法,可以有效描述一個包含冷通道的數據中心氣流和溫度模式,將區域模型轉換為狀態空間模型并實時運行,因此該模型具有實時預測能力,可以控制和優化數據中心的能源利用。

以華為構建的從冷源到末端的AI能效優化能力為例,使用工況模擬仿真,模擬現網數據實現數據集的擴充、數據密度的增加,補足由于現網數據不足、質量不佳的普遍缺陷,加強模型的適應能力與可靠性。依靠大數據,采用深度神經網絡算法,自動匹配精度最高的算法,并實現無碼化建模。通過計算機模擬訓練出冷卻系統運行參數與能耗和機房溫度之間的數學關系,從而指導數據中心冷卻系統的運維,最終可實現PUE降低8%~12%的優化效果。

將AI建模所涉及的參數分為控制參數、環境參數和過程參數三大類,模型訓練算法原理如圖3所示。

圖3 模型訓練算法原理示意

控制參數:指系統所有可以直接設置、下發的參數,如設備運行臺數、冷機出水溫度設定、供回水壓差設定、冷卻水出水溫度設定、冷卻塔逼近度等。

環境參數:指對系統能耗有強烈影響,但不受系統影響的客觀參數,如室外溫濕度、業務負載等。

過程參數:指系統內部的一些觀察參數,不能被直接控制,但環境參數和控制參數變化時,會因這些參數的改變而明顯發生變化的參數,如水泵頻率、水流量、壓力等。

建模(構建訓練):收集所有X(控制參數、環境參數、過程參數)和能耗值y,灌入神經網絡,計算所有參數對能耗的系數矩陣,從而完成模型訓練(主模型),同時還需要找出過程參數受哪些參數影響,使用擬合算法獲取系數矩陣(子模型)。子模型不僅可以幫助提高主模型精度,還可以承載專家經驗牽引,如冷卻流量在什么范圍內安全、節能等。

此外,可以根據項目的特點和要求,由具有專業知識背景的業務專家通過模型生成服務平臺進行控制參數、環境參數和過程參數的選擇,以及配置這些參數與能耗之間的連接關系用于進行模型生成和訓練。

在線推理階段,使用遺傳算法或者貪婪算法根據當前時刻環境變量同時將所有控制變量組合代入訓練生成的能耗-變量模型計算能耗值,選取能耗最低值對應的一組控制參數作為調優策略進行下發。推理決策步驟如圖4所示。推理決策過程如圖5所示。

圖4 推理決策步驟

圖5 推理決策過程

基于制冷能耗預測模型,獲取與制冷能耗敏感的特征值,利用特征值進行業務訓練、給出業務預測模型。主要是保障業務運行服務等級協議(Service-Level Agreement,SLA),如冷量保障等[8]。

最后,利用系統可調整參數作為輸入,將制冷能耗預測模型、業務預測模型作為約束,利用尋優算法,獲取調優參數組,然后下發到控制系統,實現制冷系統的能耗調優。

(2)深度機器學習算法

在深度機器學習算法方面,可以通過控制供回風風機、冷卻盤管等,來滿足送風溫度和相對濕度低于熱安全閾值要求的同時,最小化冷卻能量(見圖6)。懲罰權值有助于最優策略參數在滿足其約束條件下有效收斂??梢詮娘L冷數據中心收集元信息和真實數據軌跡,對預測模型進行訓練和驗證[9]。其次,使用在第一步中驗證過的模型來驅動離線訓練,離線訓練最終完成后的模型來控制優化數據中心制冷系統實際運行。

圖6 深度機器學習算法流程

深度強化學習可應用于聯合IT設施的優化,包括負載感知的目標冷卻、任務調度與IT設備優化,旨在提高能源效率,同時確保數據中心熱安全。負載感知以響應動態IT工作負載,控制分配供風溫度和流量為目標;任務調度,即完成在熱動力學約束條件下優化調度IT工作負載分配;最終聯合控制IT和制冷系統,使其達到理想的平衡,降低能耗,實現IT設施的優化,提高能源效率。

2.1.2 基于物理模型的AI節能技術

基于物理模型的智慧運維算法需首先建立冷卻系統的傳熱和能耗模型,再依靠智能尋優算法以運維目標求解出各設備運行參數,從而實現對系統的調優。

騰訊在數據中心冷源系統AI調優上進行了實踐應用?;谏疃壬窠浘W絡和支持向量回歸算法構建設備模型,通過選擇合適的激活函數、調整損失函數以及限制權重參數范圍等方式增強模型的可解釋性,使得構建出來的模型滿足暖通物理原理。例如,在冷機功耗預測模型中,參考《美國采暖、制冷與空調工程師學會應用手冊》提出的冷水機組能耗模型表達式,將冷機冷凍側溫度、冷卻側溫度以及IT負載等變量作為模型的輸入參數,中間用全連接層連接網絡模型,并使用線性整流函數激活函數擬合變量間的非線性關系,最終預測冷機功耗(目前模型的預測偏差可以控制在3%以內)。

同時,使用安全沙箱設置尋優約束準則,即安全沙箱所有的約束條件、配置都可以開放給現場的運維專家(見圖7)。有了安全沙箱機制后,可實現AI邏輯受控和配置自由。

圖7 安全沙箱原理

2.2 數據中心AI節能系統部署趨勢

數據中心AI節能系統在實踐中由集中式部署逐漸向“中心+邊緣”部署模式演進。中心節點對應冷源側控制設備及軟件平臺,以數據中心為單元部署,通過多活模式實現節點高可用。邊緣節點對應末端控制設備及軟件,以機房為單元部署。節點支持海量數據采集與指標分析處理,同時兼容多種采集協議與接口。各節點通過網絡互聯,支持相互冗余,保障AI節能系統穩定運行。中心節點與邊緣節點存在主/從關系,中心節點負責數據中心冷源與末端聯合建模,系統尋優,對冷凍站下發優化策略。邊緣節點負責末端空調建模、熱量預測,對末端下發優化策略。

3 建議與展望

3.1 推動標準編制,凝聚多方共識

堅持以新一代信息技術為驅動,依托ODCC等行業組織和高水平平臺專業作用,加強產、學、研、用溝通合作,加快AI創新節能技術攻關、標準研究及應用推廣步伐,支撐數據中心全生命周期綠色低碳發展戰略目標。加快數字仿真、智能調優等技術基礎研究和創新實踐,為相關企業在數據中心設計、建設、改造項目的實施與科學決策提供標準依據。

3.2 征集測試試點,推廣高價值實踐經驗

進一步驗證標準的科學性和可操作性,廣泛征集數字仿真、AI調優等建設運營階段數據中心項目測試試點,鼓勵AI、大數據、數字孿生等新一代信息技術與數據中心運維工作深度融合,全面、準確、客觀度量數據中心節能效果,樹立標桿企業,探索并形成可復制、可推廣的路徑模式、寶貴經驗和典型案例,促進全行業綠色可持續發展。

3.3 優化咨詢服務,支撐數據中心綠色算力發展有序升級

以AI調優測試、節能改造測試豐富地方項目咨詢服務,幫助地方政府、重點行業主管部門明晰當前區域、行業數據中心節能發展的能力優、劣勢,鼓勵各類數據中心通過節能改造、優化改造、智能運維等方式,解決數據中心項目因高能耗面臨的關停、合并等問題,支撐各地區、各行業數據中心綠色算力發展有序升級。

4 結束語

一方面,基于機器學習算法對數據的依賴度較高,要求訓練數據集盡可能包含各種運行工況,否則容易出現超出訓練集計算結果不準確的問題。同時,基于機器學習算法可以擺脫對冷卻系統本身物理特性的分析,適合于復雜的大型系統或冷熱電聯產等復合系統。另一方面,依靠大數據模型分析方式也面臨著模型泛化性局限以及可解釋性較弱的問題。因此,可以根據數據中心自身特點嘗試不同的AI技術方案,同時支持日益增多的架構場景。另外,在AI技術的發展中,單一制冷系統的優化也有其局限性,未來會向跨層聯動節能演進,與IT基礎設施共同構建模型,避免因制冷能耗的降低使IT功耗增加,從而形成整體多系統節能技術,真正促進數據中心整體能耗降低。

猜你喜歡
冷卻系統數據中心運維
酒泉云計算大數據中心
新型中厚板快速冷卻系統研發
運維技術研發決策中ITSS運維成熟度模型應用初探
風電運維困局
民航綠色云數據中心PUE控制
雜亂無章的光伏運維 百億市場如何成長
DX-600發射機冷卻系統維護
基于ITIL的運維管理創新實踐淺析
澆鑄循環水冷卻系統的應用
基于云計算的交通運輸數據中心實現與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合