?

中國科學技術大學超算中心建設與實踐

2023-08-15 07:19李會民
中國教育網絡 2023年4期
關鍵詞:中國科大算力機柜

文 / 李會民

隨著計算技術的發展,計算逐步成為了與實驗、理論并駕齊驅的第三種科學技術研究方式,不僅覆蓋了越來越多的領域,影響也愈發深遠,而高校對超級計算的需求也更加急切。

中國科學技術大學(簡稱“中國科大”)是中國科學院所屬的以前沿科學和高新技術為主、兼有醫學和特色文科的綜合性重點大學。2002年底,學校多個學科申請211、985工程經費建設自己的超算系統??紤]到需求眾多,分散建設存在場地、人員、規模太小而無法滿足重大科研需求等問題,學校決定集中資金籌建第五公共服務平臺,即科學計算平臺。平臺于2003年10月投資800萬元建成,逐步建設成為現在的超級計算中心(簡稱“中心”),是國內最早的校級超算中心之一。

組織架構與職能

中心是學校六大公共實驗中心之一,歸屬于學校網絡信息中心而不是某一學院,這樣做的主要原因在于:網絡信息中心是IT技術支撐部門,具備相關IT技術人才,具有良好的服務意識;不隸屬于某學科,對各學科公平;非科研單位,員工的評價體系主要與建好平臺、服務好用戶相關,而不以發表論文的數量和級別為標準。由此,中心人員可以安心做好技術支持服務,更好地建設和運行維護超算平臺。

為確保持續性發展,中心設有專家組。專家組由從事計算機科研方面的知名專家(主要確保計算硬件等方面的前瞻性)及不同學科的典型超算用戶(主要確保具體需求及行業前瞻性)組成,主要負責對中心的建設、運行、管理和發展等重大決策提出指導和咨詢意見,并為中心爭取學校認可及相應投入。中心組織架構如圖1所示。

圖1 超級計算中心組織架構

本著推動科學計算、促進人才培養的建設方針,中心為校內有高性能計算需求的所有院系、實驗室、師生提供算力資源服務、用戶超算設備托管及運維服務、用戶技術支持服務,并與用戶合作進行超算方面的研發等;同時,中心力所能及向校外提供一定的資源服務及技術支持,回饋社會;最后,中心建設了“研究生超級計算實驗訓練中心”,培訓超算相關人才。

中國國家網格(CNGrid)合肥中心(2005年)和中國國家網格(CNGrid)合肥運行中心(2016年);images/BZ_27_1548_2257_1570_2279.png中國科學院超級計算環境GPU分中心(2010年)和合肥中心(中科大)(2014年);images/BZ_27_1548_2373_1570_2396.png超級計算創新聯盟理事單位(2014年);images/BZ_27_1548_2432_1570_2454.png安徽省高??蒲袇f作高性能計算公共平臺(2014年):對安徽省教育和科研計算機網高校用戶提供高性能計算服務;images/BZ_27_1548_2607_1570_2629.png高通量量子材料基因庫計算平臺,與合肥微尺度物質科學國家研究中心材料基因團隊共建(2016年);images/BZ_27_1548_2723_1570_2746.png超級計算中心蘇州分中心,與中國科大蘇州高等研究院共建,提供基于寒武紀智能芯片的超級計算資源等(2018年);images/BZ_27_1548_2898_1570_2921.png超級計算中心生命科學學院分中心,與生命科學學院共建(2021年)。中國科大超級計算中心積極爭取資源與合作

建設理念

三層架構

在高校超算服務中,面對不同規模的算力需求和不同類型的算力平臺,一個不可避免又至關重要的問題是:應如何更合理、更有效地分配資源?

一方面,作為研究型大學,中國科大有很多重大科研和工程課題,對計算資源的需求很大。有些大規模并行的需求是間斷性而不是持續性的,如果完全依賴于校超算資源,投資規模會很大,并導致很大浪費。對于此類應用,通常建議用戶使用校外公共算力資源。而使用校外資源面臨的挑戰是:有些應用存在計算前和/或計算后大量數據的傳輸問題,如沒有足夠快的網絡,數據傳輸時間會很長,只能攜帶存儲設備等乘坐交通工具去現場處理;同時,校外算力的實際性能有高有低,技術支持也有好有壞,未必能及時為用戶提供良好服務;此外,有些應用因為安全問題不適合使用校外算力。

另一方面,由于用戶數多、需求旺盛,中心超算系統受限于建設經費和場地,規模有限,利用率非常高(常年超過80%),導致用戶作業排隊時間較長,有些并行規模較大的任務甚至需要等待多天。圖2顯示了2022年度中心部分超算系統的實際利用率,瀚海20超算系統平均利用率為84.69%,TC4600超算系統則為72.15%。

圖2 超級計算系統2022年度實際利用率

此外,不少課題組或學院建有或大或小的自建超算系統,投入從幾千萬元到幾萬元不等,多用于調試程序、小規模測算、運行一些非重要計算等,一般可以滿足數十到數百核并行的需求。然而,用戶自建的系統通常面臨著場地、運行維護人員、安全等各方面挑戰,建設水平參差不齊,實際價值發揮有高有低。

為此,中心制定了三層架構(用戶自建算力、中心建設算力、利用校外算力)的建設方針(如圖3所示),根據實際需求及經費情況,建設了中等適度規模的平臺(當前最大能支撐數萬核并行),盡量為用戶提供更多算力資源,促進科研進展,同時盡量充分發揮價值,減少浪費。由此,平臺既保證了具備一定規模,作業排隊時間適度,可以運行相對大規模并行作業,滿足大多數用戶需求;又避免了因規模過大利用率低而導致的資源浪費。

圖3 三層架構模式

規模及選型

中心按需建設,每年都會更新系統,每三到五年更新一套大系統,其余時間在該大系統上擴建。如表1所示,按需建設的方法雖然有缺點,但這些缺點能夠通過管理和調度策略弱化,因此仍非常適合中國科大。

表1 優缺點對比

在建設時,中心按照當前系統使用情況,對用戶反饋、產品發展、其他高校情況等做調研,對典型應用進行實際測試,決定具體的CPU或GPU、內存、計算網絡、存儲等不同類型的配置數量等,形成可行性論證報告,并通過專家論證。

計算資源與機房基礎

超算系統

2019年起,中心超算系統以“瀚海+年份”的規則命名,其含義為:“承瀚海之遼闊,比星云之光華”,“瀚?!睒O具中國科大特色,在國內高校與科研單位具有很高的辨識度;同時,“瀚?!币泊砹顺阆到y計算能力強大,有力支持了教學及科研工作,幫助師生探索科學奧秘,勇攀科研高峰。

中心目前運行系統的總理論雙精度峰值浮點計算能力達5.72PFlops(千萬億次/秒,CPU:3.50PFlops、GPU:2.22PFlops、MIC:21.28TFlops),位居國內高校前列。表2是中心目前運行中的超算系統相關數據。

表2 運行中的超算系統

超算專用機房

就功耗來說,超算設備(一般10~30kW/機柜)比普通信息化設備(一般4~6kW/機柜)高很多,對制冷要求高。因此,建設時不能僅考慮初期成本,還需要考慮后期運維成本等。由于功耗高,我們選用節能、PUE(電源使用效率)低的機柜級制冷方式(圖4),機柜與行間空調封在一起,前面玻璃門(方便不開柜門查看設備狀態),后面鋼板門。冷風從空調橫向送到設備前,被設備吸進內部,熱風從后部出來,被空調吸到換熱片換熱。冷熱風全部封閉在機柜內部,制冷效率高,PUE能低至1.2。除了功耗低,該方式還防塵,運行更可靠、性能更高、壽命更長;機房工作環境約為24℃,只有打開柜門時才會感受到冷熱風,其他時間很少受強風、高熱、高噪音折磨,舒適度相對較高。

圖4 機柜級制冷(左右2臺機柜+中間1臺行間空調)示意

在供電方面,如果機房所有設備都接UPS(不間斷電源),需要容量很大的UPS主機及電池,不僅建設費用很高(電池需要3~5年更換一次),而且電池占地面積大,對承重要求高,UPS電力轉換也存在電力損耗的問題。而目前學校服務器等IT設備對電壓波動等要求不算太高,多數設備都支持電源N+N冗余。學校的電力有兩路市電且相對可靠,為此中心的超算機房僅配置小型UPS系統,主要支撐非常重要的監控、網絡、存儲、管理登錄節點等,而大量計算節點則采用雙路市電,無需經UPS直接供電。十多年的運行證明,該方法行之有效,節省了大量經費。

2013年9月,位于校東區新圖書館一樓的超算中心機房建成。機房共有54個機柜級制冷機柜,每兩個機柜之間有一臺55kW制冷量的行間空調,可支持單機柜IT峰值功耗近30kW,平均功耗約15kW,2014年獲由中國數據中心工作組頒發的優秀教育數據中心獎。

2022年底建成的超算中心機房(西區)級別更高,其20個機柜分成兩組,每組10個機柜級制冷機柜和11個機柜級制冷空調間隔排布,每臺空調30kW制冷量,每個機柜兩個64A三相五線PDU(電源分配單元)分別接不同的兩路市電。對于N+N電源冗余的設備,能夠實現每個機柜30kW負載時,任何一路電斷電時,設備運行均不受影響;任何一臺行間空調出現故障時,散熱均不受影響。不僅單機柜容量非常大(2023年新購置的2900萬元設備,放不滿10個機柜,單機柜實際功耗為25~29kW),而且可靠性很高。

服務體系

管理及收費政策

用戶對算力的需求是無止境的。例如,稍微修改一下計算參數,計算量就有可能上百倍增加。如果采用免費政策,再多算力都可能耗盡,不僅會造成很大的資源浪費,而且會導致真正有需要的用戶無法及時獲得算力資源;但如果收費標準太高,則會嚴重降低用戶使用的意愿,不利于科學研究進展。

為此,中心為了調節資源,保障學校重大科研項目的計算需求使用,研究制定了《中國科學技術大學超級計算中心收費標準(試行)》。該標準采取不以盈利為目的、用戶用得起的原則,部分免費,部分收費,與調度優先級掛鉤。

中心收費標準(表3)基本按照算力設備購置價(不含場地、人員、電力等費用)折舊(一般為五年)來核算,目前提供三種方式:免費、普通付費排隊(費用遠低于購置成本)、付費獨占計算主機(費用約與購置成本一致)。

表3 當前收費標準

用戶服務

作為一所研究型大學,雖然中國科大用戶對自己本專業的知識掌握得很好,但不少人對計算機、Linux系統、編譯環境、作業調度系統、軟件編譯安裝等方面的知識了解并不深,甚至不清楚內存與存儲的區別等。

因此,對中心來說,僅僅投資軟硬件,做好超算系統的建設、運行、維護是不夠的,還要做好用戶支持服務,幫助用戶方便高效地使用超算系統,更好地發揮系統價值。

為此,中心采取了多項行動服務用戶:部署了很多編譯環境、工具及應用軟件,并采用module environment軟件包對其做了封裝,用戶在使用時采用命令調用設置即可,操作非常簡單;設置了中文登錄提示并開發了引導式命令faq,用戶登錄后會看到,運行faq命令即可一步步查看所需信息;編寫了大量的用戶手冊、應用安裝使用文檔等,經常舉辦培訓,充分引導用戶學會自己查看手冊、搜索解決辦法;采用QQ用戶技術支持群提供即時服務,由此,解決問題的方法其他用戶也可以看到,降低重復回答工作的比率(QQ群有1578人,有可能是最大的超算用戶技術支持群)。

用戶支持成果

在二十年的建設歷程中,中心為學??蒲?、人才培養等做出了顯著貢獻,得到了校內外的廣泛認可(圖5)。據不完全統計,2022年在超算中心用戶發表的論文中,致謝中心的SCI論文高達464篇(含Nature系列、Science系列、PRL、JACS、Cell等頂級期刊論文38篇),學校主頁新聞報道的22篇重要科研成果論文致謝了校超算中心。

人才隊伍

二十一世紀什么最重要?人才!對于學校超算中心來說更是如此。在人才隊伍建設方面,中心現有專職人員8名,其中正副主任為兼職,分別是網絡安全博士和計算物理博士;其余6名專職人員包括計算物理博士2名、計算化學博士1名、高性能計算博士1名、計算機學士1名;人事、行政、財務、網絡、信息等其他工作則由網絡信息中心同事協助處理。

受大環境所限,高??蒲袓彵燃夹g支撐崗待遇高很多;而比起高校,IT人才在企業的待遇往往也更高。這導致中心在招聘合適人才時面臨挑戰,人才結構有待優化。

為提升服務學校、支撐學校高水平科研工作和人才培養的能力,進一步激發技術支撐工作者的積極性、主動性和創造性,打造一支同一流大學建設相匹配的高水平公共技術支撐隊伍,學校公共實驗中心出臺了技術支撐績效管理辦法??冃б约夹g支撐學??蒲械馁|量、貢獻和影響以及人才培養成效為導向,綜合考慮技術支撐工作者年度工作情況,建立了科學合理的評價標準。其中,績效額度總量的80%用于綜合績效獎勵,主要獎勵在崗技術員在支撐科研創新、攻關技術難題、提升儀器性能、獲得知識產權、實施成果轉化、參與人才培養、拓展儀器共享以及開展公共服務等方面的貢獻,績效額度總量的20%用于人才績效獎勵。

同時,在科研工作方面,作為研究型大學的超級計算中心,中國科大超算中心在開展科研工作時“不忘初心”,堅持以做好本職工作為前提,適度參與本職工作相關的科研,掌握行業進展,以更好地促進本職工作及協助用戶為目的進行科研攻關。在此前提下,中心員工積極參加相關的重點研發項目、橫向項目等,其中既有獨自承擔的,也有參與用戶項目的,都取得了不錯的成果。

展望未來,隨著GPU等協處理器技術、大數據、人工智能技術的發展,高校將越來越依賴于算力,算力平臺的建設也將越來越重要。下一步,中國科大超算中心將在學生培養、學科建設、AI等平臺的建設上加大力度,并加強與用戶的合作開發,進一步助力學校雙一流建設。

猜你喜歡
中國科大算力機柜
首屆算力互聯互通大會在京召開 共話算力產業機遇與挑戰
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
DCS機柜用電現狀分析
基于SiteAI算力終端的交通態勢感知系統
一種計算機聯鎖機柜工程圖紙的自動化生成方法
握手之間
——郭沫若的中國科大情懷
中國科大研制出用于室內霧霾凈化的柔性透明智能窗口材料
基于PLC的通信車配電機柜設計
中國科大:低調的牛校
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合