?

數據中心一體化智能運維管理平臺建設研究

2021-09-17 15:00徐友恒
中國管理信息化 2021年18期
關鍵詞:機房數據中心運維

徐友恒

(新疆油田公司數據公司,新疆 克拉瑪依 834000)

0 引言

我國信息技術經過快速發展,在各行各業中有著重要應用。例如,大數據、云計算、區域鏈、人工智能和物聯網等新技術在人們生產生活中的應用越來越廣泛。這些新技術的應用極大地推動了社會發展,而在此過程中,數據中心是不可或缺的。因此,數據中心的數量越來越多,規模也越來越大。這就對數據中心的運營和機房基礎設施的運維管理提出了更高的要求。因此,提高數據中心運營水平非常重要?;诖?,本文對數據中心一體化智能運維管理平臺的建設進行了研究。

1 數據中心運維管理概述

1.1 數據中心運維管理技術概述

隨著數據中心不斷發展,其運維管理技術也在不斷發展。通過研究,其發展可以分為三個階段,分別是被動運維階段、主動運維階段和智慧運維階段,具體分析如下:①被動運維階段。在這一階段,運維管理的流程還沒有完全建立,相關技術手段還不成熟,主要通過人工現場巡檢的方式對數據中心機房進行檢查,通過手工對機房和設備的信息進行記錄。②主動運維階段。在這一階段,相關工作人員針對供配電、制冷、不間斷電源和空調等配備了遙測、遙控模塊,建立了集中式遠程監控平臺以及事件、應急和變更等標準管理流程,使運維體系不斷完善,運維管理水平不斷提高,平臺化、可視化和流程化的管理也得以實現。當前我國數據中心的運維管理基本上處于這一階段。③智慧運維階段。在這一階段,物聯網、大數據和智能技術等的應用實現了人、技術、流程和數據四要素的有機融合,此階段的數據中心運維管理特點是自動化和智能化。

在實際應用中,數據中心機房的作用是非常重要的,其需要承擔很多功能,包括數據存儲、業務系統計算以及網絡通信等。因此,保證機房基礎設備安全、穩定運行是非常重要的,直接影響了業務系統能否穩定、持續運行。隨著大數據、物聯網和云計算等技術的快速發展和應用,數據中心的計算量、存儲量和帶寬需求都得到了明顯提升[1]。在這樣的背景下,數據中心的體量不斷增大,機房設備數量不斷增加,這加大了數據中心運維管理的難度,并對監控巡視、故障發現和處置等都提出了更高的要求。此外,由于城市不斷發展、城市內的運營成本不斷提高,同時城市規劃對數據中心運行等造成限制,當前大數據中心朝著中西部地區遷移,而這些地區缺乏機房基礎設施運行維護方面的高級人才,這給數據中心的運維管理工作增加了難度。在這樣的背景下,相關工作人員通過應用智能化技術來提高運維管理的智能化、自動化水平就顯得尤為重要。此方法不僅可以提高數據源中心的運維管理效率,更好地保證其正常運行,還可以降低數據中心的運營成本。

1.2 數據中心基礎設施管理現狀

隨著信息化技術不斷發展以及企業的信息化建設不斷開展,數據中心基礎設施運維管理方面的疏漏也在不斷擴大,影響了信息化系統的正常運行,主要體現在以下兩個方面。①系統日趨復雜化,管理效率較低。由于機房對冷量和功率的需求是不斷變化的,而采用人工測量和感知的方式是無法準確了解這一變化的,這就導致不能及時根據出現的變化對系統進行調整,進而導致管理效率較低。②高密度地向電源和制冷系統施壓,影響其可用性。當前,數據中心普遍采用高密度能耗架,這個設施需要對電源和制冷資源進行良好配置。為了滿足其要求,運維管理人員需充分了解布局,提高容量的利用效率。面對如此復雜的形勢,單純依靠人工手段就很難做好運行維護工作。當出現過載的情況時,設施很難實現提前預警,不能很好地保證數據中心安全運行。

2 數據中心智能化運維管理的需求

數據中心智能化運維管理應滿足以下幾方面需求。①可用性要求。在機房內應有備用電力、空調設施。當電力或者空調設施出現故障后,備用電力、空調設施會自動運行,保證機房能夠保持正常運轉。②安全性要求。在出現火災等突發的安全事件后,系統可以對這些問題進行準確判斷,并且能夠自動報警,采取可以實行的應急措施,將安全問題造成的影響降到最低,保證機房運行安全。③經濟性要求。企業經營的最終目的是營利。因此,保證機房運行的經濟性能是非常重要的,這就需要降低能源的損耗,要求數據中心的智能運維管理系統能夠根據環境溫度對制冷機組的運行方式進行智能調節,根據熱點區域對出風大小進行智能調節以及對照明系統進行智能調節,降低能耗。④無人化要求。對智能化管理而言,需要盡可能降低人員的使用量。企業可通過機器實現對機房的管理,通過智能化的管理防止人為失誤造成的影響,同時降低運維管理人員的勞動強度[2]。

3 數據中心運維管理智能化技術的實現途徑

3.1 一體化智能運維管理平臺

一體化智能運維管理平臺集成了多種系統,包括監控、巡檢、自動作業和服務管理等,其通過人工智能技術來對這些系統進行控制,從而實現對機房運行情況的分析、對故障的預警,還具有自動操縱、排除故障隱患的功能。在運行過程中,該平臺能夠將監控系統、巡檢系統、運維服務系統以及自動化作業系統等信息收集起來,對這些信息進行集中存儲和分析,然后可通過大數據技術來分析、處理數據,對系統運行情況進行預判,并基于分析的結果對各系統的運行進行調整或者發出警報。各系統和運行平臺之間的關系如圖1所示。

圖1 智能運維管理平臺與機房各系統的關系

運維管理平臺的主要結構有管理層、通信層和設備層。其中,系統設備層的主要功能是實現設備信號的產生以及操控,而設備主要是各種傳感器、控制器以及儀器儀表等,其在工作過程中的功能是采集相關信號以及按照系統的指令進行系統操控;系統的中間層是通信層,主要用于統一不同機房設備的接口信號、通信協議和數據格式,起到信息傳遞的作用。系統的上層部分是管理層,這是平臺最為核心的部分,設備層收集到的機房基礎設施運行的各種信息都會被集中到管理層,并進行存儲、處理和展現[3]。在這一層中,相關工作人員可通過大數據技術和智能技術等對收集到的數據進行分析,并根據分析結果來判斷數據中心運行情況,采取針對性的措施進行處理。除了上述功能,平臺還具有人機交互功能,實現人機交互數據的分析、處理和應用,同時還支持編程建模,這樣智能平臺可以隨著智能化技術不斷發展而升級,不斷提高系統智能化程度。

3.2 機器學習建模與預測

以“局部熱點”事件為例,機器人通過學習建模,將引發機房內局部溫度上升的火災、空調系統和IT 系統等相關要素特征化?;谶@些信息,機器人可以判斷各參數和溫度上升之間的關系,并根據這些關系建立數學模型[4]。在實際的運行過程中,若出現了上述熱點事件,機器人將獲取的各要素數據與歷史數據進行比對,驗證系統出現的問題,并對事件的起因進行分析,啟動控制程序對事件進行控制。在整個控制過程中,機器人會對該熱點事件進行持續性偵察,根據實時結果來決定下一步措施,直至熱點事件消失。

3.3 智能機器人的應用

數據中心的大部分運維工作都是重復性的,包括設備的定時開關機、系統日志的審查和審計以及數據的備份和恢復測試等。對于這些工作中的大部分工作內容,智能機器人都可以通過遠程操作完成,這樣不僅效率更高,還可以有效降低錯誤率,提高運維工作的質量。在大型數據中心機房的運維管理工作中,巡檢的工作量比較大,比較容易出現漏檢問題,而通過智能機器人巡檢的方式代替人工巡檢,可以有效解決這方面的問題。智能巡檢機器人應用了很多先進技術,包括機器視覺、自動跟隨、激光雷達導航、遠紅外熱成像以及多傳感融合等?;谶@些先進技術,可以實現對數據機房內的設備和環境的不間斷巡檢,包括報警指示燈、溫度、噪聲、異味以及儀表讀數等[5]。一旦出現問題,工作人員可以迅速報警,從而實現故障的快速排除。

4 結語

數據中心具有非常重要的作用,做好其運維工作十分重要。智能技術的發展為提高數據中心運維工作提供了新的技術支持。通過應用智能化技術,相關工作人員可以構建出一體化智能運維平臺,從而有效提高數據中心的運維水平。通過應用這一平臺,能夠更加高效地對數據中心進行管理,保證數據中心安全、穩定運行,同時有效降低運維成本。因此,未來一體化智能運維平臺在數據中心運維中會有越來越廣泛的應用。

猜你喜歡
機房數據中心運維
酒泉云計算大數據中心
運維技術研發決策中ITSS運維成熟度模型應用初探
民航綠色云數據中心PUE控制
基于ITIL的運維管理創新實踐淺析
N通信公司機房節能技改實踐
新型有線電視機房UPS系統的配置
大功率發射機房冷卻送風改造
基于云計算的交通運輸數據中心實現與應用
Overlay Network技術在云計算數據中心中的應用
談有線電視前端機房的防雷接地
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合