?

IT設備數據管理技術應用淺析

2014-03-31 16:05趙旭
移動通信 2014年4期
關鍵詞:輪詢

趙旭

【摘 要】介紹了IT設備數據管理技術在通信系統中的應用場景和數據分析方法,并對IT設備數據管理中設備性能數據采集、告警信息處理、消息處理引擎等方面進行具體分析,最后測試了IT設備數據管理技術的實用效果。提出將復雜的IT服務設備數據處理技術應用到企業業務系統中,通過對IT服務設備數據的分析處理,能夠及時獲取最準確的故障定位信息,大幅提升了運維管理水平。

【關鍵詞】IT設備數據管理 輪詢 告警 消息處理引擎

中圖分類號:TP399 文獻標識碼:A 文章編號:1006-1010(2014)-03-

1 背景

伴隨著通信技術的飛速發展,2G、3G、4G網絡勢必并存共生,每個運營商都面臨業務支撐系統、內部OA系統、用戶數據庫、大數據信息中心等諸多IT系統的復雜格局,每個上規模的企業也都面臨IT設備龐雜、亟需與云計算和大數據庫連接等情況。IT設施規模的強大與復雜,給信息系統的運行安全、故障定位、信息監控帶來了全新的挑戰,增加了運維管理的難度。

目前市場上初步具備對主機、網絡設備、數據庫和業務系統進行監控管理的能力。但由于監控工具眾多而分散,缺乏統一的監控數據集中展示和管理平臺,導致現有的監控手段不能很好地在運維流程中發揮更大的作用。同時,對于不同的IT服務設備產生的告警和性能信息的處理工作日益復雜,也給通信系統IT運維管理工作提出了新的難題。因此,有必要研究如何提高對IT設備數據處理能力,以切實有效提高IT管理及業務服務能力,確保信息系統的安全穩定運行。

鑒于此,本文研究將IT服務設備數據處理技術與系統建設結合起來,通過分析IT服務設備數據的特點,提出將復雜的IT服務設備數據處理技術應用到企業業務系統中,對企業的運維管理進行輔助處理,提高企業IT設備故障處理的效率,并降低企業運維管理的難度。

2 IT設備數據處理技術介紹

2.1 IT設備數據來源和類型的定義

這里IT服務設備數據的來源主要包含以下類型:

(1)主機設備,包含小型機、PC服務器、VM、LPAR等;

(2)軟件實例,包含操作系統類、數據庫類、中間件類、用軟件類等;

(3)網絡安全設備,包含交換機設備、路由器設備、漏洞掃描設備、審計設備、入侵檢測設備、VPN、防火墻設備、負載均衡等;

(4)存儲設備,包含磁盤陣列、帶庫、光纖交換機等;

(5)環境設備,包含UPS、空調、機柜、配電柜等;

(6)業務服務類,包含基礎的業務系統等。

以上這些設備在運行當中,最為重要的是性能數據和告警數據。而這些數據一般由不同的監控工具獲取,各自獨立存在,數據之間缺乏有效關聯,對IT設備的故障排查、問題定位造成難題。

2.2 IT設備數據處理的主要方法

(1)列表法

列表法是記錄和處理實驗數據的基本方法,也是其他實驗數據處理方法的基礎。將實驗數據列成適當的表格,可以清楚地反映出有關物理量之間的一一對應關系,既有助于及時發現和檢查實驗中存在的問題,判斷測量結果的合理性;又有助于分析實驗結果,找出有關物理量之間存在的規律性。一個好的數據表可以提高數據處理的效率,減少或避免錯誤。

(2)作圖法

利用實驗數據將實驗中物理量之間的函數關系用幾何圖線表示出來,這種方法稱為作圖法。它是一種被廣泛用來處理實驗數據的方法,不僅能簡明、直觀、形象地顯示物理量之間的關系,而且有助于研究物理量之間的變化規律,找出定量的函數關系或得到所求的參量。同時,所作的圖線對測量數據可起到取平均的作用,從而減小隨機誤差的影響。此外,還可以作出儀器的校正曲線,幫助發現實驗中的某些測量錯誤等。因此,作圖法不僅是一個數據處理方法,而且是實驗方法中不可分割的部分。

(3)逐差法

逐差法是物理實驗中處理數據常用的一種方法。凡是自變量作等量變化而引起應變量也作等量變化時,便可采用逐差法求出應變量的平均變化值。該方法計算簡便,特別是在檢查數據時可隨測隨檢,及時發現差錯和數據規律。更重要的是可以充分地利用已測數據,并具有對數據取平均的效果。還可繞過一些具有定值的求知量而求出所需要的實驗結果,以減小系統誤差和擴大測量范圍。

(4)最小二乘法

把實驗的結果畫成圖表固然可以表示出物理規律,但是圖表的表示往往不如用函數表示來得明確和方便,所以從實驗的數據求經驗方程也稱為方程的回歸問題,變量之間的相關函數關系稱為回歸方程。

3 IT設備數據處理系統的總體描述

3.1 IT設備性能數據的處理

IT設備性能數據的采集和處理是IT設備管理的重要環節。IT設備性能數據處理架構如圖1所示。首先采集層根據性能數據采集的需求(數據量和采集周期),發出數據采集的請求,采用輪詢服務和參數拼接對底層數據源進行性能數據采集。采集結果通過接口適配器傳輸給處理單元,對采集的性能數據進行基本的解析和分類。性能數據的采集和分類是周期輪詢式進行的,每次采集的數據要經過匯總、歸檔,分類存入數據庫中。最后,根據數據庫中存儲的性能數據,采用數據分析的各種方法對這些數據進行處理,達到監控和分析IT設備性能的作用。

(1)輪詢采集

性能數據的輪詢采集方案采用條件判斷的方法,當滿足輪詢公式條件時則采集,不滿足時則等待下一次判斷。

輪詢公式:指標采集頻率+指標最后采集時間VS當前日期

判斷頻率:1分鐘

◆大于:不處理,等待下一次判斷

◆等于:發出采集請求

◆小于:發出采集請求

示例:

指標:CPU使用率endprint

采集頻率:5分鐘

最后采集時間:10:01

5+10:01>10:05 等待

5+10:01=10:06 發出采集請求

5+10:01<10:08 發出采集請求

(2)數據量

IT性能數據的采集量很大,估算其數據量可以大致了解需要的數據資源。

◆數據數量

IT設備性能數據約35個分類,共6.2萬個性能指標,按每5分鐘采集一次數據,則每年數據數量為:

6.2萬*12次/小時*24小時/天*365天/年≈65億/年

按上限浮動20%計,則:

65億*2年*120%=156億/兩年

◆數據大小

按每條性能數據的大小為50Byte計,則:

156億*50Byte/條=7800億Byte≈726GByte

◆帶寬要求

每5分鐘取一次數據,則:

6.2萬÷(60秒/分*5分)*50Byte=10333Byte≈

10KByte/秒

現有網絡與硬盤帶寬完全可以滿足此速度要求。

(3)歸檔存儲

鑒于當前數據量巨大,且早期的明細數據對系統本身并無實際意義的情況,系統設計為只存儲最近3個月的活躍數據到數據庫,其他18個月的明細數據采用文件存儲,供后續使用。具體的存儲方案設計如下:

◆活躍數據存放在單一表空間內;

◆明細數據按月存放,共3個月的數據表;

◆每個月末刪除第3個月的數據表,同時新建下個月的空白表;

◆獨立表存放性能指標最近2小時的明細數據:6.2萬*12*2=148萬;

◆獨立表存放性能指標最近48小時的小時平均數據:6.2萬*48=297萬;

◆獨立表存放性能指標天的平均數據:6.2萬*365日/年*2=4500萬;

◆每日凌晨1點計算上一天平均數據;

◆獨立表存放性能指標周的平均數據:6.2萬*4*12*2=595萬;

◆每周一凌晨3點計算上一周平均數據;

◆獨立表存放性能指標月的平均數據:6.2萬*12*2=148萬條;

◆每月的第一天凌晨4點計算上一個月的平均數據。

3.2 IT設備告警數據的處理

IT設備性能數據的監控除了為IT設備運行情況的分析提供數據基礎之外,最重要的目的就是能夠實時監測設備運行,在問題出現時第一時間發現故障。通信系統中IT設備的故障處理是以分鐘甚至秒來計算的,能夠第一時間響應設備故障并迅速作出應對,是成熟IT設備體系所必備的。該方案中設計的告警系統架構如圖2所示。接收層持續對設備性能采集的數據進行解析和簡單判別,當發現采集過程中出現了超出閥值的數據時,接收層啟動級別映射,對告警級別進行初步判定,并通知持久層啟動相應的告警流程。告警流程將告警信息與數據庫比對,形成最終告警信息并通過展示層顯示出來。同時,將該次告警信息的備份存入數據庫,作為今后告警信息統計的基礎。

(1)級別映射

IT設備監控管理系統的告警信息一般分為四個級別:嚴重、重要、一般、提醒。級別映射環節將分別收集整理底層監控工作的所有級別告警,并在系統的告警級別映射模塊中搭建系統與底層工具的告警級別映射關系。該環節是獲取原始告警信息后的第一個業務處理環節。

(2)告警過濾

◆系統支持對對象或對象組的過濾,比如定制單獨針對小型機或針對小型機、PC機一起的過濾規則;

◆支持對IP、周期、級別、類型、業務系統、采集工具等的過濾;

◆支持對關鍵字的過濾;

◆支持對不同維度的交集或并集的聯合過濾。

(3)次數過濾

◆鑒于底層采集工具中,告警次數過濾的算法參差不齊,初步確定在本系統中搭建一層次數過濾機制;

◆提供告警次數過濾的配置功能,一旦設定了次數,需要同類型的告警連續達到此數字才將告警拋出,否則將丟棄。

(4)壓縮

◆告警數據壓縮方式(見表1)

表1 告警數據壓縮方式

序號 原告警級別 新告警級別 工具處理方式

1 某級別 相同級別 (1)告警狀態:new→update;

(2)告警ID不變

2 高級別 低級別 (1)高級別告警會發出清除提示;

(2)在下一個采集頻率,如低級別告警還存在的話,才會拋出

3 低級別 高級別 (1)系統會將告警級別升級,發出update提示;

(2)告警ID不變

◆對于來自不同的底層監控工具的告警數據,同樣使用上述壓縮方式,并需要分別確認:級別一致,則監控管理不需再做告警壓縮策略;級別不一致,則需考慮棄用Tivoli(IBM的基礎設施管理軟件)內部的壓縮機制,重新實現一套壓縮策略,當然不排除根據個別情況單獨補充。

(5)關聯策略

◆對象指標關聯

系統提供源指標和目標指標的配置功能。如在某時間段內,A對象的A1指標和B對象的B1指標均產生告警信息,而兩個指標又存在關聯關系,則報出A1指標告警,同時在告警內容中反映B1指標受關聯的提示。

◆類型指標關聯

在對象指標關聯的基礎上,提供根據主機或業務系統泛化功能,即:A對象所屬類型中的A1指標對同屬一臺主機或同屬一個業務系統內的B對象所屬類型中B1指標存在關聯關系。

(6)告警處理

◆自動處理endprint

支持對不同對象、級別、周期、類型、業務系統、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統不做處理,可以采用手工處理方式。

◆手動處理

系統提供手工處理的功能。

(7)告警清除

◆自動清除(建議)

系統根據底層工具傳遞過來的處理標識,做自動清除工作。

◆人工清除

對于人工清除系統有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。

3.3 消息處理引擎

消息處理引擎實質上是一個在后臺專門負責處理各種消息的系統,如圖3所示。它可以根據接收到的消息(輪詢指令、告警處理、系統查詢等)按照事先定義的事務流程(即規則)進行處理。因此,消息處理引擎包括兩大部分內容:一是實時監督檢測是否有需要處理的流程;二是按照配置好的規則處理各類消息。

該IT設備處理的方案中,采用可編程模型配置消息處理規則,并形成模塊化結構,方便按需搭建各種規則,其中包括:自我監控支持、開發多線程支持、任務調度支持、訪問認證支持、失敗恢復支持、斷電恢復支持、靈活部署安裝。

按照消息處理引擎的配置規則,當整個IT設備系統出現消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設備管理軟件內部完成;需要手動處理的,則會按照指定的規則分配給相應的關鍵人。具體到實際,表現為能夠及時通知事先設定好的關鍵人,并準備好消息處理界面,供關鍵人作出快速響應。

4 測試與分析

針對IT設備管理系統的測試通常采用隨機抽查的方式,人為造成某個設備“故障”,檢測管理系統的靈敏度和反饋方式?;诖?,選擇凌晨話務量最少的時段對某地機房的三個隨機設備進行人為“誤操作”,測試管理系統。

“誤操作”后,告警信息在一分鐘后及時發到了相關關鍵人的手機上。這其中包括:

(1)輪詢監控發現設備性能指標異常并定位和上報;

(2)告警系統及時響應,判定為重要告警,生成告警信息;

(3)消息處理引擎按照配置規則,將告警信息及時通報給關鍵人,并建立告警檔案以備查詢。

測試結果表明,該IT設備管理系統能夠有效監控IT設備性能并及時完成告警指示。圖4為測試中的系統拓撲圖:

5 總結與展望

本文主要分析和論述了IT服務設備的性能數據和告警數據的處理方法及基本方案。通過引入先進的IT設備數據處理技術,在IT運維管理上對問題定位和及時響應起到決定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設備的信息化管理起到了積極促進的作用。

但是,由于IT設備的復雜性以及底層監控工具的多樣性,目前IT服務設備數據處理技術的公用性和通用性還存在著一定的缺陷,如跨平臺監控工具之間難以達到互聯互通、不同平臺監控信息處理流程差異導致某些信息不能及時反饋等,這些都是IT設備數據處理技術有待提升和優化的方面。后續建議業界考慮對IT服務設備的屬性數據進行進一步研究,一方面,合并、優化數據類型;另一方面,考慮性能數據、告警數據格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。

參考文獻:

[1] 陸冰芳. 虛擬化環境下的IT資源監控與性能提升分析[J]. 廣西電業, 2013(10): 82-88.

[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調度算法[J]. 計算機科學, 2013(8): 72-78.

[3] 王偉,婁一艇. 基于實時數據的統一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.

[4] 呂銘剛,呂佳珩,王瑋. 關于調控系統告警信息優化的幾點研究[J]. 電子世界, 2013(20): 243-244.

[5] 黃建設. 基于移動互聯網時代的IT系統與維護實訓室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint

支持對不同對象、級別、周期、類型、業務系統、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統不做處理,可以采用手工處理方式。

◆手動處理

系統提供手工處理的功能。

(7)告警清除

◆自動清除(建議)

系統根據底層工具傳遞過來的處理標識,做自動清除工作。

◆人工清除

對于人工清除系統有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。

3.3 消息處理引擎

消息處理引擎實質上是一個在后臺專門負責處理各種消息的系統,如圖3所示。它可以根據接收到的消息(輪詢指令、告警處理、系統查詢等)按照事先定義的事務流程(即規則)進行處理。因此,消息處理引擎包括兩大部分內容:一是實時監督檢測是否有需要處理的流程;二是按照配置好的規則處理各類消息。

該IT設備處理的方案中,采用可編程模型配置消息處理規則,并形成模塊化結構,方便按需搭建各種規則,其中包括:自我監控支持、開發多線程支持、任務調度支持、訪問認證支持、失敗恢復支持、斷電恢復支持、靈活部署安裝。

按照消息處理引擎的配置規則,當整個IT設備系統出現消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設備管理軟件內部完成;需要手動處理的,則會按照指定的規則分配給相應的關鍵人。具體到實際,表現為能夠及時通知事先設定好的關鍵人,并準備好消息處理界面,供關鍵人作出快速響應。

4 測試與分析

針對IT設備管理系統的測試通常采用隨機抽查的方式,人為造成某個設備“故障”,檢測管理系統的靈敏度和反饋方式?;诖?,選擇凌晨話務量最少的時段對某地機房的三個隨機設備進行人為“誤操作”,測試管理系統。

“誤操作”后,告警信息在一分鐘后及時發到了相關關鍵人的手機上。這其中包括:

(1)輪詢監控發現設備性能指標異常并定位和上報;

(2)告警系統及時響應,判定為重要告警,生成告警信息;

(3)消息處理引擎按照配置規則,將告警信息及時通報給關鍵人,并建立告警檔案以備查詢。

測試結果表明,該IT設備管理系統能夠有效監控IT設備性能并及時完成告警指示。圖4為測試中的系統拓撲圖:

5 總結與展望

本文主要分析和論述了IT服務設備的性能數據和告警數據的處理方法及基本方案。通過引入先進的IT設備數據處理技術,在IT運維管理上對問題定位和及時響應起到決定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設備的信息化管理起到了積極促進的作用。

但是,由于IT設備的復雜性以及底層監控工具的多樣性,目前IT服務設備數據處理技術的公用性和通用性還存在著一定的缺陷,如跨平臺監控工具之間難以達到互聯互通、不同平臺監控信息處理流程差異導致某些信息不能及時反饋等,這些都是IT設備數據處理技術有待提升和優化的方面。后續建議業界考慮對IT服務設備的屬性數據進行進一步研究,一方面,合并、優化數據類型;另一方面,考慮性能數據、告警數據格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。

參考文獻:

[1] 陸冰芳. 虛擬化環境下的IT資源監控與性能提升分析[J]. 廣西電業, 2013(10): 82-88.

[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調度算法[J]. 計算機科學, 2013(8): 72-78.

[3] 王偉,婁一艇. 基于實時數據的統一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.

[4] 呂銘剛,呂佳珩,王瑋. 關于調控系統告警信息優化的幾點研究[J]. 電子世界, 2013(20): 243-244.

[5] 黃建設. 基于移動互聯網時代的IT系統與維護實訓室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint

支持對不同對象、級別、周期、類型、業務系統、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統不做處理,可以采用手工處理方式。

◆手動處理

系統提供手工處理的功能。

(7)告警清除

◆自動清除(建議)

系統根據底層工具傳遞過來的處理標識,做自動清除工作。

◆人工清除

對于人工清除系統有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。

3.3 消息處理引擎

消息處理引擎實質上是一個在后臺專門負責處理各種消息的系統,如圖3所示。它可以根據接收到的消息(輪詢指令、告警處理、系統查詢等)按照事先定義的事務流程(即規則)進行處理。因此,消息處理引擎包括兩大部分內容:一是實時監督檢測是否有需要處理的流程;二是按照配置好的規則處理各類消息。

該IT設備處理的方案中,采用可編程模型配置消息處理規則,并形成模塊化結構,方便按需搭建各種規則,其中包括:自我監控支持、開發多線程支持、任務調度支持、訪問認證支持、失敗恢復支持、斷電恢復支持、靈活部署安裝。

按照消息處理引擎的配置規則,當整個IT設備系統出現消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設備管理軟件內部完成;需要手動處理的,則會按照指定的規則分配給相應的關鍵人。具體到實際,表現為能夠及時通知事先設定好的關鍵人,并準備好消息處理界面,供關鍵人作出快速響應。

4 測試與分析

針對IT設備管理系統的測試通常采用隨機抽查的方式,人為造成某個設備“故障”,檢測管理系統的靈敏度和反饋方式?;诖?,選擇凌晨話務量最少的時段對某地機房的三個隨機設備進行人為“誤操作”,測試管理系統。

“誤操作”后,告警信息在一分鐘后及時發到了相關關鍵人的手機上。這其中包括:

(1)輪詢監控發現設備性能指標異常并定位和上報;

(2)告警系統及時響應,判定為重要告警,生成告警信息;

(3)消息處理引擎按照配置規則,將告警信息及時通報給關鍵人,并建立告警檔案以備查詢。

測試結果表明,該IT設備管理系統能夠有效監控IT設備性能并及時完成告警指示。圖4為測試中的系統拓撲圖:

5 總結與展望

本文主要分析和論述了IT服務設備的性能數據和告警數據的處理方法及基本方案。通過引入先進的IT設備數據處理技術,在IT運維管理上對問題定位和及時響應起到決定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設備的信息化管理起到了積極促進的作用。

但是,由于IT設備的復雜性以及底層監控工具的多樣性,目前IT服務設備數據處理技術的公用性和通用性還存在著一定的缺陷,如跨平臺監控工具之間難以達到互聯互通、不同平臺監控信息處理流程差異導致某些信息不能及時反饋等,這些都是IT設備數據處理技術有待提升和優化的方面。后續建議業界考慮對IT服務設備的屬性數據進行進一步研究,一方面,合并、優化數據類型;另一方面,考慮性能數據、告警數據格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。

參考文獻:

[1] 陸冰芳. 虛擬化環境下的IT資源監控與性能提升分析[J]. 廣西電業, 2013(10): 82-88.

[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調度算法[J]. 計算機科學, 2013(8): 72-78.

[3] 王偉,婁一艇. 基于實時數據的統一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.

[4] 呂銘剛,呂佳珩,王瑋. 關于調控系統告警信息優化的幾點研究[J]. 電子世界, 2013(20): 243-244.

[5] 黃建設. 基于移動互聯網時代的IT系統與維護實訓室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint

猜你喜歡
輪詢
互聯網+模式下ASON帶寬優化研究?
基于等概率的ASON業務授權設計?
基于低壓電力線載波的輪詢通信改進
基于Turning Point平臺的交互應答系統在我國教學中的應用研究
依托站點狀態的兩級輪詢控制系統時延特性分析
利用時間輪詢方式操作DDR3實現多模式下數據重排
戰術局域網TDMA雙隊列輪詢調度算法
基于ICMP和SNMP的網絡設備監測技術
輪詢系統的演進及發展
數據鏈輪詢多網優化設計方法研究*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合