?

ITIL在電信運維中的應用研究

2011-05-08 08:44
鐵路計算機應用 2011年4期
關鍵詞:運維流程監控

陳 煉

(中國鐵通集團有限公司 廣 東分公司網絡支撐中心,廣州 5 10080)

隨著電信市場競爭日益白熱化和電信多元化格局價值圈的形成,運營支撐系統在電信統一管理、集中監控、精細化經營的發展中發揮著越來越重要的作用。隨著網絡規模日益擴大,網絡環境日趨復雜,電信運營支撐系統管理產生了許多新的需求,同時也不可避免地帶來許多問題。本文結合自身實際工作及國內電信運營商發展情況,圍繞IT基礎架構庫(ITIL)在電信運維中的應用,總結提出幾點認識體會。

1 電信運維管理的現狀和問題概述

電信行業通信網絡基礎設施規模龐大,設備復雜多樣、彼此關聯,跨區域、跨地域的特征十分顯著,形成了一個復雜的通信網絡結構。網絡設備故障、網絡系統性能不足等問題都會給電信行業運維帶來嚴峻的挑戰。同時,由于各種管理IT基礎架構和業務信息系統建設相對分散,維護單位分散,信息不全面,系統間信息共享和有效整合難度較大。電信運維管理需要對通信網絡設備、主機服務器、數據庫及存儲設備、IT網絡交換設備、各種業務和應用進行集中的、一站式的統一管理與實時監控,對電信運營商各種業務系統、相關基礎設施和設備、各種業務應用的數據進行集中采集、解析、匯總及統一展現處理,方便運維管理人員對網絡的統一管理、分析和監控,快速應對突發性的網絡安全事故,及時保障各種通信服務的持續、安全穩妥運行和開展。

隨著電信行業迅猛發展,各大電信運營商都在不斷擴建網絡、增加基站、拓展業務,積極地進行運營支撐系統的建設,已建立起業務支撐、網絡運維管理、企業信息化、財務等各類IT系統,發揮了積極的作用。由于電信企業的IT系統的規模不斷擴大,種類日益龐雜,電信企業自身的IT運維部門人力、技術有限,給系統的日常維護和管理帶來相當大的困難。隨著新技術發展、新業務系統推出和用戶不斷增多,陸續建設的電信網絡和支撐管理系統逐漸暴露出一些問題,主要表現在[1~2]:

1.1 缺乏統一的組織管理機制

各個信息系統都是分頭開發、分開運維的,這種運行維護模式會造成主要信息系統均各自擁有龐大的運行維護體系和維護隊伍。由于每個隊伍從事的事務有相當部分是相同的,組織管理體系的職能設置及價值配置沒有得到優化,水平協作及垂直管控能力較弱,跨部門的職責界定不清,實施上缺乏清晰的流程支持。

1.2 缺乏明確的IT服務管理流程

由于各系統運維歸屬部門不同,規章制度也不同,因此各信息系統的維護工作缺乏統一的維護流程和制度,更別說制定在此之上的SLA協議了。在目前“救火式”的系統管理維護模式下,管理人員很難有效地進行服務管理,無法保證IT服務的有效性和一致性,IT管理往往處于無序狀態。在問題集中發生時,沒有合理設定優先級,延誤了重要故障解決時間。

1.3 缺乏有效的IT服務管理手段

缺乏流程管理的電子化、自動化,導致無法跟蹤故障情況,不能有效利用歷史故障的發生頻率、發生類型、處理情況、解決辦法等知識和經驗,無法進行效率評估和考核。技術人員忙于應付突發事件和處理同類問題,管理人員無法判斷將要發生的故障,甚至不能及時發現已經發生的故障,無法對網絡、主機等網管系統進行全面的性能統計分析,也就無法全面了解網管系統的整體運行情況。

1.4 缺乏統一的資源管理

缺乏整體規劃,各個不同廠商的管理工具或軟件不能對資產和資源進行有效地管理,對這些管理工具的整合也非常困難,無法統一管理和調度資源,難以有效地分析資產成本效益和資源使用情況,難以同時對分散的各網管系統和主機等設備進行監控。

因此,我們需要引入以流程為導向,以客戶滿意和服務品質為核心的ITIL理論來對系統和設備等進行全面、集中、有效的監控和管理,進一步完善管理手段,規范管理流程,實現運維工作的電子化、流程化,提高整個計算機系統的穩定性和高可用性,保證各業務系統平穩、健康地運行。

2 IT服務管理體系介紹

在“提高IT服務質量”這個大方向下,英國于80 年代中期開發了一套針對IT行業的服務管理最佳實施經驗庫,稱為IT基礎架構庫(Information Technology Infrastructure Library, ITIL)。它以流程為導向,以客戶為中心,通過整合IT服務與企業業務,提高企業的IT服務提供和服務支持的能力與水平。

ITIL為企業的IT服務管理實踐提供了一個客觀、嚴謹、可量化的標準規范,企業的IT部門和最終用戶可以根據自己的能力和需求定義自己所要求的不同服務水平,參考ITIL來規劃和制定其IT基礎架構及服務管理,從而讓既有的信息化資源發揮更大的效能,確保IT服務管理能為企業的業務運作提供更好的支持。

在它的2.0版中,ITIL主要包括6個模塊,即業務管理、服務管理、ICT基礎架構管理、IT服務管理規劃與實施、應用管理和安全管理。ITIL結構示意如圖1 。

圖1 ITIL結構示意圖

ITIL的核心模塊是“服務管理”,這個模塊一共包括了10個流程和1項職能,這些流程和職能又被歸結為“服務提供”和“服務支持”2大流程組。前者關注IT服務的規劃和實現,歸納了與IT管理相關的5個戰術級流程,即服務級別管理、IT服務財務管理、能力管理、IT服務持續性管理和可用性管理。后者則側重在IT服務的日常運作任務上,歸納了與IT管理相關的1項管理職能—服務臺及5個運營級流程,即事件管理、問題管理、配置管理、變更管理和發布管理,屬于執行層的工作。

3 實施ITIL的思路和方法

ITIL是一套通用框架體系,在ITIL中定義了適合于各種IT組織的各流程目標、活動、輸入以及輸出等。該框架體系可以指導我們規劃流程、定義角色、職責和各流程間的關系等。然而,由于組織的差異性,ITIL并沒有給出每個流程活動該如何實施的詳細信息,而僅僅給出在實踐中被證明的統一方法,并且由于環境和條件的不同,這些方法往往以不同的方式實施。

因此,每個組織必須根據ITIL原則和自身實際來設計適合該組織自己的流程。對于IT運維服務管理來說,其最主要業務目標是保證IT基礎架構的系統正常、安全可靠、穩定高效地運行,為業務部門提供運營支撐、優質服務和技術保障。目前我們擁有的各類網管系統、業務支撐系統、OA、財務系統、CRM等IT系統,只保證了服務的質量和效率,標準流程則負責監控IT服務的運行狀況、人員素質關系到服務質量的高低。應針對IT管理的不同應用環境及企業自身的需求,按照ITIL方法論的指導,從技術、人員、流程3方面入手,建設ITIL服務管理體系。

(1)技術方面要以業務驅動,設計以ITIL為核心的IT系統體系架構,推動技術支持人員技能的全面和精深。

(2)人員方面進行IT組織結構、人員角色及職責設計,確保關鍵業務的服務質量,并能使之不斷改善。

(3)流程方面以“端到端的服務保障”為目標,搭建服務流程的框架,細化流程步驟,賦予崗位相應的職責。

這3個要素互相關聯、互相制約,共同決定組織業務運作的成效。ITIL強調的就是技術、人員和流程等要素的有機結合。

另一方面,由于ITIL核心流程眾多,對希望實施IT服務管理的組織而言,都面臨一個問題:如何合理有效地選擇和利用IT服務管理理論,以及由多家公司提供的功能千差萬別的工具來提高自己的IT管理水平,使其支持公司目前和以后的業務運營?

經驗表明,那些抱有過高期望、不分析現狀和實際需求、沒有全面規劃項目實施的組織往往會遇到一系列問題,如缺少計劃、費用太高、阻力太大等,難于成功實施IT服務管理實現預期目標,甚至使本來混亂的IT管理更加混亂。因此,必須站在公司和組織的高度,從整體上考慮IT服務管理的實施問題。

實施ITIL并不是要全部照搬、不加選擇的一股腦都上,應根據業務需要和特點選擇重點實施,先把目光放在那些易于達成的目標上(即能通過ITIL實施獲取最大價值的地方),結合戴明PDCA的環思想,不斷加以改進和提高。

4 ITIL在某電信運營企業中的具體實踐

某電信運營企業省級網絡支撐中心,管理著遍布全省的傳輸、程控、互聯網設備和幾乎全部的業務支撐系統,如省級DWDM環路,省干網、地市分公司IP城域網核心設備;客服系統、辦公OA、運維OA、建設項目審批系統、物資管理系統、DNS系統、寬窄帶認證計費系統與營帳系統、固話計費系統和營業系統、大客戶系統、號線系統、公司門戶網站和郵件系統、互聯網、信令網、交換網網管系統等。負責實時監控和維護全省范圍內骨干網絡運行情況和互聯網出口質量情況,及時組織處理各類故障與問題,對省內干線基礎通信資源進行調配,配置省干網、地市分公司IP城域網核心設備數據,統計網絡流量及時向上級主管部門提出網絡優化、擴容建議。

隨著公司業務規模的快速擴大,業務種類多樣化,前端各部門對運維部門工作質量的要求越來越高。網絡資源是電信業務開展、爭取客戶資源的基礎和保障,其工作的效率和質量是電信企業綜合實力的體現,其質量的好壞直接關系著服務質量。如何提高資源的有效利用率,協調省分公司的網絡維護工作等是運維工作首要考慮和解決的問題[3]。該電信運營企業運用ITIL思想、先進實用的技術手段,整合運維生產的各類業務流程,構建出高效、全面、安全與可靠的運維信息系統,實現運維工作的制度化、流程化、規范化、電子化和高效化管理,重點在以下幾個方面進行了實施:

4.1 管理制度

嚴格按照標準機房要求,建立了各種制度,包括:值班制度、交接班制度、崗位責任制度、外來人員入室制度、機房安全制度、維護工作紀律、故障管理制度、技術資料管理制度、備件工具儀表管理制度、工單執行管理制度、保密制度以及二線值班制度等,將重要制度在機房、值班室內上墻,所有制度均打印放在值班室備查,并堅持按照制度嚴格執行。

4.2 故障處理

按照緊急程度不同,分緊急、重大故障、個別用戶上報3種故障級別,明確故障處理流程、操作步驟和處理時限要求,明確省網管中心和地市維護中心的職責分工。對于發現的問題,由10050客服中心統一受理,系統形成故障處理工單并下發到相關部門,按照5清要求記錄故障處理時間、地點、過程、原因、影響范圍,返回故障發現方確認,形成閉環電子記錄。在故障跟蹤上,采取周報和月報結合公布的方法,如每周統計每個分公司當周的故障申告率、處理完成率和處理及時率,以及“三率”的環比,每月統計并公布各地市分公司故障工單超時率和重復率情況,納入考核工作。

4.3 設備配置管理

對省網管中心負責的核心交換機、路由器等設備的路由數據、策略數據、接口數據、地址池數據、設備管理權限數據、認證數據、vlan劃分數據、互聯網出口的流量調整數據,各類小型機、服務器的硬件參數、各類系統的用戶數據、系統數據進行統一管理,構架了IT基礎設施清晰又彼此關聯的資產臺賬。

4.4 集中監控

對省互聯網省級中心管理范圍的網絡運行情況集中監控:包括監控省干網、城域網設備的狀態、端口狀態、鏈路狀態,做好設備性能監控、端口流量監控、設備日志監控,異常流量監控,互聯網自租出口的流量監控與出口擁塞程度監控;對DNS系統解釋成功率,解釋時延進行監控,對寬窄帶認證計費系統與營帳系統的認證,業務受理功能和系統服務器的狀態、性能、存儲空間進行監控。

4.5 主動式性能分析

每日對自租出口進行測速,對于由于流量擁塞引起的質量下降,及時進行流量調整。每日對網絡流量成份進行統計,分析流量波動超過10%的原因。每月對系統的用戶到達數,曾經上線數、用戶上網時長、平均用戶上網流量等數據進行分析,對比用戶行為的變化趨勢。每周對地市城域網省干上行鏈路帶寬利用率進行分析,如果上行鏈路出現鏈路連續3天利用率超過70%就提出預警,超過80%就提出向資源調度部門擴容申請。

4.6 強化用戶質量管理

使用ADSL端口速率達標率和IP城域網網絡時延合格率2個指標,進行監測寬帶用戶接入質量。采取進出口測試和隨機測試相結合的方式,加強面向用戶感知的端到端質量管理。通過精細化路由策略,優先指向骨干網出口;采取流量分時段流控,實現削峰填谷,提高合理業務用戶的上網感知度;在出口流控設備上采集用戶行為分析報表,積累歷史數據,為今后的流量分析、流量調整和流控策略優化提供依據。策略應用前后端口流量對比如圖2。

圖2 策略應用前后端口流量對比效果圖

通過實施IT服務管理,公司節約了運維成本,提高了工作效率,促進了運維管理結構的變化,提高了網絡調度開通、故障處理等的效率,取得較好的效果。統計數據顯示,運維成本逐漸降低,而運維質量在逐年提升。

5 結束語

目前,我國電信運營商間一味拼覆蓋、比放號的時代即將過去,“服務競爭”的時代已經來臨。電信行業應站在整個行業組織的戰略高度,基于其業務特性,引入IT 服務管理的方法論,基于整個組織的IT運維管理,有針對性地提出具體改進方法與實踐。這是一個長期的系統化的優化改善過程,只有各方共同聯手,ITIL的最佳實踐方法才能最終生產出豐厚的果實。

[1]孫 強,左天祖,劉 偉. IT服務管理[M]. 北京:機械工業出版社,2004.

[2]陳 龍,張春紅,云 亮,等.電信運營支撐系統[M]. 北京:人民郵電出版社,2005.

[3]柳向前. 在電信運營商的運行維護系統中應用ITIL[J]. 現代電信科技,2005(4):63-67.

猜你喜歡
運維流程監控
The Great Barrier Reef shows coral comeback
吃水果有套“清洗流程”
運維技術研發決策中ITSS運維成熟度模型應用初探
你被監控了嗎?
Zabbix在ATS系統集中監控中的應用
風電運維困局
違反流程 致命誤判
雜亂無章的光伏運維 百億市場如何成長
本刊審稿流程
析OGSA-DAI工作流程
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合