?

中央電視臺高端島3后期制作網絡監控系統的實現

2016-11-16 08:18韓桂芝
演藝科技 2016年4期
關鍵詞:存儲設備監控系統流程

[摘要]介紹中央電視臺高端島3后期制作網絡監控系統的架構,以及其對制作設備、制作服務、存儲設備、制作流程等環節監控的實現。

[關鍵詞]監控系統;高端制作島;電視制作;制作設備;存儲設備;流程

文章編號:10.3969/j.issn.1674—8239.2016.04.012

中央電視臺新址綜合制作域包含了混合制作島、高端制作島、常規制作島、新介質島、新線性編輯制作島等多個后期制作子系統,其中高端制作島3(以下簡稱高端島3)主要用于復雜專題節目以及大型演播室直播節目的后期制作,其建設目標是打造全高清、全文件的強大制作平臺。

高端島3主要面向精細編輯制作,擁有每天不少于20小時的高清成品節目生產能力,并實現了設備國產化的目標。制作設備主要包括36套精編工作站、16套草編工作站、4套合成工作站、2套配音工作站,此外還包括多臺實體機和虛擬機后臺服務器,生產規模較大。因此,在發生一些突發或不可避免的系統故障時,值班人員可能會面臨較大的排查壓力。同時,島內制作任務采用了全自動化流程控制,隨之而來的則是大量的流程管控問題。為保證島內業務正常運行、生產任務順利完成,高端島3配備了制作監控系統,用以向業務管理人員統一展現設備流程業務狀態,并對異常情況及時告警。

高端島3監控系統于2014年底開始設計實施,2015年交付使用,在項目的調研設計和實施的過程中,設計者本著全可視化、安全智能、及時準確的設計原則,充分考慮島內業務流程特點、制作規模、使用人員操作習慣,并結合數據來源多樣的優勢,有機整合和采集指標,最終有效實現了監控數據可讀易讀、告警有效及時、故障點反映準確等功能特性。

本文討論高端島3監控系統主要監測對象的監控實現方式和經驗,包括機房制作設備及業務的監控實現、存儲系統的監控實現,以及制作流程的監控實現。

1.監控系統架構

在邏輯架構上,高端島3監控系統主要由數據采集、策略管理和報警顯示三部分組成。

如圖1所示,高端島3監控系統采用B/s架構建立匯聚分析和報警顯示模塊,采用c/s架構建立數據采集模塊。采集機制及實現方式為:通過定時輪詢加主動上報機制獲取監測對象的性能、配置和故障數據信息;能夠對標準SNMP中MIB管理數據進行采集,并可接收、解析和翻譯SNMP trap;同時支持多種擴展采集手段,如數據視圖讀取、WMI、ModBus、Web Service等。匯聚分析顯示模塊對采集上報的監控數據進行策略決策和數據展現,將Canvas畫面實時顯示等。HTML5技術用于B/S化網頁報警頁面,使數據表達更加準確和具象。數據采集模塊與匯聚分析模塊采用了不同的開發架構,為保證彼此消息交互的準確性和時效性,經反復實驗,兩個模塊之間的消息通訊方式采用了Apache Thrift的Socket通訊機制,在采用傳輸JSON消息字符串的同時,使用Thrift內置的對象序列化機制,優化了通信效率。

高端島3監控系統采用兩種開發架構的有機結合,充分運用了不同架構的優勢,使各個模塊保持了相對獨立,使系統穩定易維護。

2.制作設備及服務監控的實現

2.1制作設備監控

作為高端島3的監控系統,最基本的一項功能就是實現對這些設備的基本關鍵指標參數(Key PerformanceIndicator,以下簡稱KPI)的監控,如CPU使用率、CPU溫度、內存使用率、主要進程、網口使用率等,并按照閾值實現多級報警。

在本監控系統中,以上各項監控項可通過采集端進行采集與匯聚。該采集模塊可通過各種監控協議(如SNMP協議)與監控對象通訊、采集監控信息,經過歸一化后寫入數據庫或提交匯聚展現端。當采集到的前述監控對象指標出現異常時,B/S展現端通過投放大屏的客戶端頁面向值班人員報警。高端島3內制作設備KPI數量眾多,為保證數據采集不會造成網絡通訊壓力,本系統對制作設備KPI按重要性進行分級,對不同級別KPI按照5秒、10秒、15秒等多個輪詢周期進行數據采集,從而實現在減輕網絡通訊壓力的前提下降低漏報發生的可能性。

監控系統根據高端島3現場實際情況繪制了機房平面圖,如圖2所示,島內設備KPI觸發報警閾值時,平面圖中相應設備以相應告警級別顏色做出顯著提示,提醒值班人員查看具體問題。KPI類型、二級告警觸發閾值和告警策略均可人工設置,并根據島內用戶使用習慣,生成不同形式的圖表、報告,可呈現如KPI趨勢曲線圖、錯誤日志分布餅圖、磁盤使用餅圖等方式的圖形化展現效果。

另外,高端島3使用的非線性編輯工作站等設備有部分重要配件無法通過SNMP或WMI協議獲取狀態,例如非編板卡等。但這些配件的狀態能夠直接反應非編工作站的I/O狀態,這是業務管理人員尤為關心的。對此,監控系統的實現方式為:在非編工作站安裝自啟動后臺代理端,由代理端調用非編板卡sDK獲取板卡溫度、鎖相狀態、電壓狀態等KPI,通過thrift消息發送給監控采集端,經由集中監控端分析后展現在前臺頁面。

同時,對于協議監控和代理監測存在交叉監測的部分,例如非編工作站在線狀態及設備整體告警狀態等,為保證監測的準確性,監控系統按照表1所列狀態真值表計算后,展示最終監測結果。

2.2制作服務監控

對于高端島3中的非編制作系統,除了設備硬件狀態外,業務管理人員同時還較關心與業務相關的制作服務是否正常。這些狀態包括:每臺非編工作站的登錄人員、登錄時間、是否出現丟幀、工作站連接數據庫是否正常等。

這類監測指標由于其特殊性,監控系統無法直接通過監測協議或代理程序從非編工作站獲取,而是通過調用非編系統服務查詢Web Service接口獲得所有業務狀態后統一分析,按照IP地址等一致性條件將業務狀態與通過其他渠道采集的設備狀態整合后,統一展現在非編系統監控界面,見圖3、圖4。

3.存儲設備監控的實現

3.1存儲設備狀態監控

在極端情況下,高端島3的36臺精編工作站需要各自同時進行4軌實時播放,這是比較考驗存儲系統壓力的,所以對存儲系統的狀態監控是本系統的一項重點任務。高端島3選用的是國內某著名存儲品牌的分布式NAS存儲產品,使用見圖5,硬件平臺包括網絡和物理節點及節點內的硬盤、網卡、NVDIMM、內存等。該存儲硬件部分采用全對稱架構設計,最小的獨立存儲單元是節點,每個節點提供38T有效容量和500MB/s的帶寬輸出,支持3~288節點彈性無縫擴展,高端島3此次采購了8個節點。

該存儲系統能夠比較完善地支持SNMP協議監控,監控系統可根據協議獲取存儲的各項KPI指標。但由于存儲系統結構較復雜、監測指標眾多,如何將數據有效地組織和展現為業務管理人員需要的形式,是需要監控系統合理設計的。

為了實現這一點,本監控系統對存儲系統的狀態采集和展示建立了三級模型:第一級為整個存儲系統的運行情況;第二級為存儲節點的運行情況;第三級為單塊硬盤的運行情況,見圖6。業務人員可從第一級監控模型獲取整個存儲系統運行是否正常、平均資源的使用率等總體信息,當需要了解節點或硬盤的詳細運行情況時可通過模型不同層級的鏈接跳轉。

另外,由于存儲的監控指標數量龐大,若統一以較小的時間間隔按照SNMP協議輪詢,可能會對存儲與監控間的通訊造成壓力。例如存儲含8個節點,每節點38塊硬盤,每塊硬盤包括溫度、轉速、使用率等10多項KPI,因此,僅硬盤一項需要查詢的KPI指標就達數千項。對此,監控系統采用對KPI重要性分級的方式,為不同級別的KPI按重要性分配不同時長的輪詢間隔,以降低監控查詢的通訊壓力。為了避免低級別KPI輪詢間隔較長可能造成的報警不及時問題,本監控系統將SNMP輪詢和故障Trap主動上報相結合,見圖7。存儲系統自檢到故障時通過Trap方式將故障問題點和故障描述上報,監控系統按照報文查詢和顯示詳細故障問題,確保告警及時、詳細,無漏報情況發生。

此外,對于部分存儲系統無法完整提供的數據,監控系統需要從多種渠道采集信息并分析組裝后呈現,見圖8。例如,業務管理人員關心客戶端帶寬占用情況,通過監控系統的協議只能獲取到各存儲節點與客戶端的連接帶寬,但無法獲取客戶端主機名稱等資料,直接展現該數據會給使用人員造成問題定位不便的困難。對此,監控系統將存儲監控信息和機房制作設備監控信息結合分析,按照一致性條件進行數據整合展示,方便用戶查詢。

3.2存儲配額監控

除硬件性能指標外,高端島3存儲系統的配額管理功能也是業務管理人員非常關心的。高端島3為實現有效的空間管理,每個制作欄目以及單集節目的存儲空間會被分配以硬配額、軟配額等存儲空間限制指標,欄目配額使用超出計劃時監控系統需要及時提醒管理人員處理。

高端島3節目配額的管理實現,是由管控系統配置相關數據后調用存儲系統的配置接口,最終由存儲系統在文件底層實際控制配額空間的使用管理。對此,監控系統可通過數據庫視圖查詢和Web Service接口調用方式從管控系統中獲取配額元數據,并以SNMP協議從存儲系統獲取配額使用情況,同時綜合Trap形式的配額告警信息,將以上各項數據整合為業務管理人員可讀的配額信息后進行大屏展現,并在配額超出閾值時,對相應的欄目存儲使用空間做出及時告警,從而實現與配額相關的存儲業務監控,見圖9。

4.制作流程監控的實現

4.1流程進度監控

高端島3的制作業務中,各節點是由多種入島和出島流程串聯而成的,這些流程主要靠服務總線系統驅動。一旦制作流程出現問題,會對島內的制作業務產生嚴重的影響,所以,將流程的數量、狀態、詳情、報錯等信息綜合反映在制作監控系統中是極有必要的。

對流程加以監管,至少要滿足兩點要求:一是監控角度能著眼全局,覆蓋整個流程節點,形成宏觀視角;二是能夠對海量細節數據進行綜合分析,兼顧微觀視野。只有滿足以上兩點,監控人員才能在流程發生問題時迅速定位問題并分析和解決問題。對此,監控系統采用從總線系統讀取數據視圖的方式獲取流程相關數據,并經過分析后加以展現。

對于流程監控的全局視角,監控系統可監測所有類型業務流程的運行狀態,并按照運行、暫停、出錯、完成等情況進行分類顯示和告警,使業務管理人員全面掌握流程數量和狀態,同時及時掌握流程出錯環節,做出相應的有效處理。其實現方式為:

(1)監控系統從總線系統數據視圖中獲取所有流程定義,并按照業務需求進行入島流程和出島流程的分類;

(2)按照流程定義獲取當前所有運行中的流程實例,并按照運行狀態分類展現;

(3)對于出錯的流程實例,關聯查詢其所涉及的流程節點實例,并按照出錯類型和出錯數量統一展現。

對于流程監控的微觀視角,監控系統可分析和展現流程中所涉及的所有流程變量,業務管理人員通過詳細查詢流程變量,可了解該流程實例的健康詳情,對于出錯流程,可通過查看流程變量值分析錯誤原因并排查故障。

4.2多系統流程復合數據分析及報警

除了對高端島3內流程類型、數量及狀態的及時展現和告警外,在日常的業務管理工作中,工作人員對流程數據往往還有更多的監控需求,以便在流程故障發生之前及時定位問題并分析原因,例如:流程所涉及節目的送播關門時間、提交人員信息、打包合成等能力系統任務處理狀態、執行進度、帶寬占用、配額占用等。而以上各項數據僅從總線系統的數據庫視圖中無法獲取,這就需要監控系統從更多的渠道獲取信息并綜合分析流程狀態后進行統一展現。

為保證島內節目能夠在規定時間內及時送達播出系統,監控系統需要在以下各種情況下對流程狀態進行告警,以便提醒工作人員及時處理異常情況:對于播前24小時仍未發起入庫流程的節目進行低級別警告;對于播前12小時仍未發起入庫流程的節目進行高級別報警;對于播前24小時的所有流程進行分色高亮提示。由于總線系統的數據庫中只能查詢到已發起的流程,同時節目的播出時間存儲于管控系統而不是總線系統中,所以監控系統需要對總線系統和管控系統進行跨庫聯合查詢,按照節目代碼、關門時間、是否正常發起流程等條件對節目信息進行綜合分析,并按照告警策略配置篩選出問題節目,分級別在告警界面進行統一展現和提示,見圖10。

另外,高端島3的流程中通常包含外系統任務調用節點,這是因為素材在入出庫過程中需要在總線系統之外的能力系統中完成素材打包渲染、MD5計算、遷移等處理任務。此類任務通常處理時間較長,所以它們的任務執行狀態是否出錯、任務執行進度百分比、打包效率是否正常,以及相應節目素材的存儲帶寬占用、存儲配額占用等具體數值信息往往是值班管理人員關心的。對此,能力系統、打包合成系統、存儲系統均提供了WebService或其他服務查詢任務狀態、任務進度、帶寬占用、配額占用等數據,供監控系統調用。

在監控系統中,如果監測到流程進行到了外系統任務調用節點并出現停留等待,監控系統會根據流程定義確認外系統任務類型,并根據配置分別調用相應的查詢接口,或使用SNMP協議讀取相關后臺應用服務器的讀寫帶寬,將任務執行狀態、任務執行進度、配額占用、帶寬占用等信息統一顯示在流程監控界面,方便值班業務人員進行管理查詢,如圖11。

通過高端島3監控系統項目的設計和實現,島內監控工作的有效實行有力保障了每周提供40小時高清成片的生產能力,初步實現了項目規劃的目標。 作者簡介:

韓桂芝,2000年起任中央電視臺技術制作中心錄制二部視頻編輯,現任該部網絡管理員,主要負責監看制作區設備、保障制作流程順利運轉和制作島節目安全播出。

猜你喜歡
存儲設備監控系統流程
吃水果有套“清洗流程”
違反流程 致命誤判
Windows 7下USB存儲設備接入痕跡的證據提取
無線廣播電視安全優質播出的技術分析
縣級區域雨量站觀測設備監控系統的研究與設計
基于Zigbee技術的煤礦井下通風機監控系統設計
基于Flash芯片的新型存儲設備數據恢復技術研究
本刊審稿流程
析OGSA-DAI工作流程
用批處理管理計算機USB設備的使用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合