?

基于增強現實(AR)、深度學習與大數據技術的分布式水電站智慧檢修系統研究

2024-01-12 11:10
水電與抽水蓄能 2023年6期
關鍵詞:集群運維檢修

王 靖

(華能瀾滄江水電股份有限公司,云南省昆明市 650000)

0 引言

水電是我國清潔能源的重要組成部分,為保障水電機組穩定運行,水電機組及線路需要定期進行檢修。隨著信息技術的發展,智慧電廠技術不斷發展,智慧檢修技術作為智慧電廠建設的重要組成部分,成為水電信息技術創新的重要課題。

在智慧檢修技術的初期,研發人員專注于檢修生命周期的管理[1],但是這些系統智能程度依舊不高,易用性有待發展。為了加強智能檢修系統智能程度與自動化程度,減輕運維人員的工作負擔。目前,智慧檢修的研究方向主要集中在如何將人工智能技術與大數據技術引入檢修過程管理中。[2]

本文提供一種智慧檢修系統的架構設計與技術細節。該系統集成了人工智能、大數據、AR 等多項前沿技術,在前人的基礎上,創新性地使用了AR 這一沉浸式的人機交互接口,提供檢修數據與故障信息的“所見即所得”,并提供了遠程協助等功能。同時,該系統通過分布式集群實現了高效、健壯、靈活的深度學習計算平臺,使得人工智能可以運用到檢修故障排查中。

1 水電站智慧檢修系統架構[3]

1.1 系統功能

(1)檢修生命周期管理:運維人員通過管理終端可以提前規劃檢修方案、實時查看管理檢修進度、協調各專業人員配合。當前的設備情況、系統各項參數、報警情況、檢修進度會在大屏上通過可視化的方式顯示,方便運維人員快速了解當前檢修工作概況。在檢修過程中,AR 會記錄使用者的信息,并對檢修過程實時錄像,方便后續取證與歸檔,檢修人員可以隨時通過AR 交互記錄各種數據,方便系統自動生成檢修報告,比手工將數據逐個錄入計算機的傳統模式更加節省時間。

(2)智慧故障排查:運維人員監控系統報警并找到故障原因后,可在終端中錄入故障原因及處理方法。在看到肉眼可見的裂紋、滲漏等設備缺陷時,也可以通過AR 頭頭顯拍攝故障部位照片及記錄故障原因、處理方法。以上兩類數據會定期輸送到大數據集群中進行深度學習。此后監控系統出現報警時,深度學習系統便會報警信息自動推測最為可能的故障原因,并提供解決方案。同時,在AR 頭盔拍攝到肉眼可見的設備缺陷時,也可以請求深度學習系統推測故障原因,給出排除方案,并將故障成因和排除方案顯示在AR 畫面上。

(3)智慧HUD:運維人員戴上AR 頭盔后,可以實時看到視野中的設備所具有的參數(如溫度、轉速、帶電情況、IP 地址等)與報警信息。幫助運維人員更加安全、便利進行檢修工作。

(4)AR 遠程指導:由于專家或有經驗的運維人員可能不能及時來到檢修現場,該系統允許專家通過客戶端查看AR頭顯的攝像頭,通過語音通話與畫面標注的方式指導經驗不足的運維人員進行檢修工作或提供技術支持。

部分功能的示意圖如圖1 所示。

圖1 智慧檢修示意圖Figure 1 Schematic diagram of intelligent maintenance

1.2 系統分層

由于該系統包含計算集群與多個終端,結構較為復雜,所以在設計與實現時,應該采取分層的方案,并盡可能減少層級間的依賴關系,使得各層級的開發可以并行開展,運維可以分離進行[4]。系統共分為應用層、數據流層、持久層、物理層四層,如圖2 所示。

圖2 智慧檢修系統分層Figure 2 Layered intelligent maintenance system

下面分別介紹每個層級的組件與功能。

1.2.1 應用層

應用層包含一系列建立在一定運行機制、存儲與計算框架上的用戶可見的應用。為了適應靈活多變的需求與動態變化的環境,這些應用應該滿足API 簡單、使用高級程序開發語言(如Python,Java)開發、開發周期短等特點。運維人員通過應用層對系統進行使用與管理。

下面是本系統應用層的組成部分:

(1)AR 應用:提供AR 使用者與增強現實空間交互手段的一系列程序。包括自動錄像、HUD 顯示、遠程指導、故障管理、檢修記錄等程序。使用AR 硬件廠商提供的API 及Unreal 等引擎開發。

(2)深度學習應用:用于處理用戶標注,利用模型進行推理,定期訓練深度學習模型等業務。使用Python 進行開發。對于時序數據(如標記了故障原因的報警信息)可以使用長短期記憶神經網絡(LSTM)進行訓練。對于圖像數據(如設備缺陷畫面)可以使用卷積神經網絡(CNN)進行訓練。同時,可以對報警信息進行簡單的無監督訓練,如K-Mean 聚類。

(3)可視化應用:基于B/S 架構的用戶友好的前端,該前端通過Ajax 等技術異步更新需要可視化的數據或消息,并通過Echarts 等可視化框架向用戶展示可視化圖表與消息(如故障信息等),可使用HTML、JavaScript 進行開發。

(4)大數據管理應用:大數據管理應用運行在分布式集群的Master 節點上,用于管理計算資源與存儲資源、數據輸入/輸出流、數據冗余備份,以及訓練好的機器學習模型。并能在數據進入深度學習模型之前提供預處理服務,可使用Java 或Scala 開發。該應用應該由監控專業人員使用。

(5)系統管理應用:基于C/S 或B/S 架構的管理程序,輔助管理員對AR、深度學習、可視化等模塊進行配置與統一管理,提供對整個檢修生命周期各組事件規劃管理追蹤的功能。該應用應支持多個用戶權限等級,并自帶離線調試、日志審計等功能,可使用Java 或C 語言進行開發。該應用供運維人員使用。

1.2.2 數據流層

數據流層包含了進行數據分發、消息機制、數據預處理、計算調度、深度學習所需的框架和運行環境。應用層的計算業務和傳輸業務需要建立在數據流層上運行。引入這樣一個中間層的目的是為應用層開發者提供一系列軟件基礎設施,這些軟件基礎設施與應用是解耦合的,這就分離了計算資源的管理與業務的管理,大大減少了系統運維人員的負擔。

下面是本系統數據流層的組成部分:

(1)流數據計算引擎:這里使用Flink 作為流數據計算引擎,該引擎在數據管理應用的調度下,會將所有實時數據進行預處理(如分組、分窗等),并向特定的深度學習模型發送,并輸出模型推理結果。

(2)歷史數據計算引擎:這里使用Spark 作為歷史數據計算引擎,該引擎在數據管理應用的調度下,會定期將標注好的歷史數據經過抽樣、聚類等預處理后輔助深度學習應用進行模型訓練,并在計算過程中調度用于深度學習的計算資源。

(3)深度學習環境:為深度學習應用提供基礎框架,提供神經網絡等模型的訓練、預測、構建的底層支持??梢允褂肨ensorFlow 或PyTorch 構建。

(4)消息機制:為應用層不同業務之間,應用層與數據流層之間提供跨節點的消息分發機制,用于通信、控制與消息告知。使用Kafka 進行構建。

1.2.3 持久層

持久層包含大數據集群的存儲管理、節點管理及硬件資源管理,數據(倉)庫,程序所需的運行環境,操作系統等軟件基礎設施,該層為上一層的計算調度提供資源支持、存儲支持以及環境支持。一般在配置并部署好之后不會輕易變動。除非發生故障或硬件資源不足,運維人員無須特別關注本層。

(1)永久數據倉庫:用于存儲AR 錄像、通話錄音、檢修文件、監控報警記錄、深度學習模型備份等需要長時間存儲的數據內容??苫贛ySQL、達夢(適合表格類數據)、Hive(適合非結構化數據)等多種數據(倉)庫部署。

(2)大數據集群:該集群基于谷歌的大數據框架Hadoop部署,運行在多臺計算能力高的硬件設備上,使用HDFS 文件系統組織各個節點的數據,由Zookeeper 進行協調、同步。所有參與運算的數據和深度信息模型都存儲于集群上等待數據流層調度。

集群由Master 節點與多個Slave 節點構成,采用主-從分布式架構。大數據管理應用應該運行在Master 節點上。

(3)其他軟件基礎設施:操作系統(Windows、Linux、銀河麒麟等),Java 虛擬機,Python 環境等。

1.2.4 物理層

運行系統的物理終端與連接終端的網絡設備,主要包含以下組成部分:

(1)網絡設備。包含橫向隔離、縱向加密、防火墻等安全設備與交換機、路由器、物理鏈路等傳輸設備。

(2)AR 設備??蛇x擇Rokit、Nreal、雷鳥等廠商提供的AR 頭顯。

(3)大數據集群服務器及其機架、機柜:包含高性能GPU、大容量固態硬盤等組件。

(4)永久數據倉庫服務器及其機架、機柜:用于部署永久數據倉庫。推薦在原有歷史數據服務器、數據采集服務器的基礎上進行擴展。

(5)顯示終端與管理終端:顯示終端可以使用LED 大屏或臺式電腦。管理終端可以使用臺式電腦。

1.3 業務邏輯

本系統的業務邏輯如圖3 所示。

圖3 智慧檢修業務邏輯Figure 3 Smart maintenance business logic

接下來對圖3 中的業務邏輯進行說明,括號內為圖3 中箭頭的序號:

監控系統向顯示終端(1)和永久數據倉庫(2)傳送實時數據,顯示終端將其可視化展現給運維人員,而永久數據倉庫則將其存儲在數據(倉)庫內。與此同時,一部分摘要性的永久數據也會被送到顯示終端可視化展示(14)。

深度學習應用定時發起歷史數據訓練任務,該任務將歷史數據發送到大數據集群(3),Master 節點上的大數據管理應用開始調度計算資源進行模型訓練(4),更新存儲的模型。

當監控系統發出報警(5)或AR 頭顯拍攝了設備缺陷照片(8)時,深度學習應用發起流數據推理任務(6),大數據集群中的模型推理出可能的故障原因后,會在顯示終端(7)和AR 頭顯(12)上顯示。

在檢修時,AR 會實時錄像并上傳至永久數據倉庫(10),監控端的實時設備參數(9)和永久數據倉庫的永久設備參數(11)也會上傳至AR。遠程專家通過AR 與運維人員溝通,并通過共享屏幕的方式實時指導檢修工作(13)。運維人員通過管理終端管理整套系統(15)。

2 AR 技術

增強現實(AR),是一種實時地計算攝影機影像的位置及角度并加上相應圖像的技術,是一種將真實世界信息和虛擬世界信息“無縫”集成的新技術,這種技術的目標是在屏幕上把虛擬世界套在現實世界并進行互動[5]。典型的AR 設備如圖4 所示。

圖4 AR 設備及其使用示意圖Figure 4 AR device and its usage diagram

AR 作為現實與虛擬的融合,天然適合HUD 的顯示。目前市面上的AR 產品多數據有詳盡的針對不同編程語言的開發接口以及即插即用的集成模塊(如物體識別等),AR 開發者只需要與其他系統做好文檔上的約定,便可以JSON、XML 等數據序列化模型便捷地進行通信,降低耦合程度。

從水電檢修實用性的角度來說,AR 頭顯比起VR 頭顯更加輕巧、便于佩戴,可做成眼鏡樣式,不干擾安全帽的佩戴與檢修工作的正常進行,實踐中具備較高的可行性。

3 數據處理技術

數據處理是智慧檢修系統,甚至是目前智慧工業系統的主流研究對象,物聯網、邊緣計算、人工智能、大數據等新興技術都在圍繞著數據的傳送、存儲、變換、利用展開。本節將詳細闡述智慧檢修系統數據處理技術的具體細節。

3.1 分布式系統

分布式系統是大數據的一大特征,也是未來數據中心的主流發展方向。本系統的分布式集群為“主—從”式,由一臺運行著大數據管理應用的主機擔任Master 節點,該節點管理著若干臺高性能服務器作為Slave 節點參與并行計算與存儲。

3.1.1 分布式存儲技術

分布式存儲技術主要運用在永久式數據倉庫、大數據集群上。數據彌散在集群的各個節點上,具有多份存儲于不同節點上的備份,比起傳統數據庫有較好的容錯率和組織性,即使一兩臺機器宕機也不會影響系統運行。數據倉庫是面向主題的,持久層開發者應該考慮數據的高效組織,方便數據流層進行數據分析。[6]

3.1.2 分布式計算技術

分布式計算技術比起傳統計算的好處是并發性強,在硬件性能不高的前提下能夠保證計算速度高,比起傳統計算數據移動到計算節點的模式,計算在數據節點中移動的模式對于大數據來說更為快捷。[7]

3.2 深度學習技術

深度學習技術作為人工智能技術的重要組成部分,將作為智慧檢修系統的“大腦”輔助運維人員排查故障,其主要模型為兩類神經網絡,下面將分別介紹。

3.2.1 卷積神經網絡(CNN)

卷積神經網絡是一種適合做圖像識別的神經網絡,由卷積層、池化層、全連接層組成。其中,卷積層會使用卷積核(本系統推薦使用高斯核)與圖像做哈達瑪積,提取圖形中的特征點,并經過池化層放大特征后輸出給全連接層進行分類。CNN 結構如圖5 所示。

圖5 卷積神經網絡Figure 5 Convolutional neural network

在本系統中,可以使用CNN 的實例AlexNet 作為圖像數據的主要訓練模型,該模型由Geoffrey 與Alex 在2012年提出[8],AlexNet 通過DropOut 等方式對CNN 進行了改進。這一模型輸入設備缺陷圖片,輸出可能的故障類型。在實際使用過程中可以用已有數據預訓練一個模型再投入使用。

3.2.2 長短期記憶網絡(LSTM)

長短期記憶神經網絡是一種門控的循環神經網絡,適用于時間序列數據。該神經網絡在循環神經網絡的基礎上為了保留序列中較為久遠的影響因子,引入了遺忘門、輸入門、輸出門進行控制,能夠保留序列中的長期因子與短期因子對序列發展的作用。LSTM 結構如圖6 所示。

圖6 LSTMFigure 6 LSTM

在實際生產環境中,一個故障往往會引發多個監控系統報警信號的發出,這些信號在時間上可能較為密集,也可能較為彌散,有些故障對報警信息的影響可能是隱性的,關系不明顯。例如某電廠多個LCU 與遠程I/O 系統發出一般報警,經過調查,報警原因為上位機SCADA 服務器時間不同步,該原因看似與報警信息毫不相干。而經過訓練后,LSTM 能夠通過報警信息較為準確地推測故障成因。[9]

4 總結

本文在前人的經驗下,探討了一種融合AR、深度學習、大數據等新興技術的創新型智慧檢修系統,突破了水電智慧檢修直觀程度、智能程度不足的壁壘,并從功能、層級結構、業務邏輯、技術細節等方面闡述了該系統的相關內容。

盡管本系統創新性強、實用性高、可擴展性好,但仍然存在許多可以改進的地方,例如實際生產環境中的報警數量可能較少,這會導致模型泛化性能不佳,一個可行的解決思路是將多個電廠的數據集中到一個遠方的數據中心進行模型訓練與集群管理[10],這也將成為該系統后續改進的主要方向。

猜你喜歡
集群運維檢修
海上小型無人機集群的反制裝備需求與應對之策研究
運維技術研發決策中ITSS運維成熟度模型應用初探
檢修
風電運維困局
一種無人機集群發射回收裝置的控制系統設計
雜亂無章的光伏運維 百億市場如何成長
Python與Spark集群在收費數據分析中的應用
勤快又呆萌的集群機器人
電力系統繼電保護二次回路的維護與檢修
基于ITIL的運維管理創新實踐淺析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合