?

軌道交通AI應用開放平臺

2022-12-02 12:34王泉東
控制與信息技術 2022年1期
關鍵詞:子系統云端邊緣

林 軍,劉 悅,王泉東,游 俊,丁 馳,劉 任

(中車株洲電力機車研究所有限公司,湖南 株洲 412001)

0 引言

2021年國家頒布的“十四五”規劃[1]中明確指出,發展算法推理訓練場景、推動通用化和行業性人工智能開放平臺的建設具有重要意義。在深度學習、邊緣計算及云邊協同等諸多關鍵技術的突破和推動下,人工智能(artificial intelligence,AI)作為當代最具代表性的使能技術,受到各行各業的歡迎?,F階段,AI應用仍然以公共安全、交通、金融及教育等成熟的專業性領域為主,其他行業對AI技術的應用需求雖然廣泛存在,但由于場景的多樣性和需求的高分散性,使得AI技術的滲透相對較淺。技術與場景不能有效結合成為智能化落地的壁壘。

過去幾年,在互聯網科技、AI以及智能安防等領域,以華為[2]、百度[3-4]和??低暎?]等為代表的公司陸續推出了AI開放平臺。這些平臺均以“普惠AI”、降低AI應用門檻為核心理念,功能上大同小異,但不同的平臺在不同環節都有針對性的核心技術來解決相應的問題?;诠性频腁I平臺建設通常以攫取商業利益為驅動,具有“重云弱邊”、按功能付費的特點;而云計算過度依賴網絡環境,難以保證用戶的隱私安全和實時性要求,因此這種模式無法滿足軌道交通多樣的應用需求以及行業數據保密性要求[6]。

隨著智能化技術的飛速發展,傳統產業的智能化升級已成為軌道交通行業的核心訴求。然而軌道交通的應用通常具有多需求、小批量的特征。以圖像識別為例,列車自動駕駛[7]、人機交互[8]、鋼軌傷損檢測[9]、公里標識別[10]、制造場所人員安防、車輛檢修服務機器人及弓網狀態檢測[11-12]等典型場景涉及車輛、工務、安防、車站及供變電等多領域且種類繁多的產品,通用人工智能技術顯然無法滿足個性化的應用需求。此外,軌道交通業務數據量不足、保密性高、樣本數據不均衡、缺乏AI模型設計集成與部署能力、上下游資源整合慢及終端計算能力弱等因素嚴重制約了軌道交通智能化產品的快速工程化落地。針對該問題,本文從數據服務、模型算法服務和應用服務等維度建設關鍵能力,封裝共性技術,提供零門檻、一站式、云邊一體化的AI應用開放平臺。該平臺的開發包括:在車載端規劃高端智能硬件計算平臺;以深度學習算法與模型加速為研發核心,構建平臺算法庫;在云端從模型訓練、設備管理、應用開發和數據管理等多個維度提供面向車載產品的一站式智能化服務,滿足軌道交通領域實際生產場景中的自主創新或迭代AI應用需求。

1 軌道交通AI應用平臺架構

軌道交通AI平臺通過構建云邊一體化的全流程解決方案,為圖像、語音等AI應用賦能,其組成結構如圖1所示,包括云端軟件、邊緣端軟件和云邊協同軟件3大部分。

圖1 AI應用開放平臺框架Fig.1 Open platform framework of AI application

云端軟件被構建在基于GPU的訓練服務器集群上。云端基礎設施子系統和云端管理子系統提供基本的容器化云資源服務。數據標注管理子系統、模型訓練子系統和應用生成子系統組成AI開發者工具鏈。AI應用市場和AI云端服務進行應用的管理部署。

邊緣端軟件運行于智能化邊緣硬件設備,通過邊緣計算子系統實現高效的智能化推理。

云邊協同軟件通過云邊協同子系統進行關聯和通信,實現AI數據搜集的云端化、模型從訓練到部署的一體化以及邊緣設備管理的智能化。

為了實現系統的可維護性,保證系統各組件特別是云端工具組件在各自的版本更新和維護的時候依然保持良好的相互配合,在系統底層架構設計中采用了“K8S容器編排工具+微服務治理”的解決方案。容器編排工具可基于容器化運行,實現服務發現與調度、負載均衡等功能,其應用部署和運維更加方便。子系統軟件更新采用藍綠部署、滾動部署、灰度發布和金絲雀發布等微服務治理手段,最大限度地降低因軟件版本更新而帶來的風險和維護成本。

2 軌道交通AI應用開放平臺優勢

在云邊一體的架構基礎上,軌道交通AI應用平臺形成了5大核心優勢。

2.1 有組織的資產管理

如圖1所示,云端基礎設施系統主要為物理服務器之上的云基礎平臺及存儲平臺服務,是AI應用開放平臺化的基礎子系統,具有良好的可拓展性。云端管理系統則更進一步構建以應用為中心的多租戶容器平臺,為AI應用開放平臺的業務子系統提供基本支撐。云端軟件涉及的其他子系統均通過其提供的容器化機制進行隔離和即插即用的部署。該架構的優勢在于能實現有組織的資產管理。首先,通過云基礎設施的搭建實現AI數據搜集的云端化,從而對數據資產進行統一管控。同時,如圖2所示,以項目或主體為單位,加以角色和權限控制,保證各自的數據安全。在實際的硬件設備資產管理方面,通過云端基礎設施建設,實現GPU集群算力的統一管理,提供AI模型訓練所需要的超大算力;通過云邊協同,統一協管邊緣設備,實現設備資產的彈性擴容。通過數據和設備的資產化和組織化,有效保證了AI平臺應用主體和用戶的利益。

圖2 資產的統一管理Fig.2 Unified asset management

2.2 AI開發工具鏈

圖1中的數據標注管理子系統、模型訓練子系統和應用生成子系統共同構成了AI開發工具鏈(圖3)。

如圖3所示,數據標注管理子系統覆蓋多種數據類型的標注業務,如圖像、語音、點云及文本等,支持用戶通過網頁進行在線多人數據標注與在線審核,可通過半自動輔助標注有效降低人力需求,提升標注效率,縮短項目落地周期。軌道交通業務具有數據保密性強、數據種類不均衡和有效數據罕見的特點,需要進行長期的業務數據積累和標注?;谠破脚_的數據標注管理子系統可以集中管理和積累業務數據,滿足軌道交通領域對數據的要求。針對軌道交通自動駕駛、工務檢測等特殊場景,數據標注模塊支持多傳感器數據的融合采集展示,且該子系統具備針對場景困難樣本的清洗和挖掘算法,模塊功能深度契合軌道交通場景,使用戶體驗滿意度遠超通用數據標注平臺的。

圖3 AI開發工具鏈Fig.3 AI development tool chain

模型訓練子系統覆蓋了深度學習的算法開發、訓練、評估和部署的全鏈工具,其作用是將模型訓練過程工具化和可視化,將深度學習主流算法、框架、調試參數、數據增強和壓縮量化剪枝算法封裝成可視化工具并提供給用戶使用。該子系統具備模型管理、訓練、驗證和部署等能力,并支持各種算法、深度學習及數據運算處理的框架、預置模型及對算法組合的操作等。針對深度學習模型在嵌入式系統部署的性能問題,一方面提供壓縮量化剪枝工具,使用戶可自由裁剪網絡,在保證深度學習網絡為輕量級的同時不降低精度;另一方面提供遷移學習和模型轉換工具,以確保模型均可在邊緣端實現硬件加速。模型訓練子系統通過把復雜的訓練和模型轉化機制工具化、可視化,使得不具備AI模型開發經驗的軌道交通用戶也可以獲得實際可落地的生產算法模型。

應用生成子系統可實現應用代碼編譯以及應用鏡像打包,作為從模型訓練到應用部署的中間環節,其方便管理者能夠針對不同的應用場景進行管理,也可管理不同的邊緣設備。在應用生成子系統的幫助下,AI工具鏈可實現多模塊的聯動閉環。訓練出來的模型既可被提交到AI市場,部署至云端或者邊緣端;也可被反饋到數據標注管理系統,輔助人工進行相關場景的半自動標注。

2.3 標準化的算法和應用市場

AI平臺可對外提供標準化的智能算法和應用。下面將從AI市場、算法集市以及深度學習框架3個維度進行說明。

2.3.1 AI市場

如圖4所示,AI市場提供統一的應用入口,通過AI工具鏈生成的應用程序可以上架AI市場,用戶可以直接部署標準化應用,實現業務需求。AI市場支持在云環境中開發和部署應用程序,可對應用進行全生命周期管理,提供應用打包上傳、應用審核、測試部署、應用發布、應用的版本控制、應用升級、擴容、應用更新和應用下架等功能,提供一站式應用管理并簡化交付過程,從而減少運維人員的工作量并降低出錯率。該系統類似于蘋果手機中的App Store插件,訓練的深度學習模型可上架成應用插件,通過云邊部署子系統安裝到邊緣端。

圖4 算法及應用市場Fig.4 Algorithm and application market

2.3.2 算法集市

算法集市被集成在模型訓練子系統中,以提供主流深度學習算法的標準化實現及更優的性能表現。算法集市包括用于構建主流分類、檢測和分割的算法庫,用于提供具有不同復雜度的骨干網(如ResNet-18,RestNet-50[13]等)以及不同的調試參數。用戶可根據應用需求靈活構建深度學習算法,實現精度指標與速度的均衡。此外,還提供包括幾何變換、顏色變換等在內的數據增強算法,實現訓練數據的擴增和類別均衡,從而提升模型指標性能。

2.3.3 深度學習框架

通過容器化機制,深度學習框架支撐模塊,支持主流的深度學習框架,如TensorFlow,Pytorch,Paddle‐Paddle等。用戶可以在標準算法集市之外,選擇所偏好的框架,靈活自定義算法,以滿足更多定制業務需求。平臺預置了大量不同版本的框架鏡像,用戶通過模型訓練模塊加載鏡像,掛載數據和算法代碼,即可開始新的模型訓練。通過高效統一的標準化算法并結合靈活的自定義機制,可有效減輕業務落地的壓力。

2.4 邊緣計算子系統

邊緣計算子系統運行在車載智能硬件平臺上,其重要功能是在邊緣設備上構建一套簡單易用、性能高效的智能應用引擎。該引擎框架(圖5)通過分層、分級,按照物理層、感知層和算法層等來固化常用的共性技術和軟件。其優勢在于:

圖5 邊緣推理框架Fig.5 Edge reasoning framework

(1)可兼容各種類型傳感器(IP攝像頭、GSML攝像頭、雷達等);

(2)封裝深度學習模型、部署優化技術,可充分壓榨硬件性能,輕松實現深度學習與傳統算法的高效結合;

(3)特別對視覺應用各個環節進行了系統優化處理,可實現多路視頻流的并行推斷;

(4)在邊緣端構建了可視化的模型管理和數據管理界面,可實現基于邊緣端模型的本地化部署。

該邊緣計算推理框架是針對軌道交通的專用框架,在物理層、感知層、算法層(模型加速)和應用流處理、通信協議等方面,其設計更加貼合軌道交通工務檢測和自動駕駛等場景中的低時延、高吞吐應用需求。而百度、華為等公司的AI云平臺只提供通用邊緣AI推理框架,主要針對通用CPU平臺和安防監控場景,適應性被嚴重打折。

為充分發揮邊緣子系統性能,為軌道交通應用專門定制了一個智能硬件平臺,其以Jetson Xavier核心板為依托,搭載了配套定制化底板,并具備以太網、USB、音視頻、Wifi、4G擴展及藍牙等多種接口,以滿足視覺、音頻等多類型傳感器的數據處理需求。用戶使用該平臺運行深度學習算法,當沒有云端服務時,只需要將訓練好的模型通過可視化界面導入系統,即可實現高性能的視覺推理應用;當有云端服務時,可通過云端工具,實現云邊一鍵部署。對于應用中的其他邏輯需求,只需要封裝成插件,通過積木形式插入應用引擎,即可快速構建高性能的視覺應用。

2.5 云邊交互子系統

應用部署是嵌入式應用的共性難題,不同應用對系統的要求和依賴資源庫的版本種類需求都不盡相同。將應用部署到指定硬件通常需要經歷復雜的調試過程。應用容器化部署是將視覺應用所依賴的資源全部打包進虛擬容器,通過容器將應用一鍵化部署至邊緣設備的一種技術。應用容器化技術的優點在于其提供了一種規范可控的AI應用管理方式,可實現AI應用生成、打包、上架、部署和更新的全生命周期管控,便于對各種架構如X86和ARM設備的邊緣端軟件的統一管理;同時容器化技術還可實現資源隔離,使邊緣平臺資源按需分配使用。

云邊部署子系統作為云端與邊緣端進行交互和連接的通路,用于將容器化應用程序編排功能擴展到端主機,為網絡應用程序提供基礎架構支持,為云和邊緣之間的部署和云數據提供同步支持。該系統優勢在于跨平臺(可以支持X86和ARM端側設備),消耗資源較少,符合云原生的定義。如圖6所示,系統可基于網絡連接,在云端將上架的模型推送至邊緣端進行部署,實現云端對邊緣節點的實時監控、在線管理與邊緣端異常狀態告警和統計報表功能;基于網絡連接,將邊緣節點的推理結果、圖像數據、語音數據、雷達點云數據和審計日志等數據及時上傳至云端。

圖6 云邊交互子系統Fig.6 Cloud edge interactive subsystem

從應用的角度,云邊交互子系統讓AI應用的開發形成了閉環。在初始數據輸入的情況下,通過AI工具鏈訓練模型,并將訓練后的模型下發到邊緣設備。邊緣設備執行相關應用,挖掘難例數據并回傳到AI云平臺進行增量訓練。通過數據回傳和模型迭代優化,實現應用開發的飛輪效應,使AI模型檢測性能越來越好。

3 礦用卡車無人駕駛視覺感知檢測應用案例

無人駕駛礦用卡車(簡稱“礦卡”)采用與軌道交通機車相似的傳動控制系統、邊緣硬件設備和軟件系統用于感知、規劃、決策和控制,兩者的自動駕駛技術具有很多相通之處;而在網絡通信方面,礦場的管控要求比軌道交通的更加寬松,因而礦卡無人駕駛是軌道交通AI應用開放平臺的最佳落地場景之一。礦卡的車載視覺感知技術采用深度學習目標檢測算法,并與激光雷達、毫米波雷達等進行多傳感器感知融合,以實現礦場石頭、車輛等目標的精準定位、跟蹤及識別。其視覺檢測流程如圖7所示。

圖7 礦卡車載視覺檢測流程Fig.7 Visual detection of mining truck

3.1 邊緣端

礦卡車載邊緣端圍繞AI平臺提供的車載GPU硬件計算平臺進行礦卡車載視覺系統設計、選型及安裝。視覺采集模塊采集礦卡前視數據,一方面將原始數據保存或者回傳至AI云平臺,用于后續模型訓練;另一方面,所采集的數據被送至邊緣端的目標檢測推理模塊,用于檢測圖像中有效目標信息(位置、類型等),并通過時空同步標定技術與激光雷達點云分割出來的障礙物進行融合跟蹤,最終將障礙物檢測結果送到決策規劃控制模板用于控車。軟件實現采用本文提及的AI平臺高效邊緣推理框架,實現了多攝像頭的最優推理性能。

3.2 云端

在云端采用AI開發工具鏈開發基于深度學習的目標檢測模型(圖8),車載邊緣設備回傳的數據被上傳至AI開放平臺,通過數據標注系統進行團隊多人協作標注,標注好的數據被推送至模型訓練子系統;數據集按照4:1的比例劃分為訓練集和測試集,其中訓練集圖像通過馬賽克、翻轉、平移和亮度變換方法進行數據擴增。

圖8 視覺模型開發流程Fig.8 Visual model development process

3.3 參數及測試結果

目標檢測算法采用預定義的Yolov5[14]模型。首輪模型采用2 042張人工標注數據進行訓練。相關訓練參數如下:輸入圖像分辨率為1 280*720,批處理大小為6;采用Adam算法進行梯度下降訓練,300個訓練周期后,模型在測試集上的Map[15](平均準確率)指標為0.961。

訓練好的Yolov5模型通過TensorRT工具進行量化加速,經應用生成子系統打包成鏡像文件被云邊部署至邊緣端進行推理。礦山實際場景的目標檢測效果如圖9所示,石頭和礦卡等可以通過算法被有效感知并定位。

圖9 礦山環境目標檢測Fig.9 Object detection in mine scene

利用AI開放平臺技術,原本需要3~4個月的無人駕駛礦卡視覺檢測工程落地流程工期可縮短至1個月。先進的云邊交互技術助力視覺車載檢測模型的持續閉環優化,現場數據不斷被回傳至云平臺進行新的模型訓練,訓練好的模型可以第一時間被部署到車載端進行算法驗證,形成良好的飛輪效應。在相同的訓練參數配置下,首次模型迭代前后的指標對比如表1所示。在AI平臺的推動下,模型在測試集上的Map指標從0.961提升至0.988,具有更好的感知能力。

表1 模型指標Tab.1 Model metrics

4 結語

智能化產品的快速工程化落地需要數據、算法、應用程序和算力的緊密配合。目前,軌道交通領域業務數據積累有限、終端計算能力薄弱,且缺乏AI專業人才和技術,這些因素嚴重制約了智能化技術在軌道交通領域的快速發展。軌道交通AI應用開放平臺提供了從業務到產品、從數據到模型、端到端、線上化的人工智能應用解決方案。通過AI平臺,用戶不僅能夠使用不同的深度學習框架進行大規模的訓練,對數據集和模型進行管理和迭代;同時還可通過API和本地部署等方式接入具體業務場景中。

未來,軌道交通AI開放平臺會在數據采集、標注和訓練等模塊上持續對標龍頭企業如Tesla、華為和百度等的新功能和新技術。一方面,以場景業務為目標,開發更多的自動標注算法和高精度預訓練模型,從而降低人工標注和模型訓練的難度;同時,開發遠程協同開發環境,提供圖形化算法設計工具,降低開發人員對數據處理和管理、模型訓練和部署等繁瑣的代碼操作需求,從而提高算法開發效率并縮短產品的迭代周期。另一方面,從用戶體驗和業務需求出發,打造和完善軌道交通AI開放平臺功能,使之更好地滿足軌道交通領域多場景業務的自主創新或迭代優化的應用需求,更好地指導并賦能軌道交通智能化產品的應用落地。

猜你喜歡
子系統云端邊緣
不對中轉子系統耦合動力學特性研究
四海心連·云端匯聚
在云端永生
云端之城
網絡空間供應鏈中入侵檢測及防御子系統的投資機制研究
網絡空間供應鏈中入侵檢測及防御子系統的投資機制研究
一種基于NB-IoT的公路霧燈自動指示系統
一張圖看懂邊緣計算
在云端
IPv6環境下動態域名系統的設計與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合