?

改進Deeplab V3+網絡在視覺SLAM三維地圖構建應用

2022-10-15 01:00嵇啟春段中興
小型微型計算機系統 2022年10期
關鍵詞:卷積語義深度

屈 航,嵇啟春,段中興

(西安建筑科技大學 信息與控制工程學院,西安710055)

E-mail:651092232@qq.com

1 引 言

環境地圖輔助移動機器人完成定位、導航、路徑規劃等任務,利用視覺SLAM[1-3](Simultaneously Localization And Mapping)算法,估計移動機器人運動路徑同時,實現對外部環境模型構建.隨著移動機器人應用于更多場景,僅獲得環境空間幾何信息難以滿足機器人完成更復雜任務,如人機交互、環境理解等.通過構造語義地圖,實現機器人其所處的空間幾何信息與周圍物體語義信息相聯系,提高機器人智能化水平,使機器人完成更高層次任務成為可能.將高層次語義信息包含進視覺SLAM中,實現語義地圖構造方面,較早研究是Andreas等人[4],他們首次提出語義地圖概念,首先利用室外機器人構建場景3D點云,再對場景進行解析.隨后,Sunando等人[5]利用條件隨機場,將視覺傳感器拍攝圖像中每個像素都賦予一個物體類別,實現稠密語義標注的3D場景重建.Salas-Moreno等人[6]提出SLAM++系統,利用已有的預先設定的物體對象數據庫,對實際場景的3D物體識別提供對象約束,從而生成面向對象的場景描述.

近年來,深度學習算法研究取得巨大進展,被廣泛應用于圖像分類[7]、目標檢測[8]、語義分割[9,10]等領域,結合基于深度學習的深度神經網絡與SLAM成為語義地圖構建新的研究方向[11-13].語義地圖構建,重點在于對環境中目標物體的語義識別和對其位置的精確計算,利用基于卷積神經網絡的學習方法,可實現對目標物體高精度語義識別與標注.本文在現有視覺SLAM系統基礎上,融合Deeplab V3+[14]語義分割模型,實現三維稠密語義地圖精確構建.對Deeplab V3+模型融合視覺SLAM難以滿足語義地圖構建實時性問題,改進Deeplab V3+網絡模型,網絡模型主干網絡選用輕量級卷積網絡MobileNetV3[15]實現特征提取,減少參數量,對空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊采用非對稱卷積進一步減少卷積運算量.最后利用基于貝葉斯更新方法[16],將二維語義信息融合進三維地圖,實現三維稠密語義地圖構建.

2 語義地圖構建框架

語義地圖構建框架如圖1所示,使用Kinect相機作為輸入設備對室內環境進行移動拍攝,采用基于視覺SLAM算法對輸入RGB-D圖像進行實時三維地圖構建,同時采用改進Deeplab V3+網絡模型對RGB圖像進行語義分割,得到語義標簽,利用基于貝葉斯更新方法漸進式將語義標簽與三維地圖融合,實現二維語義信息到三維空間映射,最終完成三維稠密語義地圖構建.本文視覺SLAM采用ElasticFusion[17]系統,ElasticFusion聯合深度信息和彩色信息計算相機運動軌跡,使用面元(Surfel)模型表示三維場景,通過隨機蕨方法進行全局閉環檢測,在閉環產生的情況下通過變形圖的方法對場景進行更新,實現高精度三維稠密地圖構建.

圖1 語義地圖構建框架Fig.1 Framework of the semantic mapping

3 圖像語義分割

3.1 DeeplabV3+語義分割模型

自2015年全卷積神經網絡[18](FCN)的提出,語義分割技術在精確度和實時性上得到快速發展.對比當前主流語義分割網絡模型,本文采用基于Deeplab V3+網絡模型實現語義信息獲取.Deeplab V3+是谷歌于2018年開發的一種用于語義分割典型網絡框架.網絡模型使用編碼-解碼器結構,結構如圖2所示.針對DeeplabV3池化和帶步長卷積會造成一些物體邊界細節信息的丟失問題,Deeplab V3+在V3模型基礎上進行改進,將DeeplabV3作為網絡的編碼器,并在此基礎上增加了解碼器模塊用于恢復目標邊界細節.編碼器由骨干網絡Resnet101和ASPP模塊組成,Resnet101提取圖像特征生成高級語義特征圖,ASPP模塊利用Resnet101得到的高級語義特征圖采用不同空洞率進行多尺度采樣,生成多尺度的特征圖,再通過1 × 1卷積進行通道壓縮.解碼器部分對編碼器的輸出進行上采樣,并與前半層的輸出特征圖融合,最終實現圖像語義分割.

圖2 DeeplabV3+模型圖Fig.2 Deeplab V3+ model diagram

3.2 主干網絡改進

對于語義分割,Deeplab V3+滿足高精度輸出結果要求,將算法運用于視覺SLAM系統,相機追蹤與建圖對模型分割速率提出更高要求,在Deeplab V3+基礎上,采用輕量級卷積網絡MobileNetV3代替Resnet101實現特征提取,減少參數量,加快算法分割速率.MobileNetV3是Google在2019年提出的新型輕量化卷積網絡模型,在MobileNetV2的具有線性瓶頸的逆殘差結構基數上進行改進,典型卷積塊結構如圖3所示.

圖3 MobileNetV3卷積塊結構Fig.3 MobileNetV3 convolutional block architecture

MobileNetV3在V2逆殘差結構上引入注意力機制模塊(Squeeze and Excitation,SE),使用SE可以更好地調整每個通道的權重,通過訓練過程在特征圖上自行分配權重,使網絡從全局信息出發選擇性地放大有價值的特征通道,并且抑制無用的特征通道;同時使用激活函數H-Swish對Relu函數進行替換,函數表達式如公式(1)所示:

(1)

H-Swish函數是Swish激活函數的改進型,能夠減少計算量同時保持與使用Swish激活函數相同的精度,實現精度和運算速度上的兼容.MobileNetV3同樣使用深度可分離卷積構建深度神經網絡,該網絡可以在保持相似準確度的情況下有效減少網絡中的參數量與計算量.深度可分離卷積的計算量與標準卷積計算量的比值如公式(2)所示:

(2)

表1 MobileNetV3 網絡模型結構

3.3 ASPP模塊改進

ASPP由多個不同空洞率卷積核以并聯方式組成,空洞率大,卷積核尺度大,有利于算法分割大目標,空洞率小,卷積核尺度小,利于算法分割小目標,空洞卷積算法定義如式(3)所示:

(3)

其中,x為輸入特征圖,y為輸出特征圖,w表示卷積核,k表示卷積核尺寸,表示大小為k×k的卷積核;r代表擴展率,描述卷積核處理數據時采樣的步幅,調整擴展率可自適應的調整感受野大小.

ASPP利用不同卷積核擴張率實現多尺度語義信息提取,進而提高分割精確度.采用3×1和1×3卷積對3×3空洞卷積進行分解,對比常規卷積,利用非對稱卷積可減少33%計算量.改進后ASPP模型如圖4所示.

圖4 改進后ASPP模型Fig. 4 Improved ASPP model

4 語義標簽增量融合

(4)

(5)

再次運用貝葉斯公式得到:

(6)

(7)

5 實驗與分析

5.1 圖像分割

實驗首先采用Pascal VOC2012數據集進行語義分割測試,為驗證改進后圖像語義分割模型實時性與精確度,使用分割速度與平均交并比(mIoU)作為評價指標,mIoU是真實值、預測值集合的交集和并集之比,是目前圖像語義分割領域最常用的評價指標.mIoU表達式如式(8)所示,其中,其中,k表示類別數量,TP表示預測為真正數量,FN表示預測為假負數量,FP表示預測為假正數量.

(8)

模型訓練平臺基于Ubuntu16.04操作系統,處理器和顯卡分別為Inter Core i7-9750H和NVIDIA GeForce GTX1660TI,8G內存.采用基于TensorFlow 深度學習框架,設置批處理大小為8,初始學習率為0.001,權重衰減率設為0.0005,優化器為隨機梯度下降,動量為0.9.損失函數采用交叉熵損失,如公式(9)所示:

(9)

表2為Deeplab V3+與改進后模型性能測試對比,部分分割可視化結果如圖5所示.

表2 模型分割性能對比

圖5 基于VOC2012分割結果Fig. 5 Based on VOC2012 segmentation results

由結果可知,改進后的Deeplab V3+模型在大致輪廓的分割效果與原模型相同,特別是在圖像中只有單一目標或目標輪廓明顯情況下.對比原模型,改進后模型對于目標細節分割有細微差距,如圖5第1幅圖馬尾以及第2幅圖飛機尾翼部分.主干網絡采用輕量級卷積網絡MobileNetV3以及對ASPP卷積操作更改后,改進后模型所占內存大小和單張圖片處理速度上提升效果明顯,模型大小減少約95%,單張圖片運行時間減少約88%,模型的綜合性能達到最優,滿足圖像分割實時性要求.

5.2 三維稠密語義地圖構建

本文采用NYUv2數據集進行三維稠密語義地圖構建實驗.NYUv2數據集由Microsoft Kinect的RGB和Depth攝像機記錄的各種室內場景的視頻序列組成,包括原始RGB圖像,深度圖像以及相機加速度數據,數據集包含多種不同場景,如Bedroom,Bathroom、Diningroom等,RGB相機和深度相機的采樣率介于20~30fps之間.進行三維地圖構建前,首先對NYUv2數據進行預處理,包括深度圖像與RGB圖像對齊,原始深度圖像轉換.

利用改進后Deeplab V3+在NYUv2數據集上重新訓練網絡,實現在NYUv2數據集下語義分割.圖6所示為NYUv2數據集下語義分割結果,由結果可知,針對室內場景,本文使用的語義分割算法仍然表現良好.將改進后Deeplab V3+分割模型結合ElasticFusion系統,實現語義地圖構建,結果如圖7所示.

圖6 NYUv2下語義分割結果Fig. 6 Semantic segmentation results under NYUv2

圖7 不同場景下三維地圖構建Fig.7 3D map construction under different scenes

表3為NYUv2數據集下,不同場景下三維稠密語義地圖構建程序運行時間,由表得,使用ElasticFusion進行三維稠密地圖構建,算法平均以29幀/秒速度運行,結合語義分割模型后,語義地圖構建平均以22幀/s速度進行,結果表明,利用改進后的輕量級Deeplab V3+語義分割模型,滿足實時三維稠密語義地圖構建.將本文語義地圖構建方法與文獻[19]進行對比,結果如表4所示,得出在平均像素精度相似情況下,本文算法在構圖實時性上有明顯提升.

表3 不同場景下三維地圖構建時間Table 3 3D map construction time under different scenes

表4 語義地圖構建性能對比

6 結束語

本文將基于卷積神經網絡的Deeplab V3+語義分割算法應用于視覺SLAM,實現三維稠密語義地圖構建.對Deeplab V3+可實現高精度分割,但模型運算量大,影響三維稠密語義地圖實時構造問題,采用輕量級卷積網絡MobileNetV3代替ResNet101進行特征提取,減少計算參數量,加快分割速度,同時對ASPP模塊中卷積層采用非對稱卷積進行替換,進一步減少運算量,實現分割速率提升.實驗表明,改進后的的Deeplab V3+應用于視覺SLAM可滿足實時高精度三維稠密語義地圖構建.在后續的研究中,利用神經網絡優化視覺SLAM是需進一步解決的問題.

猜你喜歡
卷積語義深度
基于全卷積神經網絡的豬背膘厚快速準確測定
真實場景水下語義分割方法及數據集
四增四減 深度推進
深度思考之不等式
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
簡約教學 深度學習
漢語依憑介詞的語義范疇
深度挖掘
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合