?

一種密集多尺度特征引導代價聚合的改進立體匹配網絡

2024-02-20 11:52張美靈
西安工程大學學報 2024年1期
關鍵詞:視差代價空洞

張 博,張美靈,李 雪,朱 磊

(西安工程大學 電子信息學院,陜西 西安 710048)

0 引 言

雙目立體視覺是計算機視覺領域的重要研究分支之一,該技術基于視差原理恢復物體三維幾何信息,在三維重建、自動駕駛、工業檢測等諸多領域具有廣泛應用。立體匹配是實現雙目感知的核心技術,旨在為一對左右視圖查找同名像素點。

立體匹配方法可分為傳統立體匹配方法和基于深度學習的立體匹配方法[1]。傳統立體配方法通常包含匹配代價計算、代價聚合、視差計算和視差優化4個步驟[2]。一般采用手工設計的特征比較同名點的差異性,缺乏上下文信息,且經驗參數的設置存在一定局限性,導致其在無紋理、重復紋理、反射等復雜場景下的匹配效果不盡人意?;谏疃葘W習的立體匹配方法根據是否直接端到端輸出視差圖被劃分為非端到端方法和端到端方法,其中非端到端方法專注于將傳統立體匹配方法4個步驟中的某個步驟或某幾個步驟用深度神經網絡替代,本質上仍舊使用傳統方法的框架,未解決視差后處理、圖像上下文信息缺乏等問題[3]。端到端方法以左右視圖作為輸入,利用深度神經網絡的強大學習能力直接學習原始數據而后輸出視差圖,不需要任何后處理。該種方法在立體匹配任務中呈現出巨大的潛力,研究者們致力于從特征提取、代價聚合等不同角度提升網絡性能以獲得更加準確的視差估計。

圖像多尺度特征已被廣泛應用于多種任務中[4-6]。在立體匹配方面,特征提取網絡獲得的特征圖質量直接決定了初始代價體的精度,而飽含豐富上下文信息的圖像特征不僅可以驅動網絡更好地學習目標對象與其子區域的隸屬關系(如汽車與窗戶、輪胎等子區域間的關系),還可以動態減小搜索范圍,有利于匹配估計。為了捕獲上下文信息,文獻[7]在特征提取階段引入空間金字塔池化模塊(spatial pyramid pooling, SPP)提取不同尺度和不同位置的區域級特征,探索對象和子區域的上下文關系。文獻[8]提出了一種淺層編碼器-解碼器結構融合網絡不同層的輸出,從而獲得具有較大感受野和不同級別的多尺度特征,提高特征區分性。文獻[9]構建具有跳躍連接的類似于U-Net的編碼器-SPP-解碼器金字塔特征提取架構,提取多尺度圖像特征并合并不同層次的上下文信息,有效增強特征表示。利用左右特征圖構建的4D初始代價體通常缺乏全局信息,在遮擋、無紋理等區域誤匹配率較高。為了解決此問題,文獻[10-13]提出不同的代價聚合網絡對初始代價體進行全局優化。文獻[10]利用3D編碼器-解碼器結構聚合代價體,以推理全局場景的幾何信息,端到端輸出預測視差。在此基礎上,文獻[7,11]設計了新穎的堆疊式沙漏結構,學習更多的上下文信息以正則化代價體,展示了出色的匹配效果。文獻[12]基于可變形卷積構建了2種不同的自適應代價體聚合結構,有效利用了多尺度代價體之間的互補關系。為了提高模型性能,文獻[13]將特征提取網絡獲取的圖像特征與代價體共同輸入至代價聚合網絡,利用注意力機制計算初始圖像特征的權重激勵代價體通道,顯著提高視差預測精度。

文獻[7-9]在提取多尺度特征時使用SPP模塊,但池化操作損失了空間分辨率,導致其在細節和邊緣區域匹配效果不佳;文獻[7,11]在代價聚合時創新性地使用堆疊沙漏結構,雖使精度有一定的提升,但未考慮參考圖像特征與代價體之間的交互性。文獻[13]已經意識到圖像特征引導代價聚合的重要性,然而該方法通常為代價體與初始圖像特征之間建立聯系,忽略了多尺度上下文信息。為了充分挖掘圖像多尺度特征,同時探索圖像多尺度特征和代價體之間的相互作用性,本文提出一種基于PSMNet的改進立體匹配網絡DGNet。在特征提取階段,構建密集多尺度特征提取(Dense Multi-scale feature Extraction,DME)模塊捕獲包含多尺度信息和語義信息的圖像特征,改進用于立體匹配的特征表示;在代價聚合階段,提出密集多尺度特征引導代價聚合(Dense multi-scale features guided cost aggregation,DGCA)結構,使代價體在多尺度圖像特征的幫助下自適應聚合有效的上下文信息,有利于解碼出更加準確的立體幾何信息。

1 DGNet立體匹配網絡結構

DGNet整體結構如圖1所示。該網絡主要包括密集多尺度特征提取、密集多尺度特征引導代價聚合以及視差回歸3部分?;玖鞒倘缦拢菏紫?將標準左右圖像輸入到具有共享權重的初始特征提取網絡獲得初始特征圖;接著通過密集連接的空洞空間金字塔池化結構(Dense Atrous Spatial Pyramid Pooling, DenseASPP),在擴大特征點感受野的同時獲得像素采樣密集的多尺度特征以增強特征顯著性表示。其次,對含有多尺度信息的左右特征圖以像素為單位逐個錯位串聯構成初始串聯代價體,并在改進的代價聚合網絡中融合串聯代價體和密集多尺度上下文特征,獲得高質量的代價體幾何信息;最后,通過雙線性插值和視差回歸獲得視差圖。

圖 1 DGNet結構Fig.1 The structure of DGNet

1.1 密集多尺度特征提取模塊

本文基于初始特征提取網絡和DenseASPP[14]構建DME模塊,初始特征提取網絡用于提取初始圖像特征,DenseASPP依賴于不同膨脹率的空洞卷積和密集連接方式提取,整合多尺度信息。

1.1.1 初始特征提取

首先將一對左右視圖輸入至權值共享的類似于ResNet的初始特征提取網絡。不同的是,為了獲得較大感受野,第一個卷積層使用3個3×3卷積代替7×7卷積獲得淺層特征,隨后經過包含3個殘差塊、16個殘差塊、3個殘差塊、3個殘差塊的4個殘差結構,輸出大小為B×H/4×W/4×4C的初始特征圖f,以此作為DenseASPP結構的輸入。其中B是批量大小,H、W分別是左右視圖的高和寬,4C是特征通道數128。

1.1.2 密集連接的空洞空間金字塔池化結構

DenseASPP結合ASPP[15]的多尺度生成方式與DenseNet的密集連接方式獲取密集多尺度特征。本文設計的DenseASPP結構包含5個不同膨脹率(d≤24)的空洞卷積層,每層空洞卷積的輸出為

yl=Hk,dl([yl-1,yl-2,…,y0])

(1)

式中:yl表示第l層空洞卷積的輸出,l∈{1,2,3,4,5};Hk,dl表示膨脹率為dl,大小為K×K的卷積核,其中膨脹率dl分別為d1=3,d2=6,d3=12,d4=18,d5=24;y0表示初始特征;…表示特征在通道上進行拼接操作。

將當前空洞卷積層提取到的特征傳遞到后續所有未訪問的卷積層中,因此中間的每層空洞卷積均能編碼不同尺度的圖像特征,包含大量語義信息。每層空洞卷積設置相同的輸出通道數w,具體步驟如下:將初始特征f輸入至d1=3的第1層空洞卷積,緊接著將輸出結果與輸入特征圖在通道維度上進行拼接作為第1層空洞卷積的輸出特征,則第1層空洞卷積的輸入特征通道數為128,輸出特征通道數為128+w;d2=6的第2層空洞卷積的輸入特征通道數為128+w,輸出特征通道數為128+2w。以此類推,第l層空洞卷積層的輸入特征通道數為128+(l-1)·w,輸出特征通道數為128+l·w。經DenseASPP模塊獲取的密集多尺度特征包含更密集的像素采樣、更大的感受野。

當并行式放置空洞卷積層時,膨脹率為6的空洞卷積只采樣下層特征中的9個像素。因此,當采用更大膨脹率時其采樣的像素點更為稀疏。如圖2所示,在二維情況下,DenseASPP中堆疊式放置空洞卷積層且膨脹率逐層增加,上層的卷積層可以對底層特征進行更加密集的采樣,膨脹率為6的空洞卷積層可以采樣49個像素,獲得的信息連續性更強,有助于提升視差預測的準確性。

在擴大感受野方面,每層空洞卷積的感受野Rk,d計算公式為

Rk,d=(d-1)×(K-1)+K

(2)

式中:d為膨脹率;K為卷積核大小。由此可知,膨脹率為24的空洞卷積層最大感受野為R3,24=49,本文中DenseASPP最大的感受野計算公式為

Rmax=R3,3+R3,6+R3,12+R3,18+

R3,24-4=128

(3)

圖 2 像素采樣二維示意圖Fig.2 Two-dimensional diagram of pixel sampling

小膨脹率的空洞卷積層和大膨脹率的空洞卷積層相互依賴,產生更大的感受野感知圖像上下文信息,這有助于提高算法在無紋理、重復紋理等不適定區域的匹配精度。

1.2 代價體構建

文獻[16]通過計算左右特征圖的互相關來構建相關代價體,該方法在視差通道下將特征向量轉換為余弦相似度,具有較低內存使用率和較快運行時間的優點。然而,在每個視差下僅生成一個單通道相關圖,會損失大量特征信息,導致模型性能較差。本文對DenseASPP輸出的密集多尺度特征,在每個視差等級下將左特征圖與其對應的右特征圖逐像素錯位拼接,形成大小為B×H/4×W/4×D/4×4C的初始串聯代價體,使代價體保留更多的圖像幾何信息和上下文信息,其中D是最大視差,4C是通道數128。

由特征圖錯位拼接形成初始代價體的過程如圖3所示。其中紅色長方形和藍色長方形分別表示由多尺度特征提取模塊獲取的1/4左圖像特征圖和1/4右圖像特征圖,白色部分為不同的錯位長度,即視差等級0~D/4。

1.3 密集多尺度特征引導代價聚合結構

本文提出的密集多尺度特征引導代價聚合結構主要由3個自上而下、自下而上的沙漏網絡和6個代價體融合上下文特征(context and geometry fusion,CGF)模塊構成,旨在聚合代價體的同時自適應融合DME模塊的多尺度上下文特征,輸出全局優化后的代價體。

1.3.1 3D堆疊沙漏結構

如圖1所示,DGCA結構的2個輸入是初始串聯代價體和密集多尺度特征,3個相同的沙漏網絡均包括編碼器、2個CGF模塊和解碼器。首先利用預沙漏模塊聚合上下文信息,增加特征感受野;接著依次使用2個下采樣模塊獲得大小為B×H/8×W/8×D/8×2C的代價體和B×H/16×W/16×D/16×4C的代價體,每個下采樣模塊由一個步幅為2的3×3×3的3D卷積和一個步幅為1的3×3×3的3D卷積組成;然后交替使用CGF模塊和步幅為2的3×3×3轉置卷積,依次上采樣出大小為B×H/8×W/8×D/8×2C的代價體和B×H/4×W/4×D/4×C的高分辨率代價體。將上采樣后的高分辨率代價體作為第2個沙漏結構的輸入,其輸出的代價體作為第3個沙漏結構的輸入,捕獲全局信息,獲得最終的高質量代價體。此外,在每個沙漏網絡中使用2個1×1×1的3D卷積添加快捷連接(如圖1中虛線所示),整合相同分辨率的代價體,在不顯著增加計算成本的情況下提高性能。在預沙漏模塊后增加一個輸出模塊構成4個輸出和4個損失,額外的輔助損失使網絡更好地學習較低層特征,有助于最終的視差預測。

1.3.2 代價體融合上下文特征模塊

本文在代價聚合階段融合代價體與密集多尺度特征以得到更精確的立體幾何信息。需要說明的是,二者融合時需要保持相同的分辨率和通道數量,因此設計2個不同的下采樣模塊調整密集多尺度特征的分辨率及相應的通道數量。第一個下采樣模塊采用2個步幅為2的3×3卷積將密集多尺度特征下采樣至B×H/16×W/16×4C。另外一個下采樣模塊采用一個步幅為2的3×3卷積和步幅為1的1×1卷積將其下采樣至B×H/8×W/8×2C。將下采樣后的密集多尺度上下文特征C∈RB×C0×H0×W0和相同分辨率、相同通道數量的代價體G∈RB×C0×D0×H0×W0(C0:通道數,4C或2C;D0:視差,D/16或D/8;H0:高,H/16或H/8;W0:寬,W/16或W/8)共同輸入至CGF模塊。圖4為代價體融合上下文特征模塊。

圖 4 代價體融合上下文特征模塊Fig.4 Cost volum fused context featurest model

圖4中先將C在視差維度擴展至B×C0×D0×H0×W0獲得C′,其次求和C′和G,接著將其輸入到卷積核大小為1×5×5的3D卷積層中,最后運用Sigmoid函數生成空間注意力掩膜MS∈RB×C0×D0×H0×W0以自適應強調“重要”區域,抑制“不重要”區域,該過程可表示為

MS=σ[f5×5(G+C′)]

(4)

式中:σ為sigmoid函數,f5×5為卷積核大小為1×5×5的3D卷積層。密集多尺度上下文特征和代價體的融合過程可表示為

GC=f5×5(G+MS⊙C′)

(5)

式中:⊙為Hadamard乘積;GC為融合密集多尺度上下文特征后的代價體。

1.4 視差回歸和損失函數

(6)

式中:k為視差等級;Pk為每個視差等級下的概率;Dmax為最大視差。采用SmoothL1損失函數訓練網絡,因為相比于L2損失函數,它不易受異常值的影響,具有更好的魯棒性[15]。損失函數計算公式為

(7)

4個輸出模塊均會生成預測視差圖,其損失分別用L0、L1、L2、L3表示,最終的損失函數由L0、L1、L2、L3加權和構成,其計算公式為

(8)

式中:λi為Li的權重系數。

2 結果與分析

2.1 實驗環境與評價指標

2.1.1 實驗環境

整個網絡使用Pytorch框架構建,在2臺NVIDIA RTX3060 GPU上對模型執行訓練。所有實驗,采用Adam優化器(β1=0.9,β2=0.999)端到端訓練,訓練時將圖像隨機裁剪為H=256,W=512,最大視差Dmax設置為192,4個輸出模塊的權重系數設置為λ0=0.5,λ1=0.5,λ2=0.7,λ3=1.0。所提算法在SceneFlow、KITTI 2015和KITTI 2012三大立體數據集上進行實驗。對于SceneFlow,首先訓練20個周期,然后對其微調20個周期,初始學習率為0.001,在第10、14、16、18周期學習率依次降低一半。對于KITTI,在混合KITTI 2012和KITTI 2015的訓練集上使用SceneFlow的預訓練模型微調600個周期,初始學習率為0.001,在第300個周期學習率調至0.000 1。

2.1.2 評價指標

對于KITTI 2015數據集,通常采用所有(All)像素與非遮擋(Noc)像素2種情況下的背景區域(D1-bg)、前景區域(D1-fg)以及所有區域(D1-all)的三像素誤差百分比作為評價指標。對于KITTI 2012數據集,常采用非遮擋(x-Noc)和所有(x-All)像素中大于x像素的錯誤像素百分比以及非遮擋(EPE-Noc)和所有像素端點誤差(EPE-All)作為評價指標。對于SceneFlow數據集,常采用端點誤差(End Point Error, EPE)以及視差異常值D1的百分比作為評價指標。

2.2 消融實驗

為了驗證DME模塊與DGCA結構的有效性,在SceneFlow數據集上進行4種情形的對比實驗。采取D1、EPE評估各模塊對網絡模型性能的貢獻,消融結果如表1所示。

表 1 消融實驗結果

由表1可知,與實驗1相比,實驗2中使用DME模塊,可使EPE和D1分別下降至0.81 px和3.15%;實驗3使用DGCA結構效果更好,EPE和D1分別下降至0.60 px和2.03%;由實驗4可以發現,同時使用本文提出的兩模塊時效果最好,EPE最低至0.56 px,相比于實驗1下降了36.4%,實驗指標均呈優化趨勢。

由此可見,2個模塊均對模型有顯著改進,DME模塊有助于網絡獲得增強的特征表示和具有引導作用的密集多尺度特征,DGCA模塊上采樣出的高分辨率代價體在密集多尺度上下文信息的指導下使網絡對立體幾何特征產生更準確的理解,2個模塊相輔相成,共同改善視差預測結果。

2.3 對比實驗

2.3.1 KITTI 2015實驗結果

對于KITTI 2015數據集,將所提網絡在測試集上的視差預測結果提交至KITTI官網,與其他先進立體匹配網絡的測試集定量比較,結果如表2所示(所有數據均取自KITTI官方排行榜)。

表 2 不同網絡在KITTI 2015數據集上的對比結果

由表2可知,本文模型在精度指標中均取得了最優結果,值得注意的是,所有像素下的D1-all誤差百分比是官方排行榜的主要排名依據,本文模型在該項指標中取得了1.76的結果,相比PSMNet、GWCNet、CPOP-Net分別提升了24.1%、16.6%、5.4%。然而,本文模型預測一組圖像的時間為0.47 s,說明本文模型的規模更大,在提升精度的同時需要更多的計算資源。

KITTI2015部分測試集的可視化結果如圖5所示??梢钥闯?本文模型產生了更穩健的結果。設計的DME模塊避免使用池化操作從而保留了更多細節信息,因此在輪廓結構及物體邊緣產生了更精細的視差結果,如視差圖中白色方框標出區域。此外,DGCA模塊使代價體在多尺度特征的引導下,將匹配信息正確聚合到反射、重復紋理等不適定性區域,從而提高了視差預測的準確性,如視差圖中藍色方框標出區域。誤差圖中紅色像素表示錯誤估計像素。觀察誤差圖可知,本文模型的錯誤估計像素明顯減少。實驗結果表明,在重復紋理和邊緣等不適定區域,DGNet的視差預測精度相較于其他算法有了明顯的提升,表現出較優越的匹配性能。然而,第1組圖像中車反光處與車邊鐵鏈處的匹配效果不理想。這是由于受反光和左右圖透視變換的影響,其表觀特性可能發生改變,導致卷積提取的特征無法有判別性地描述物體。在未來的研究中,考慮引入局部相似性模塊[21]獲取結構信息,對卷積提取到的表觀特征進行補充以有效應對光照變化及透視變換的影響。

圖 5 KITTI 2015測試圖像的視差可視化結果Fig.5 The result of disparity visualization of KITTI 2015 test image

2.3.2 KITTI 2012實驗結果

對于KITTI 2012數據集,將所提網絡在測試集上的視差預測結果提交至KITTI網站,與其他立體匹配網絡的測試集定量比較結果如表3所示。

由表3可知,本文網絡在KITTI 2012數據集上表現良好,在主要排行依據—3px-Noc誤匹配率低至1.24%,相比PSMNet、Coex、GWCNet分別提升了16.8%、20.0%和6.1%。

表 3 不同網絡在KITTI 2012數據集上的對比結果

圖6為KITTI 2012測試圖像的視差可視化結果。比較KITTI 2012部分測試集的可視化結果,所提網絡預測的視差圖整體更加清晰平滑,特別是目標邊緣輪廓和遮擋區域,見圖6中白色方框所示。此外,在代表重復紋理區域的欄桿、代表反射區域的玻璃窗上也獲得了較穩健的結果,如圖中黃色方框所示。誤差圖中紅色像素表示遮擋區域的錯誤估計像素,白色像素表示非遮擋區域的錯誤估計像素。觀察誤差圖可知,由本文模型得到的誤差圖中,紅色區域和白色區域范圍明顯減小。說明DGNet在挑戰性區域可以提供更加精準的視差預測。

圖 6 KITTI 2012測試圖像的視差可視化結果Fig.6 The result of disparity visualization of KITTI 2012 test image

2.3.3 SceneFlow實驗結果

本網絡與其他先進立體匹配網絡在SceneFlow測試集上的EPE進行定量比較,結果見表4。

表 4 不同網絡在SceneFlow數據集上的EPE對比

由表4可知,本文模型 EPE為0.56 px, 相比于 PSMNet、 GWCNet、 MGNet 分別提升了46.2%、27.3%、15.2%,且相較于其他先進網絡均有不同程度的提升,其視差預測精度顯著提高。將 ScenFlow 部分測試集的視差預測結果可視化, 如圖7所示。 可以看出, 本文模型所輸出的視差圖明顯優于 PSMNet 的預測視差圖,稠密且清晰,特別是在重疊、精細結構等區域,其預測的視差更接近真實視差圖。

圖 7 SceneFlow測試圖像的視差可視化結果Fig.7 The result of disparity visualization of SceneFlow test image

3 結 語

本文提出的改進立體匹配網絡DGNet,通過密集連接具有不同膨脹率的空洞卷積層來構建多尺度特征提取模塊,從而強化網絡對不同尺度特征的感知能力。在代價聚合階段自適應融合代價體和密集多尺度特征,在代價體全局優化的同時嵌入豐富的多尺度上下文信息,實現有效的代價體正則化,從而回歸出更加精確的視差圖。相比于基準網絡PSMNet,本文模型顯著提升視差預測精度,同時在重復紋理、遮擋、邊緣等不適定區域具有很高的魯棒性。在未來的工作中,將致力于對DGNet進行輕量化處理。此外,考慮引入結構信息應對光照變化和透視變換的影響,在提升算法實時性的同時保持精度,使其更加適用于自動駕駛等領域。

猜你喜歡
視差代價空洞
基于自適應窗的立體相機視差圖優化方法研究
基于梯度域引導濾波的視差精煉迭代算法
愛的代價
代價
空洞的眼神
基于分割樹的視差圖修復算法研究
立體視差對瞳孔直徑影響的研究
用事實說話勝過空洞的說教——以教育類報道為例
成熟的代價
臭氧層空洞也是幫兇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合