?

基于多模態深度學習的汽車虛擬駕駛環境生成方法

2024-01-08 01:42張書生祝雪峰葉乾
計算機輔助工程 2023年4期
關鍵詞:樣式編碼器光照

張書生, 祝雪峰,2, 葉乾

(1.大連理工大學 汽車工程學院,遼寧 大連 116024; 2.大連理工大學寧波研究院,浙江 寧波 315000)

0 引 言

安全性是汽車工業中必須要考慮的關鍵問題,開發高標準的自動駕駛車輛更需要大量的行駛測試,而傳統的道路行駛測試需要花費數十年甚至上百年的時間[1]。針對這一問題,目前主流的解決方案是使用虛擬駕駛模擬器進行道路仿真試驗,即使用代理模型通過虛擬駕駛環境進行自動駕駛研究。虛擬駕駛環境可根據環境狀況與車輛進行互動,同時可為行人檢測提供技術支持[2]。虛擬駕駛環境需滿足2個技術要求:首先,從環境感知、導航與控制方面測試和驗證自動駕駛車輛的性能;其次,生成大量標記的訓練數據,這對深度學習尤其是計算機視覺方面的應用至關重要。

目前,虛擬駕駛環境的搭建方法主要分為3類:人工建模法、數據驅動法和神經網絡合成法。人工建模法基于計算機圖形學、物理規律和機器人運動規劃技術,通過人工方式進行駕駛環境建模。該方法可自由調控光照和各物理場,但是存在圖像仿真度不高、物體樣式有限等問題。數據驅動法使用攝像機、激光雷達等各類傳感器對實景進行掃描,從而自動構建虛擬駕駛環境。其使用的環境背景布局和圖像直接取自實景,因此該方法圖像仿真度極高,但是存在調控靈活度不夠、無法改變光照和大氣條件等問題。此外,實地取景步驟復雜,需要極大的工作量。神經網絡合成法將場景語義布局轉換為現實逼真的圖像,因此仿真度高,但存在調控靈活度不夠的問題。

近年來,深度學習逐漸應用于汽車性能分析?;谏疃葘W習的圖像樣式轉換技術為實現虛擬駕駛環境大氣與光照條件的可控性研究提供可能,通過語義布局即可生成現實仿真圖像。本文研究基于深度學習的汽車虛擬駕駛環境圖像生成方法,同時通過將不同時刻(光照條件)下的日間行車圖像轉換為夜晚行車圖像,設計虛擬駕駛環境圖像的模態控制方法。

1 汽車虛擬駕駛環境多模態轉換

假設x1∈χ1和x2∈χ2為來自2個不同圖像域的圖像。在無監督的圖像轉換過程中,樣本分別從邊緣分布p(x1)和p(x2)中提取,而不是提取自聯合分布p(x1,x2)。本文目標是通過訓練后的圖像轉換模型p(x1→2|x1)和p(x2→1|x2),預測2個條件概率分布p(x2|x1)和p(x1|x2),其中x1→2是將x1翻譯至χ2產生的樣本,x2→1是將x2翻譯至χ1產生的樣本。一般情況下,p(x2|x1)和p(x1|x2)是復雜的多模態分布,確定性編譯模型不能很好地適用于這種情況。

1.1 部分共享的隱空間

1.2 模型原理

本文模型的學習過程示意見圖1。翻譯模型由每個域χi(i=1,2)的編碼器Ei和解碼器Gi組成。每個自動編碼器的隱碼被分解為內容碼ci和樣式碼si,(ci,si)=(Ec,i(xi),Es,i(xi))=Ei(xi)。

圖 1 模型學習過程示意

圖像到圖像的轉換通過交換編碼器-解碼器對執行,見圖1下半部分。圖像到圖像轉換模型由2個自動編碼器組成,每個域各有1個。每個自動編碼器的隱碼由1個內容隱碼c和1個樣式隱碼s組成。模型使用對抗目標(點線)進行訓練,確保翻譯后的圖像與目標域中的真實圖像不可區分。同時,模型使用雙向重建目標(虛線)進行訓練,以重建圖像和隱碼。雖然先驗分布是單模態的,但由于解碼器的非線性,輸出圖像分布可以是多模態的。損失函數包括雙向重建損失和對抗性損失。雙向重建損失確保編碼器和解碼器功能完全反向;對抗性損失確保翻譯圖像與目標域中圖像的分布相同。

2 模型實例

所研究的自動編碼器架構見圖2,由內容編碼器、樣式編碼器和聯合解碼器組成。

圖 2 自動編碼器架構

2.1 內容編碼器和樣式編碼器

內容編碼器由若干個對輸入進行下采樣的跨步卷積層和若干個處理卷積層信息的殘差塊組成[3],所有卷積層的輸出都經過實例標準化(IN)[4]。樣式編碼器包含若干個跨步卷積層以及后面的全局平均池化層和全連接層,為保留重要樣式信息而不在樣式編碼器中使用IN層。

解碼器使用多層感知機(MLP)從樣式隱碼生成一組自適應實例標準化(AdaIN)層參數。內容隱碼由具有AdaIN層的殘差塊處理,通過上采樣和卷積層解碼到圖像空間。

2.2 解碼器

解碼器根據其內容和樣式隱碼重建輸入圖像,采用一組殘差塊處理內容隱碼,最終通過若干個上采樣和卷積層產生重建圖像。參考在標準化層中使用仿射變換參數表示樣式的研究內容,對殘差塊配備AdaIN層[5],其參數由多層感知器從樣式隱碼動態生成,具體信息為

(1)

式中:AdaIN()表示AdaIN層參數;z為先前卷積層的激活;γ和β為MLP生成的參數;μ()和σ()為通道平均值和標準偏差。

2.3 域不變的感知損失

感知損失通常定義為輸出和參考圖像在VGG特征空間[6]中的距離。采用域不變特性可以更為顯著地感知損失,以便使用輸入圖像作為參考。在計算距離前,對輸入VGG的圖像提前執行IN處理,以便刪除原始特征均值和方差。這其中包含許多特定于域的信息,域不變的感知損失能加速對高分辨率數據集的訓練。

域不變的感知損失實驗圖像對比見圖3。在參考數據集上進行實驗驗證[7],隨機抽取2組圖像對,其中:圖3(a)為來自不同域(夏季和冬季)的同一場景圖像,圖3(b)為來自相同域的不同場景圖像。

(a)同一場景圖像對

不使用和使用IN計算距離的感知距離(無量綱)-圖像對數量直方圖見圖4。在使用IN的情況下,即使來自不同的域,同一場景的圖像對仍具有明顯更小的感知距離。因此,在計算距離前應采用IN操作使得特征距離更具有域不變特性。

(a)不使用IN

2.4 神經網絡架構

搭建網絡架構:c7s1-k表示具有k個濾波器、卷積核大小為7×7、步幅為1的層;dk表示具有k個濾波器、卷積核大小為4×4、步幅為2的層;Rk表示包含2層核心大小為3×3卷積層的殘差塊;uk表示放大倍數為2的最近鄰上采樣層,其后是具有k個濾波器、卷積核大小為5×5、步幅為1的層;GAP表示全局平均池化層;fck表示具有k個濾波器的全連接層。IN應用于內容編碼器,AdaIN應用于解碼器。在生成器中使用ReLU激活函數,在辨別器中使用Leaky ReLU激活函數,函數自變量小于0的部分斜率為0.2。

(1)生成器架構組成如下:內容編碼器為c7s1-64、d128、d256、R256、R256、R256、R256;樣式編碼器為c7s1-64、d128、d256、d256、d256、GAP、fc8;解碼器為R256、R256、R256、R256、u128、u64、c7s1-3。

(2)辨別器架構為d64、d128、d256、d512。

3 模型訓練

3.1 數據集

Cityscapes是一個大規模城市街景數據集,其中包含從50個不同城市的街道場景中錄制的一組不同的立體視頻,除去20 000幀粗糙注釋幀外,還有5 000幀的高質量注釋幀圖像(見圖5),用于訓練語義視覺算法并評估其在城市場景識別任務中的性能。本文圖像合成實驗使用高質量像素級的注釋數據集和無標簽的視頻數據集,圖片像素重新插值為256×256。

圖 5 Cityscapes高質量注釋幀圖像(部分)

Comma2k19是由Comma AI提供的自動駕駛數據集,見圖6。該數據集是在美國加利福尼亞280高速公路的加利福尼亞圣若澤與舊金山之間的20 km路段上采集的,累計拍攝時長33 h,共有2 019段視頻,每段時長1 min,視頻分辨率為1 164×874。本文將其分辨率縮小為292×224,用于模態控制實驗。

圖 6 Comma2k19數據集視頻幀(部分)

3.2 評估標準

3.2.1 主觀評價

自動駕駛車輛最終要在真實環境中使用,虛擬駕駛環境的圖像不僅需要在細節風格上保持真實性,環境中的內容物體也需要在邏輯上符合現實。為此,在評價模型輸出的真實性時進行主觀評價。將一個輸入圖像和經過網絡編譯后的生成圖像展現給評價人員,然后要求評價人員在有限的時間內選擇哪張圖像是真實圖像。為每個評價人員隨機生成15個相關問題,共計100位評價人員參與該項調查。

3.2.2 LPIPS距離

LPIPS由圖像深度特征之間的加權歐式距離給出,相關研究已經證明其與人類感知具有很高的相似性[8]。為量化評價圖像轉換的多樣性,計算在相同輸入情況下轉換輸出圖像之間的平均LPIPS距離。使用100個輸入圖像,并對每個輸入抽取10個輸出對作為樣本,總共有1 000個輸出樣本。

3.2.3 圖像質量量化評價

在模態控制實驗中,為評價多模態圖像的質量,對每個輸入圖像抽取10個輸出作為樣本,共取100張輸入圖像。實驗還需要評價在執行光照條件控制任務時樣式隱碼重建損失、內容隱碼重建損失和圖像重建損失對生成圖像質量的影響。采用GAN辨別器作為圖像質量量化評價標準,其中辨別器取自在Comma數據集上訓練后的模型。對于白天到夜晚轉換,使用夜晚域的辨別器;對于夜晚到白天轉換,使用白天域的辨別器。評價標準為辨別器判斷為真實圖像的百分比。

3.3 實驗分析

3.3.1 圖像合成實驗

實驗目的是合成自動駕駛環境圖像。神經網絡可根據輸入的街景圖像語義布局生成真實的街景圖像。實驗使用Cityscapes數據集,將街景圖像與其語義標簽作為2個域供網絡訓練。本文模型與CG建模法主觀評價的結果對比見表1。英特爾的CARLA[9]、微軟的Airsim[10]、谷歌的Carcraft以及GTA5游戲是用于自動駕駛代理訓練的主流虛擬環境。本文在上述人工建模環境中進行駕駛模擬,截取引擎蓋視角的圖像用于比較。

表 1 本文模型與CG建模法主觀評價結果對比

從表1的數據可以看出,雖然本文方法生成圖像被認為更真實的比例僅有39.76%,但是人工建模法的圖像所獲得的評價為0,即完全沒有被認為是真實圖像。相較于人工建模法,本文的方法可以在很大程度上改善生成圖像的真實性。

同時,將本模型與其他神經網絡合成法進行對比,當使用相同的語義分割標簽作為輸入時,預測的主觀評價結果對比見表2。所研究模型真實性評價排名第二,效果較好,生成的圖像示例見圖7。

表 2 本文模型與其他神經網絡合成法主觀評價結果對比

圖 7 本文模型生成的圖像示例

在圖7中,第一、二列圖像為輸入模型的語義布局,第三、四列為對應的合成圖像。所生成的圖像在訓練集中并未出現過,但其圖像內容合理、符合現實邏輯,可適用于自動駕駛模型的訓練和測試。

3.3.2 模態控制實驗

采用實驗的方法證明所設計模型對圖像模態進行控制的能力。虛擬駕駛環境的光照條件是重要屬性,對自動駕駛算法影響很大。實驗選取光照控制條件作為模態控制的可變因素,使用Comma2k19行車視頻作為數據集,每隔25幀采樣一次作為訓練數據。完成優化的神經網絡能在不同光照的駕駛環境下進行白天與夜晚的圖像轉換,并能可控渲染白天和黑夜不同時間段的光照。

定量分析本文模型及其3個變體,分別去除圖像重建損失、內容隱碼重建損失和樣式隱碼重建損失,結果見表3。在沒有樣式隱碼重建損失的情況下,模型輸出的多樣性降低,與無圖像重建的損失相比,完整網絡前提下的圖像多樣性損失略低,但圖像質量得到大幅提升,達到較好的平衡。

表 3 光照條件轉換圖像量化分析結果

白天轉夜晚行車圖像示例見圖8和9。本文模型成功地將白天行車圖像轉換為夜晚行車圖像。在給定白天行車輸入圖像情況下,通過輸入不同的樣式隱碼,能控制轉換生成夜晚圖像的光照條件。神經網絡輸出結果表現出多模態特性,本文實驗取其中3種光照條件的結果作為示例。輸出的樣式1與剛入夜的光照相似,遠方天空微亮,由遠及近亮度逐漸降低,前方車輛尾燈亮起,路面出現車輛大燈照射效果;樣式2與有鹵素路燈照明路面的光照相似,整體色調偏暖;樣式3與深夜無路燈道路的光照條件相似,在車燈照射范圍外的景物漆黑一片。雖然圖片中的光照條件經歷大幅變化,但是車道、車輛、樹木和天空的位置、形狀與布局都保持不變。

(a)原圖

(a)原圖

4 結束語

面向虛擬駕駛環境生成,提出基于多模態深度學習的虛擬駕駛環境圖像生成方法。該模型屬于無監督方法,可實現由語義布局合成全新模擬真實駕駛環境圖像,并且在不影響圖像內容的基礎上控制圖像模態。

在合成圖像真實性的主觀測試中,本文方法的結果優于傳統建模法,同時在深度學習方法中也處于領先地位。本文方法可在多模態圖像轉換分析中提升圖像質量及其多樣性,為自動駕駛虛擬環境平臺搭建提供技術參考。未來將結合長短時記憶網絡,使視頻中相隔較遠的圖像幀具有較好的連續性。

猜你喜歡
樣式編碼器光照
CPMF-I 取樣式多相流分離計量裝置
節能環保 光照萬家(公益宣傳)
CPMF-I 取樣式多相流分離計量裝置
節能環保光照萬家(公益宣傳)
取樣式多相流分離計量裝置
春光照瑤鄉
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設計
JESD204B接口協議中的8B10B編碼器設計
這是巴黎發布的新樣式
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合