?

全像素雙核成像技術及應用研究綜述

2022-12-21 03:23戴玉超章飛宇潘利源項末初何明一
中國圖象圖形學報 2022年12期
關鍵詞:視差雙核透鏡

戴玉超,章飛宇,潘利源,項末初,何明一*

1.西北工業大學電子信息學院,西安 710129; 2.北京理工大學計算機學院,北京 100081

0 引 言

全像素雙核(dual-pixel,DP),最初是由佳能(Canon)公司于2013年7月在英國發布的一項應用在數碼單反相機EOS 70D上的自動對焦技術,其完整的名稱是全像素雙核CMOS自動對焦技術或全像素雙核自動對焦技術(dual-pixel CMOS auto focus,DP CMOS AF)。

DP傳感器將傳統的Bayer陣列傳感器的每個像素一分為二,因而一次拍攝能夠捕獲兩幅帶有微小基線(小于等于1 mm)的圖像對。DP圖像對的視差由其點擴展函數(point spread function, PSF)產生,與模糊量相對應。聚焦平面幾乎不存在視差,離焦平面存在視差(Punnappurath和Brown,2019),因而又稱為離焦視差。全像素雙核圖像對及離焦視差如圖1所示。離焦視差在焦點前后的方向相反。

圖1 全像素雙核圖像對及離焦視差示例Fig.1 Dual-pixel image pair and defocus disparity example

離焦視差首先得到了工業界的廣泛關注。佳能公司自2013年起在中高端相機中全部使用DP自動對焦。因DP在單反相機中優異的自動對焦性能,2016年起各大手機制造廠商紛紛將其用于手機自動對焦。目前,索尼、三星兩大消費級相機傳感器制造廠商均使用DP結構。近5年來,各大主流手機廠商如三星、小米、VIVO和榮耀的上百款手機均搭載DP傳感器。根據離焦視差估計圖像合焦鏡頭所需移動的距離,DP自動對焦具有更快的對焦速度和更高的對焦精度,因此,DP自動對焦在目前消費級相機傳感器中占有大量比例,如圖2所示。

由于DP數據采集無需標定,離焦視差與模糊量直接相關,DP也受到了學術界的廣泛關注。場景深度與模糊相關,因此,近年來DP自動對焦技術自然地應用于深度估計(Wadhwa等,2018;Gage等,2019;Zhang等,2020;Pan等,2021)、離焦模糊去除(Abuolaim和Brown,2020;Abuolaim等,2021;Pan等,2021)和反射去除(Punnappurath和Brown,2019)等方面的研究??梢哉f,全像素雙核為計算機視覺領域相關任務帶來了新的解決方案。

為了更好地理解、應用和發展全像素雙核成像技術,本文對其自動對焦、成像原理以及在計算機視覺的深度估計、反射去除和離焦模糊去除幾個任務中的應用進行系統綜述(如圖3所示),最后展望其未來發展方向。

圖2 全像素雙核工業界發展歷程Fig.2 Development history of dual-pixel in industry

圖3 全像素雙核的典型應用(自動對焦、深度估計、反射去除、離焦模糊去除)Fig.3 Applications of dual-pixel sensors (auto-focus,depth estimation,reflection removal,defocus deblur)

本文首先從自動對焦技術入手,對全像素雙核自動對焦的原理進行闡述。隨后,結合近期各領域對全像素雙核成像機制的研究,進行了系統性的歸納總結。其次,詳細綜述了近幾年來全像素雙核在計算機視覺領域的研究進展和應用成果,并介紹了目前幾個全像素雙核數據集。最后,討論了全像素雙核面臨的挑戰并對未來發展方向進行展望。

1 自動對焦

1.1 相位檢測自動對焦

相位檢測自動對焦,是一種需要光學相位檢測器的自動對焦技術,是一種3維對焦方式。目前的相位對焦系統大多是透鏡分離相位檢測系統。

透鏡分離相位檢測方式為大多數單反相機所采用。它的原理是檢測等效焦平面所成像經過分離透鏡后位于電荷耦合器件(charge-coupled device, CCD)陣列上的相位差,從而判斷離焦的方向和距離。透鏡分離相位檢測系統的主要組成部分是一組分離鏡片和一組或多組由感光元件組成的測距組件。由鏡頭射入的光線大部分通過主反光板反射到五棱鏡,一小部分透過主反光板到達副反光板,再反射到獨立對焦系統。獨立對焦系統的光路(https://www2.xitek.com/info/showarticle.php?id=1048)如圖4所示。副反光鏡反射的光線經過遮擋塊和紅外線濾光片濾除掉有害的光線,經過分離透鏡,光線分成兩束并分別投影到其后的測距組件上,如CCD線陣。

圖4 透鏡分離相位檢測獨立對焦系統光路Fig.4 Optical path of lens separation phase detection independent focusing system

如果物體合焦,即焦平面與像平面重合,分離透鏡分出的兩束光投射到CCD線陣上所產生的電信號的位置是固定的。CCD陣列會告知相機中央處理器(central processing unit, CPU),此時合焦。如果物體離焦,則有兩種情況。一種是焦點在像平面前方,此時接受光的兩只CCD線陣上產生的電信號之間的距離小于合焦時的距離;另一種是焦點在像平面后方,此時接受光的兩只CCD線陣上產生的電信號之間的距離大于合焦時的距離。通過相機CPU計算CCD陣列上接收的一對電信號的相位差并與合焦狀態下相位差進行比較,可計算出離焦量及離焦方向(https://www2.xitek.com/info/showarticle.php?id=1048),如圖5所示。

圖5 相位檢測自動對焦原理示意圖Fig.5 Overview of auto focus principle of phase detection

透鏡分離相位檢測系統使用獨立的透鏡和CCD陣列,優點是信號敏感度高、數據處理簡單、高效可靠以及長焦性能優秀。缺點則是體積龐大、結構復雜、成本高以及對焦區域有限。對焦時只利用原光束的一部分,因此對原始光線要求較高,光線不足會降低對焦的準確度。透鏡分離相位檢測系統主要適用于反光鏡光學取景,不適用于電子取景。

1.2 反差檢測自動對焦

反差檢測自動對焦是電子取景特有的一種2維對焦方式,其原理是利用傳感器上成像的對比度變化,通過逐步調節鏡頭使檢測到的對比度最大化實現調焦。

反差檢測與相位檢測的自動對焦比較:

1)對焦速度。相位檢測自動對焦比反差檢測自動對焦快。因為相位檢測自動對焦是“一步到位”進行對焦,而反差檢測自動對焦則需要隨機摸索比較。反差檢測對焦時,鏡頭起初的移動方向是隨機確定的,在尋找合焦點的過程中畫面逐漸清晰,直到對比度最高時,鏡頭處于合焦狀態。但是鏡頭無法確定此時是否合焦,往往會錯過合焦點后再返回到合焦處,因此反差檢測自動對焦比相位檢測自動對焦速度慢。但隨著成像元件刷新率的提高和對焦算法的不斷優化,一些微單的反差檢測自動對焦速度也已經超過某些單反的相位檢測自動對焦。

2)對焦精度。由于相位檢測自動對焦光路系統的存在,其精度受設備精度和外界環境影響較大,而反差檢測自動對焦沒有此類問題。

3)弱光和強光下的表現。強光下反差檢測的采樣結果嚴重過曝,無法識別其對比度差異,難以對焦;弱光下進入相位檢測對焦系統的光十分微弱,可能會導致相位檢測自動對焦失敗。弱光下,場景的對比度雖小,會導致反差檢測自動對焦性能降低,速度變慢,但是只要能夠識別到微小的對比度,反差檢測自動對焦仍然能夠正確對焦。

4)長焦下的表現。長焦鏡頭的對焦負擔大、景深淺。反差檢測時,鏡頭平面的輕微移動都會導致畫面模糊程度發生較大變化,使反差檢測自動對焦的性能降低。相位檢測自動對焦不存在這類問題。

1.3 混合自動對焦

混合對焦(Hybrid CMOS AF)(Jang等,2016)是結合反差檢測自動對焦和成像傳感器相位檢測自動對焦兩種技術的優點并克服傳統自動對焦技術的缺點而提出的一種新的對焦技術。首先,成像傳感器由相位檢測自動對焦提示對焦的方向和大致距離,讓鏡頭迅速移動到合焦點附近;然后,再使用反差檢測自動對焦進行精準對焦。

混合對焦中,成像傳感器相位檢測是利用成像元件表面的微透鏡代替分離透鏡并使用多個像素代替CCD陣列實現的。其與透鏡分離相位檢測的區別是:前者檢測的是分離光束的位置;后者檢測的是分離光束的強度。成像傳感器無法容納大尺寸的分離透鏡,由成像元件的微透鏡匯聚光線,設置擋板遮住一半的光線,兩個檢測像素分別接收來自透鏡兩半的光線。如果合焦,來自透鏡兩半的光線強度一致;如果離焦,則光線強度會發生偏差。根據檢測像素的偏差量計算出離焦量和離焦方向。

成像傳感器相位檢測將有限的像素作為對焦像素。如圖6中灰色像素所示,這些用做對焦的像素只接收來自微透鏡一半的光線,一般不參與成像。但是有限像素組成的對焦線陣由于面積有限,對焦系統獲得光信號的總量只有普通像素的一半,因此弱光下對焦會有困難。對焦像素的微透鏡和感光材料的尺寸及精度無法與透鏡分離相位檢測中的獨立對焦系統媲美,其信噪比低,影響精度和可靠性。由于一部分像素只參與檢測、不參與成像,因此會影響成像。此外,由于光路和成像問題,畫面邊緣部分對焦會有難度。

圖6 混合自動對焦示意圖Fig.6 Illustration of hybrid autofocus

1.4 全像素雙核自動對焦

混合自動對焦使用有限像素進行相位檢測,只在一定程度上提升了反差檢測自動對焦的水平,無法達到相位檢測自動對焦的水平。在弱光下,由于進光量不足,混合自動對焦的性能甚至不如反差檢測自動對焦。因此為了改進混合自動對焦的缺點,佳能提出了全像素雙核自動對焦,如圖7所示,每個像素既參與成像又參與對焦。DP CMOS AF為每一個像素都配置了兩個獨立的光電二極管,例如Canon EOS 70D的2 020萬有效像素配備了4 030萬個光電二極管(考慮到老款鏡頭的適配性和成本因素,一些邊緣像素未配備兩個光電二極管)。為了突出每個像素被一分為二,而像素總數保持不變,dual-pixel的中文名稱命名為“全像素雙核”。每個光電二極管獨立接受光線,在不同位置分別獲取兩個信號,通過比較兩個信號的視差計算出鏡頭的驅動量和驅動方向,從而完成相位檢測自動對焦。成像時拼合兩個光電二極管A與B積蓄的電荷,作為一個像素進行讀取,使得每個像素都參與對焦和成像,從而能夠在不損失畫質的情況下同時進行自動對焦和圖像捕捉功能。

圖7 全像素雙核自動對焦結構示意圖Fig.7 Illustration of dual-pixel autofocus structure

全像素雙核自動對焦的原理為:DP CMOS AF中單個像素是無法獨立進行相位檢測的,它在水平方向上將多個像素連接,形成線性感應器(縱向線條感應器),調動多個像素進行對焦。RGB濾鏡下,觀測鄰近像素左側子像素光電二極管的成像信號與哪些像素的右側子像素的成像信號存在關聯,經過處理后解算對焦信息。其中的線性感應器的長度相當于取景器自動對焦感應器的基線,它會隨光圈產生變化。

在合焦狀態下,兩個子像素的光電二極管的成像是重合且清晰的,但在離焦狀態下則是模糊且錯開的,而且位于焦前和焦后的圖像視差是相反的,如圖8所示(https://www.canon.com.cn/special/dualpixelcomsaf/principles.html)。因此,通過檢測兩個信號的視差,便可計算出聚焦過程中鏡頭的驅動方向和驅動距離。

圖8 全像素雙核自動對焦示意圖(佳能)Fig.8 Illustration of dual-pixel CMOS AF(佳能中國,2013)((a) there is no disparity between two images when focusing; (b) disparity of two images when the focus is forward; (c) disparity of two images when the focus is backward)(Canon China, 2013)

全像素雙核自動對焦的優點包括:

1)以全像素雙核CMOS AF為例,它僅通過圖像傳感器相位檢測完成對焦,不需要復雜的光學結構,比傳統的相位檢測自動對焦更簡單、成本更低。能夠實現高速對焦,且傳統的反差檢測自動對焦速度的5倍,比混合自動對焦的對焦速度提升了約30%。

2)DP所有像素均具有成像和對焦功能,絕大多數像素都參與對焦,相比混合自動對焦中有限像素參與成像,DP自動對焦受光面積更大、信噪比高、對焦范圍比光學取景器更大。

3)DP每個像素接收到的光信號與普通像素相近,不再是普通像素的一半,而且相鄰像素在計算差異值時可以互相驗證,起到監督作用。因此對焦效率提升,對弱光的對焦性能也得到提高,不受特定的鏡頭光圈孔徑限制。

全像素雙核數據的獲取方式為:目前佳能大多數單反相機和多款微單相機已經搭載了DP CMOS AF傳感器。但是只有單反相機Canon EOS 5D Mark IV 和微單相機Canon EOS R5能夠在佳能官方照片處理軟件Digital Photo Professional中讀取并處理全像素雙核圖像對。

為了將DP自動對焦的優勢應用到手機相機上,CMOS廠商研發了多款手機相機傳感器,如三星的S5KGN1、GN2,索尼的IMX555、IMX563等。絕大多數的智能手機廠商如谷歌、三星、小米、VIVO和魅族等將DP傳感器配備在手機相機中,手機行業對全像素雙核另一種表述為dual photo diode(Dual PD)。谷歌將全像素雙核搭載在Google Pixel2,Pixel3,Pixel4等智能手機的相機中。使用谷歌特定的軟件可以在Google Pixel上提取出DP數據,但是谷歌提供的DP圖像并不是RGB三通道的圖像,而是綠色單通道的灰度圖像。

此外,富士、尼康、奧林巴斯和松下已申請了DP自動對焦(或非常相似)系統的專利。

2 全像素雙核成像原理

2.1 全像素雙核成像模型

Pan等人(2021)將全像素雙核相機建模成一個滿足微透鏡模型的相機,可同時捕獲兩幅圖像。在該模型中,相機焦平面被一分為二。一半焦平面捕獲來自透鏡左半部分的光線;另一半焦平面捕獲來自透鏡右半部分的光線。相機鏡頭被一分為二,兩幅圖像被看做由兩個共面透鏡捕獲的圖像。DP成像模型可近似為小孔成像模型和透鏡成像模型。

全像素雙核近似的小孔成像模型如圖9所示,假設來自左圖像IL的光線通過透鏡左半部分區域AL,來自右圖像IR的光線通過透鏡右半部分區域AR,假設區域AL和AR盡可能小,看做是由兩個點CL和CR組成。

在該模型中選定坐標系,透鏡所在平面為X=0,透鏡中心為原點?,F實世界的場景位于透鏡左側(X<0的區域),由點集X=(X,Y,Z),Xf組成。其中f是焦距,即焦點到光心的距離。傳感器平面即像平面,位于相機內部,與透鏡平行,該平面定義為X=F,其中F>0。F代表像距,即傳感器平面與透鏡的距離(一般F≠f。但當物距遠大于焦距時,F≈f)。

圖9 全像素雙核近似的小孔成像模型(Pan等,2021)Fig.9 Pinhole imaging model based on dual-pixel approximation (Pan et al., 2021)

若針孔相機模型以點CL為投影中心且具有與透鏡成像模型相同的焦平面,則傳感器平面的成像與實際的DP傳感器成像相同,成像平面獲得左視圖IL。同理,通過CR的小孔成像模型可得右視圖IR。

全像素雙核近似的透鏡成像模型如圖10所示,不同于DP小孔成像模型,DP透鏡成像模型的透鏡平面的光線匯聚區域不再看做小孔,而是半個透鏡。光線從深度為d的場景點X穿過區域AL和AR,折射的光線聚焦于點X′,形成一個雙面錐體,頂點為X′。

圖10 全像素雙核近似的透鏡成像模型(Pan等,2021)Fig.10 Lens imaging model based on dual-pixel approximation (Pan et al., 2021)

這個錐體與深度為F的傳感器平面相交于一個區域A′L和A′R,該區域的形狀與AL和AR類似。區域AL和AR比小孔成像模型的區域更大,事實上,它們各自占透鏡一半的區域。圖像IL和圖像IR是光線通過區域AL和AR在傳感器平面上所成像的疊加。合焦圖像是清晰的,而離焦圖像將出現模糊,這種模糊與深度相關。出現這種模糊的原因是:真實世界中的一些點成像在焦平面處,這些點通過AL和AR,IL和IR成像在焦平面的同一個位置,因此左右視圖疊加后它們是清晰的。而那些無法成像在焦平面處的點,IL和IR成像不在同一位置,疊加后是模糊的,并且呈現出視差。

2.2 全像素雙核仿射歧義性

Garg等人(2019)指出DP圖像不僅存在尺度歧義性(scale ambiguity)(Lowe,1999),而且還同時存在仿射歧義性(affine ambiguity),后者指不同的相機參數集和場景幾何會產生相同的DP圖像。

傳統雙目成像隨著場景深度的改變而發生變化,如圖11(a)所示。但是對于DP圖像,隨著深度的改變,如果相機的焦距、光圈和聚焦距離等參數發生變化,成像可能不會發生改變,這就是DP的仿射歧義性。光圈、焦距不變時,景深和對焦距離改變但和不變,最終成像相同,如圖11(b)所示。

假設相機坐標系下存在一個以(x,y,D(x,y))為點光源的場景,像平面處的視差d(x,y)與離焦模糊量b(x,y)成正比,其中離焦模糊量的正負由點光源位于焦平面的前后決定。由近軸和薄透鏡成像近似可得

(1)

式中,α為比例常數,L為光圈孔徑,f為焦距,g為聚焦距離。式(1)通過定義A(L,f,g)和B(L,f,g)來表示深度與視差的關系。如果相機焦距、聚焦距離和光圈已知,則可以由DP兩視圖的視差推導出場景深度D(x,y)。

同時,式(1)也說明DP數據具有仿射歧義性。因為兩組不同的相機參數可能會產生兩組不同的仿射參數(A1,B1),(A2,B2), 繼而導致不同的景深D1(x,y),D2(x,y)可能產生相同的平面視差,即

(2)

事實上,解決這種仿射歧義性最簡單的方法是,利用相機內參(焦距、聚焦距離和光圈等)數據和圖像視差,根據式(1)估計絕對深度。但是手機相機在記錄相機內參數據時并不可靠(DiVerdi和Barron,2016),因此無法獲得準確的絕對深度。但是從式(2)可知,DP視差d(x,y)與深度D(x,y)呈負相關,網絡可根據DP視差預測一種相對深度D(x,y),但是該深度相比較絕對深度具有仿射歧義性和尺度歧義性,下文將其稱為仿射歧義性深度。仿射歧義性深度是一種相對深度,能夠體現絕對深度的變化。

圖11 全像素雙核的仿射歧義性示意圖Fig.11 Illustration of the affine ambiguity for dual-pixel((a) only change the depth of field, DP disparity changes, imaging changes; (b) change the depth of field and focus distance (the sum of the two remains unchanged), DP disparity remains unchanged, and imaging remains unchanged)

在Garg等人(2019)采集的數據集中,絕對真值深度被轉換為具有仿射歧義性的視差。為了在該仿射歧義性下訓練網絡估計的仿射歧義性深度,Garg等人(2019)構造了仿射不變的損失函數(見3.1節)。即使絕對真值和網絡輸出均具有仿射歧義性,網絡仍能夠正確估計出具有仿射歧義性的深度。

相對深度順序可以用于手機相機合成離焦模糊。手機相機光圈普遍較小,離焦模糊弱,利用式(2)的DP視差估計的仿射歧義性深度順序可以模擬大光圈的強離焦模糊效果,在拍攝人像、微距時可以提升圖片的美觀程度。

2.3 全像素雙核的點擴展函數

點擴展函數是點光源在成像平面的光場分布。在聚焦區域,點擴展函數可近似看做一個單位脈沖響應,但是多數情況下,使用彌散圓(circle of confusion, COC)表示點擴展函數。彌散圓是在焦點前后,光線聚散,物點在像平面形成的一個擴散的圓(吳佳澤 等,2011)。如果彌散圓的直徑足夠小,則成像清晰;如果圓形半徑變大,成像會變得模糊,如圖12所示。

圖12 彌散圓與景深的關系Fig.12 The relationship between COC and depth of field((a) as the aperture increases, the diameter of COC becomes larger and the image becomes blurred; (b) as the aperture shrinks, the diameter of COC becomes smaller and the image becomes clear)

在雙目立體圖像對中,視差可以看做是圖像內容的顯式偏移。對于DP圖像對,其視差是由點擴展函數產生的(Punnappurath和Brown,2019),視差與模糊量直接相關。在雙目和DP的成像模型中,位于焦平面處的點,其點擴展函數都可以近似為一個單位脈沖響應。但是對于焦平面之外的點,雙目圖像對彌散圓的形狀是一個圓盤形的模糊核,如圖13(b)所示(圖13(b)僅展示了雙目中一張視圖的點擴展函數)。DP傳感器焦平面之外的點的彌散圓的形狀為模糊核的一半,左右視圖的彌散圓是對稱的。此外,位于焦前和焦后的點的對應視圖的彌散圓也是翻轉的。視差與彌散圓的半徑大小成正比,而視差的正負也與彌散圓半徑的符號一致,如圖13(c)所示。

圖13 全像素雙核傳感器和傳統傳感器的彌散圓對比Fig.13 Comparison of COC between DP sensor and traditional sensor((a) traditional sensor vs DP sensor; (b) COC of traditional sensor; (c) COC of DP sensor)

2.4 全像素雙核圖像對與立體圖像對的區別

DP的兩個視圖近似可以看做基線非常微小的立體圖像對。但DP圖像對與雙目立體圖像也存在如下差異:

1)DP圖像對是完全同步的(在時間和空間上),并且具有相同的曝光和白平衡。

2)DP圖像對具有可以編碼額外深度信息的不同的點擴展函數。由此也為DP在應用雙目立體視覺技術時帶來了問題:傳統的雙目匹配技術在應用DP數據時,常常會忽視由焦點產生的額外深度信息;由于兩視圖的點擴展函數存在不同,傳統的雙目匹配可能會在離焦區失敗。

3)DP圖像對只在離焦處存在視差,合焦處幾乎不存在視差。視差與深度的關系滿足式(2);視差與離焦模糊量的關系滿足式(1)。

3 全像素雙核在計算機視覺中的應用

自2018年以來,全像素雙核因其獨特的成像原理、特性和潛在的應用,逐漸受到學術界關注。近年來計算機視覺的頂級會議都發表了一部分DP數據應用的論文,其應用領域也從深度估計逐漸擴展到反射去除、離焦模糊去除等領域,論文數量呈現逐年上升趨勢,如表1所示。本節主要從深度估計、反射去除和離焦模糊去除3個方面介紹DP數據在計算機視覺的應用。

3.1 基于全像素雙核數據的深度估計

深度估計一直以來都是計算機視覺領域的核心問題之一,既是視覺感知的基本組成部分,也服務于多種圖像處理、圖像識別和機器人的任務。場景深度可以使用特定的深度檢測硬件設備(如激光雷達)直接獲取,但是這類設備價格昂貴,并受限于環境。多視角幾何技術結合多個相機可以推測深度(Hartley和Zisserman,2000),但是這些相機需要進行校正、標定和同步等復雜的過程,其計算復雜度高(畢天騰 等,2018)。而基于深度學習的單目深度估計的方法也存在圖像成像過程中約束不足導致預測不準確的問題。DP相機在拍攝時能夠提供兩張子視圖,這既為雙目立體視覺算法開拓了應用場景,也為單目深度估計提供了新的方式。

景深往往由相機的光圈大小決定,較大的光圈會產生淺景深,而較小的光圈則產生寬景深。目前智能手機上傳統的合成景深方法是使用雙攝進行深度估計,根據深度圖對圖像進行淺景深合成,但這會增加生產成本,占據手機物理空間。也有一些廠商在手機上直接使用圖像雷達方法(即飛行時間技術(time-of-flight))和結構光技術進行深度估計,但是這些硬件往往非常昂貴,并且難以在室外使用(黃軍 等,2019)。為了節約成本、節省空間,Wadhwa等人(2018)提出了第1個使用配備DP傳感器的單目相機合成淺景深的技術,并將其集成到Google Pixel的手機軟件中。

表1 全像素雙核技術應用研究統計Table 1 Research status and statistics of dual-pixel

Wadhwa等人(2018)提出了3種算法,分別應用到3種不同的場合中。第1種算法將DP和人體分割網絡結合,合成淺景深,對背景進行虛化處理。該方法適用于配置了DP傳感器的相機拍攝人像的場景。當人物與背景顏色相近時,人體分割網絡經常會分割錯誤。DP的加入使得網絡面對這種問題時魯棒性更好。第2種算法只使用DP數據合成淺景深,適用于配置了DP傳感器的相機拍攝物體的場景;第3種算法只應用了人體分割網絡,適用于使用非DP傳感器相機(通常是前置攝像頭)拍攝人像的場景。前兩種方法都使用了DP數據來生成稠密深度圖,它們首先對DP圖像執行平均和對齊操作以減少噪聲,然后使用立體算法推導出一組低分辨率和帶有噪聲的視差圖。最后使用校準程序對視差圖進行校正,使用雙邊空間技術對校正后的視差進行上采樣與平滑,最終生成高分辨率的視差圖。在進行面部檢測時,如果畫面中人數較多,傳統技術會出現一些人隨著背景被模糊的問題。因為DP數據可以得到背景與人的合理視差,所以使用DP數據可以幫助緩解這種問題。但是,使用DP數據會產生孔徑問題(Morgan和Castet,1997),與基線平行的圖像結構將無法被識別。而與人體分割網絡融合可以消除這種問題對人像分割的影響。但是在非人像的場景以及人像照片的背景中,孔徑問題仍然存在。該方法是第1個將DP傳感器引入計算機視覺的方法,盡管在特定場景下仍存在傳統的視覺問題,但是對于配備DP傳感器的單攝手機具有重要的意義。

受該工作的啟發,Garg等人(2019)發現由于DP圖像視差與焦點的相關作用使得經典的立體算法與基于先驗學習的單目深度估計算法表現不佳,于是他們分析了DP的仿射歧義性,并提出一種新的單目深度估計方法在這種仿射歧義性的尺度下進行深度估計。他們使用了5個不同視角的RGB圖像與DP數據配對,以此監督這種未知的仿射歧義性下的深度預測結果。

Garg等人(2019)使用單目深度估計常用的自監督損失來監督網絡。一般的視覺自監督損失函數表示為

(3)

為了對仿射歧義性下的深度預測結構進行自監督,Garg等人(2019)提出了兩種損失函數:分別是3D assisted loss和Folded loss。

3D assisted loss計算為

(4)

Folded loss不需要絕對真值深度,而是使用了優化方法求解仿射參數。將變量a和b與每個訓練實例I0相關聯,定義如下損失函數

(5)

并對θ,a,b進行梯度下降優化

(6)

Garg等人(2019)使用VGG(Visual Geometry Group)模型架構(Godard等,2017)和類似U-Net網絡(Ronneberger等,2015)的具有殘差塊(He等,2016)的輕量化網絡DPNet作為其單目深度估計網絡。

由于DP圖像存在的仿射歧義性,DP預測的深度并不與絕對深度對應,因此無法使用常規指標進行評估。Garg等人(2019)使用斯皮爾曼等級相關(用絕對真值深度的置信度作為權重,評估估計深度的序數正確性)的加權變量作為評估指標。除此之外,該任務還使用仿射不變性的加權版本平均絕對誤差(mean absolute error, MAE)和均方根誤差(root mean squared error, RMSE)作為評估指標。DPNet在應用DP數據時,使用的損失函數提高了基于單目深度估計方法的視覺監督的精度,與只使用RGB圖像作為輸入相比,DPNet的性能有很大提升,證明了DP在深度估計的優勢。該方法首次提出全像素雙核幾何,揭示了全像素雙核成像中深度與模糊量之間的關系,為之后多個領域研究提供了理論基礎。但該方法也存在缺點:對于遠距離的無紋理物體,深度預測的準確度會急劇下降。

盡管經典的立體算法在應用DP數據時效果不佳,但是將DP與雙目圖像結合能夠解決很多傳統的雙目匹配中的問題。眾所周知,雙目立體視覺被孔徑問題、遮擋問題和重復紋理等問題困擾,因此為了克服純雙目立體匹配的限制,Zhang等人(2020)提出了第1種將雙目圖像和DP圖像相融合的深度估計神經網絡。但是由于DP仿射歧義性的存在,DP圖像和雙目圖像無法直接整合,因此他們還提出了一種方法融合DP和雙目視覺的置信體,在視差細化階段結合DP數據推導最終的精準視差圖。

因為DP圖像之間的基線較小,因此兩視圖之間的遮擋區域更少,在物體邊界附近,DP估計的深度比雙目相機估計的深度更精準。但是微小的基線也會導致遠距離處估計的深度更差。因此Zhang等人(2020)提出將雙目相機與DP傳感器融合的方法,設定一個雙目系統,其中的一個相機具有DP傳感器。來自雙目相機和DP兩種深度的誤差互補,這樣的設置可以保證在近距離、遠距離以及物體邊界附近獲取精確的深度,以彌補二者的不足。此外,雙目相機與DP的基線是正交的,可以避免孔徑問題,即能夠估計平行于二者基線的圖像紋理區域的深度。

DP和雙目相機基線正交,緩解了孔徑問題和重復紋理引起的誤差。此外,Du2Net克服了DPNet準確率隨著距離增加而急速下降的問題。其在遮擋邊界處表現優異,因此在合成淺景深的應用中能夠更好地避免物體邊界的偽影問題。Du2Net在高頻細節和紋理場景表現精準,但在無紋理區域表現相對較差。在3D圖片的結果中,Du2Net深度誤差導致了場景結構的非自然變形。針對出現的問題,Zhang等人(2020)也提出了改進方案:1)結合附加模式的信息,例如主動深度傳感器;2)考慮將兩個相機鏡頭都配備DP傳感器。

圖14 Du2 Net網絡結構圖(Zhang等,2020)Fig.14 Overview of the Du2 Net network structure (Zhang et al., 2020)

3.2 基于全像素雙核數據的反射去除

DP圖像對在離焦處存在視差,利用該離焦視差能夠區分圖像中清晰的前景與模糊的背景。受離焦視差的啟發,Punnappurath和Brown(2019)提出了一種利用DP圖像對去除反射的新方法。該方法應用DP數據的離焦視差,獲得背景層與反射層的梯度,進而將該梯度信息整合到優化框架,能夠以更高的精度從單幅圖像中提取背景層。此外,他們還收集了第1個由DP數據組成的反射去除數據集。

Punnappurath和Brown(2019)利用DP傳感器的離焦視差區分反射層和背景層。他們做了兩種假設:1)假設背景層比反射層有更強的圖像強度;2)假設背景層場景位于相機景深內,反射層場景位于相機景深外。在這種情況下,觀測到的圖像是合焦背景層和離焦反射層的疊加。

基于這種假設,Punnappurath和Brown(2019)提出了圖15(a)中的成像模型。合焦位置處的背景物體發射的光線通過透鏡聚焦到傳感器的單個像素上。合焦處沒有視差,左右視圖強度值的總和作為該像素處的圖像強度存儲。觀測反射層的金字塔物體,來自該物體一點的光線聚焦在傳感器平面的前面,并在傳感器上產生5像素寬的離焦模糊圖像。DP圖像對的視差與模糊大小成正比,如圖15(d)所示。經左右信號相加獲得模糊的反射圖像,如圖15(e)所示。最終,合成的DP圖像是合焦背景層(零視差)與離焦反射層(非零視差)的疊加。圖15(f)(g)體現了視角之間的轉換,最終的合成圖像如圖15(h)所示。

設b代表背景層,f代表潛在的反射層,合成的DP左視圖gLV和右視圖gLR可分別表示為

(7)

(8)

式中,矩陣WLV和WRV與背景層f分別相乘,產生左右視圖的離焦和偏移的半強度部分。觀測到的圖像g=gLV+gRV=b+r,其中r代表模糊的反射層,r=(WLV+WRV)f。

圖15 全像素雙核相機捕獲的帶有反射場景的成像模型(Punnappurath和Brown,2019)Fig.15 Imaging model of scene with reflection captured by a dual-pixel camera (Punnappurath and Brown, 2019)((a) DP imaging model; (b) background of DP data; (c) background of traditional data; (d) reflection of DP data; (e) reflection of traditional data; (f) DP left image; (g) DP right image; (h) observed images)

Levin和Weiss(2007)提出標定輸入圖像的梯度可以作為反射去除的一個重要機制。受這種方法的啟發,Punnappurath和Brown(2019)提出利用DP的離焦視差自動判別哪些梯度屬于背景層,哪些梯度屬于反射層,并由此構建出反射層和背景層的梯度圖。背景層和反射層之間的清晰度差異為反射去除提供了另一個有價值的線索。離焦的反射層比合焦背景層有更少的大梯度。Punnappurath和Brown(2019)的方法以離焦視差為主要線索,結合背景層和反射層之間的清晰度差異,在分離反射層和背景層時能夠具有更高的魯棒性。但是該方法也存在一定的局限性:由于其假設反射層處于離焦狀態、背景層處于合焦狀態,如果反射的場景和背景層場景到玻璃板的距離近似相等,即兩個層都是合焦的,而且視差小到難以觀測,則該方法無法完全區分兩層的梯度。

3.3 基于全像素雙核數據的離焦模糊去除

車載攝像頭往往具有固定的快門速度,要獲得充足的光線,唯一的方法是采用大光圈。但是使用大光圈拍攝淺景深圖像會產生離焦模糊,由于模糊是隨空間變化的,且難以預測,因此校正離焦模糊便成為一項亟待解決的任務。

DP圖像對的視差與點擴展函數中彌散圓的尺寸成正比(彌散圓尺寸是模糊程度的表征),且視差的方向也與彌散圓的方向一致(詳見2.3節),因此在使用DP數據進行離焦模糊去除的任務時,充分利用視差與離焦模糊之間的關系尤為重要。

Abuolaim和Brown(2020)提出了第1個基于學習的使用DP數據去除離焦模糊的方法,并捕獲了一組包含DP圖像的數據集。Abuolaim和Brown(2020)設計的深度神經網絡DPDNet(圖16)結構上類似U-Net,輸入為DP圖像對,輸出為三通道的sRGB圖像。

圖16 DPDNet網絡結構圖(Abuolaim和Brown,2020)Fig.16 Overview of the DPDNet network structure (Abuolaim and Brown, 2020)

為了更好地處理較大的離焦模糊,以擴展感受域的大小,網絡使用了多個池化層進行下采樣。經過實驗,DPDNet能夠以較高質量去除離焦模糊。網絡對不同光圈設置均適用,即使測試時場景的光圈設置與訓練時不同,網絡同樣可以進行去模糊處理。但是該方法并未顯式地將DP離焦視差與離焦模糊量之間的關系引入到網絡中;而是將整幅圖像無差別地輸入網絡,并未考慮圖像中不同模糊區域之間的差異。

Abuolaim等人(2021)在上述工作的基礎上進一步改進。針對DP數據采集受限問題,構造了一個DP數據模擬器,合成具有離焦模糊的DP數據集。此外,還提出了一個利用DP數據進行視頻去模糊應用的循環卷積神經網絡(recurrent convolutional neural network, RCN)。該方法不僅在原方法的基礎上得到了改善,還在眾多去離焦模糊的方法中表現出優異的性能。DP模擬器原理將在4.4節進行詳細介紹。該模擬器接收多幀DP圖像對作為輸入,首先經過編碼層提取特征,隨后通過ConvLSTM(convolutional long short term memory)層學習時序輸入的時間動態特征。ConvLSTM將LSTM中的點積計算轉換為卷積計算以保存空間信息。然后,通過解碼ConvLSTM的輸出得到最終的去模糊圖像。

與上述工作類似,Pan等人(2021)同樣提出了一個DP數據模擬器,并設計了一個使用DP的端到端神經網絡(DDDNet)用于深度估計和去離焦模糊。結合DP仿真器構造了Reblur loss,用于為深度估計提供監督。網絡結構如圖17所示。

圖17 DDDNet網絡結構圖(Pan等,2021)Fig.17 Overview of the DDDNet network structure (Pan et al., 2021)

該網絡可以分為兩部分:基于Cheng等人(2020)的DepthNet和基于Zhang等人(2019)的DeblurNet。先由DepthNet估計出粗略的深度圖,再將粗略的深度圖和模糊的左右視圖輸入DeblurNet得到去模糊的圖像和精確的深度圖。數據集具有深度真值,對深度網絡直接監督。同時,DeblurNet輸出的去模糊圖像輸入到作者提供的仿真器中生成兩幅模糊的DP圖像對,與輸入的DP圖像對計算Reblur loss,對網絡進行監督。

該方法使用雙目網絡對DP進行深度估計,并將深度信息融入去離焦模糊過程中。但是該方法同樣沒有考慮到圖像中不同模糊區域之間的差異。

考慮到難以捕獲大規模的DP數據,Xin等人(2021)使用多平面圖像(multiplane image, MPI)的優化方法從DP圖像中恢復離焦圖和全聚焦圖像,并合成了DP圖像對。

4 全像素雙核數據集

當前DP公開數據集有6個,其中2個用于估計深度:DPNet dataset(Garg等,2019)、Du2Net dataset(Zhang等人,2018);3個用于去除離焦模糊DPD(dual-pixel defocus deblurring dataset)(Abuolaim和Brown,2020)、DPD-disp(the defocus depth estimation dataset)(Punnappurath等人,2020)和DP-based DDD(depth and deblur dataset)(Pan等人,2021);1個用于去除反射DPRR(dual-pixel reflection removal dataset)。

4.1 全像素雙核深度估計數據集

DPNet dataset(Garg等,2019)的圖像采集裝置如圖18所示,作者構造了一個由5臺Google Pixel組成的采集設備:帶有DP傳感器的中央攝像頭和4個分布在四周的攝像頭。使用COLMAP(Sch?nberger等,2016)立體技術獲取了絕對真值深度。數據集使用了兩款具有DP傳感器的手機:Google的Pixel 2和 Pixel 3采集數據。數據集包括3 575個場景,一共3 575×5=17 865幅RGB和DP圖像(Google Pixel采集的DP圖像為單通道RGB圖像)。RGB和DP圖像的分辨率為1 512×2 016像素,但是為了降低噪聲,以該分辨率的一半計算絕對真值深度圖。在數據預處理時,使用中央裁剪的方式將DP圖像裁剪到原始分辨率的66.67%。裁剪后,網絡輸入分辨率是1 008×1 344像素,輸出分辨率是504×672 像素,與絕對真值相同。訓練集包括2 757幅圖像,測試集包括718幅圖像。

圖18 DPNet dataset具有同步相機的數據采集模型(Garg等,2019)Fig.18 Data capture rig with synchronized cameras for DPNet dataset (Garg et al., 2019)

Du2Net dataset(Zhang等,2018)使用5臺同步的Google Pixel 4手機捕獲數據集。每臺手機都有一組由配備DP傳感器的主攝和一個普通長焦鏡頭組成的雙攝系統,采集時將主攝作為右相機,長焦鏡頭作為左相機,相機排布與圖18相同。每次拍攝捕獲10幅RGB圖像,利用多視角幾何技術在10個視角估計絕對真值視差圖。使用運動恢復結構(structure from motion, SfM)的3維重建算法和多視角幾何技術生成深度圖。與Garg等人(2019)方法相同,通過檢查相鄰視圖的深度一致性來計算每個像素的深度置信度。該數據集收集了3 308幅訓練圖像,1 077幅測試圖像。調整網絡輸入的大小以使之匹配預測的分辨率和絕對真值視差(448×560 像素),DP圖像的分辨率是1 000×1 250像素。

4.2 全像素雙核去除離焦模糊數據集

DPD(Abuolaim和Brown,2020)使用 Canon EOS 5D Mark IV單反相機的光圈優先模式采集數據。該數據在500個場景下,拍攝3組照片:1)使用大光圈(f/4)捕獲的離焦模糊圖像;2)兩張DP視圖;3)小光圈(f/22)拍攝的全焦圖像。所拍攝照片的分辨率為6 720×4 480像素,低噪聲(低ISO),最終處理為sRGB格式,以每個RGB通道無損16位深度進行編碼。同時也使用Google Pixel 4采集了部分圖像用于測試。

DPD-disp(Punnappurath等,2020)使用Canon EOS 5D Mark IV單反相機捕獲數據集。收集的數據集提供具有深度圖的DP圖像。使用Canon EOS 5D Mark IV在10種不同的焦距設置下拍攝了12張明信片,其中10張作為訓練集,2張作為驗證集,共120幅RGB圖像,120對DP圖像。對DP圖像對中心66%的區域進行裁剪,得到111×111像素的圖像塊(patch)用于訓練和驗證??偣采闪?7 500個patch用于訓練,2 100個patch用于驗證。同樣,使用Canon EOS 5D Mark IV在10組不同焦距的設置下拍攝了多個場景,每組包括75-90幅圖像。不同于訓練集,測試集的背景多是一些紋理復雜的印刷海報,其利用離焦估計深度(depth-from-defocus)技術計算絕對真值深度圖。

DDD(Pan等,2021)則包括兩種數據集:1)使用Canon EOS 5D Mark IV單反相機捕獲的真實數據集,其中包括在多種光照條件下捕獲的150個室內室外場景。光圈值從f/4到f/22之間變化,每一幅全聚焦圖像(f/22)都與多幅離焦模糊圖像相關聯,從而產生了多樣性的數據集。2)Pan等人(2021)提出了DP模擬器(DP simulator),該模擬器能夠從任何RGBD數據中創建DP圖像對。以NYU(New York University)深度數據集(Silberman等,2012)作為輸入,輸出DP圖像。給定不同相機參數,模擬了500個圖像對進行測試。

4.3 全像素雙核反射去除數據集

Punnappurath和Brown(2019)使用Canon EOS 5D Mark Ⅳ相機捕獲數據集,捕獲的數據集包括兩種類型:具有絕對真值的室內場景和室外場景?;赪an等人(2017)的單圖像反射去除數據集的捕獲方法,Punnappurath和Brown(2019)對室內數據集使用不同的明信片作為背景和反射。選擇紋理復雜度從中到高的明信片,將其成對組合,作為背景層和反射層,使捕獲到的數據集具有復雜的重復紋理。數據集最終選擇6張明信片作為背景,5張明信片作為反射,總共組合了30個場景。

離焦模糊大小和視差都是光圈的函數,為了評估算法的離焦模糊程度和視差程度的魯棒性,實驗選擇了5個光圈值{F13, F10, F8, BZ.6, F4}。每個場景都使用5個光圈捕獲圖像,從而為室內數據集提供了150幅圖像。

4.4 全像素雙核模擬器

Pan等人(2021)和Abuolaim等人(2021)均提出了DP模擬器,但是二者采取了不同的建模方式構造模擬器。Pan等人(2021)基于透鏡成像模型和小孔成像模型建模了DP成像模型。Abuolaim等人(2021)則構造DP的點擴展函數生成數據。本節將重點闡述兩種DP模擬器的原理。

4.4.1 基于成像模型的全像素雙核模擬器

Pan等人(2021)構造的DP模擬器能夠在給定原始RGB圖像及其對應的深度圖的前提下,生成一對DP圖像。

RGB-D圖像與DP圖像的關系如圖19所示,RGB-D圖像提供圖像中所有可見點的3D坐標。假設世界坐標系中一點X=(X,Y,Z),對應在虛擬空間(透鏡右側的空間)中的點為

式中,f代表焦距。

圖19 全像素雙核成像模型(Pan等,2021)Fig.19 Imaging model of dual-pixel (Pan et al., 2021)

區域A(以AL為例)中的點C映射到像平面A′L的點C′=sC+t。這里的t表示2維偏移,s表示縮放。對于給定的點X,s和t的值是連續的,與C點的選取無關,而與X點的選取有關。通過相似三角形得

C′=T(C)=(1-s)C+sX′

(9)

式中,s=F/d′,F表示像距,即傳感器平面到透鏡平面的距離。式(9)表明了在世界坐標系下,像平面的點與透鏡平面的點的映射關系。

由于RGB-D圖像中每個像素都有其對應的深度,假設圖像中一點的像素坐標為(y,z),定義空間中其對應的光線為-d(1,y/f,z/f),隨d的變化而變化。圖像坐標系下的一點(y,z)轉換到世界坐標系下的3D坐標為-d(1,y/f,z/f)。點X=-d(1,y/f,z/f)映射到像平面上的點X′=d′(1,y/f,z/f),其中1/d+1/d′=1/f。

C=(0,Y0,Z0)是位于區域A的點。起點為C,通過X′的光線被表示為式(9)所示的(1-s)C+sX′,其值隨s變化。當s=F/d′時,該光線與傳感器平面相交,因此對應在傳感器平面上的點坐標為

(10)

在圖像坐標系下

(11)

該式表示了圖像坐標系下,像平面的點T(X,C)與真實世界場景點(y,z)之間的關系。由于(Y0,Z0)表示透鏡平面AL上的點,因此真實世界的場景點(y,z)映射到像平面的點T(X,C)應為一個點集,即真實世界到像平面的映射為點到面的映射。

基于成像模型的DP模擬器原理為:給定一幅清晰圖像及其深度圖。如圖19所示,在圖像坐標系中,對于圖像中的每個像素(y,z),像素的強度分布在DP的左視圖和右視圖中的區域RL和RR上,RL即圖19中的A′L。每個區域包含一組點p,其中包含|R|個像素,并且像素(y,z)的強度In(y,z)均勻地分布在這組點集上。遍歷所有像素(y,z)求和,從而生成了一對DP圖像對。這可以理解為每個真實世界中的點映射到像平面的一個區域,這個區域即模糊核/彌散圓,它與深度相關。遍歷像素求和的操作非常耗費計算量,它需要遍歷圖像上的每一個像素(y,z),并且需要遍歷區域R上的每一個像素。為了節省計算量,作者利用“積分圖像”的概念來加速計算,使得它的復雜度與區域R的大小無關,從而達到O(n)級,其中n是像素數。

假設光圈的左半部分和右半部分是近似矩形,給定深度的RGB-D圖像的一個像素(y,z),其對應的光線將穿過AL的每個點。為了計算像平面的模糊區域RL的面積,只需計算穿過AL的4個頂角的光線的終點,即

ptl=(ytl,ztl),ptr=(ytr,ztr)
pbl=(ybl,zbl),pbr=(ybr,zbr)

(12)

這4個點的位置由式(11)給出。下標tl、tr、bl、br分別表示左上角、右上角、左下角和右下角。為區域RL創建一個差分掩膜IL,即

(13)

對圖像中的所有點(y,z)在像平面對應的區域對式(13)的4個公式求和,以創建差分圖像。最后對差分圖像進行積分,得到DP圖像對的左/右視圖

IL,R=T(IL,R)

(14)

式中,T表示積分操作。

該仿真器建立了圖像坐標系下真實世界場景點到圖像的映射關系,能夠模擬DP成像過程中與深度/視差緊密相關的模糊核,還通過將透鏡近似為矩形和積分的方法減少了仿真的計算量和復雜度。

4.4.2 基于點擴展函數的全像素雙核模擬器

Punnappurath等人(2020)建模了DP的點擴展函數,該模型能夠模擬DP左右圖像對之間點擴展函數的對稱性,但是該模型較為簡單,只與彌散圓大小有關,并不能完全反映真實的DP點擴展函數。

真實的點擴展函數如圖20(a)所示,由于光學像差,彌散圓中呈現圓環形的損耗。因此,為了更接近真實的建模,Abuolaim等人(2021)基于2維的巴特沃斯濾波器B提出了一個參數化的模型

(15)

式中,n代表濾波器的階數,參數D0取決于3 dB截止點。為了模擬DP圖像對彌散圓中的點擴展函數模型,Abuolaim等人(2021)基于上述的巴特沃斯濾波器定義了參數化的DP模型,如圖20(c)所示

H=B°COC(x0,y0)

(16)

式中,COC代表彌散圓圓環,“°”表示阿達瑪積運算符(矩陣對應元素相乘)。B和COC都以(x0,y0)為中心,H代表DP左右視圖的點擴展函數之和

H=Hl+Hr

(17)

Hl=H°M

(18)

式中,M是具有恒定衰減性質的2維斜坡掩膜,這種衰減可以看做在給定方向的強度衰減。該方向由薄透鏡模型計算的彌散圓半徑的符號決定,正號表示位于焦平面之后的物體模糊,負號表示位于焦平面之前的物體模糊。該點擴展函數模型使用5個參數進行參數化,更接近真實的點擴展函數形狀。此外,為了使數據集更加真實,模擬器還仿真了徑向畸變和圖像噪聲。

圖20 全像素雙核點擴展函數Fig.20 Dual-pixel point spread function((a) the real DP PSF; (b) PSF modeled by Punnappurath et al. (2020); (c) PSF modeled by Abuolaim et al. (2021))

Abuolaim等人(2021)使用SYNTHIA(the synthetic collection of imagery and annotations)數據集(Juarez等,2017)作為數據源。該數據集包含來自虛擬城市的GC渲染圖像序列。每個序列平均有400幀。該數據集還包括深度圖及其標記的分割圖。合成DP視圖的過程如下:

首先根據每個像素的深度值將圖像分為多個離散層。然后將每個離散層與上述建模的參數化點擴展函數進行卷積。接下來,按照從后到前的順序對模糊的每個離散層圖像進行alpha混合。對于每個全聚焦的視頻幀Is,能夠生成兩張DP子視圖IL和IR

IL=Is*HL,IR=Is*HR

(19)

式中,Is是所有像素來自相同深度的一個離散層?!?”代表卷積操作。隨后,對IL和IR分別添加相應的噪聲和徑向畸變以模擬多樣性。合成最終的離焦模糊圖像Ib=IL+IR。

5 全像素雙核的挑戰與展望

盡管DP傳感器在工業界廣泛應用于各種單反相機、微單相機和智能手機自動對焦,DP在計算機視覺的深度估計、反射去除和離焦模糊消除方面也已取得初步效果,但是在將DP深入精準應用計算機視覺問題時,仍面臨著很多問題和挑戰。

1)DP圖像對之間存在離焦視差,基線只有幾個像素,相比雙目的基線十分微小,因此在低分辨率的圖像或經過下采樣后的特征圖中,會損失一部分離焦視差信息。如何充分利用離焦視差與模糊量之間的關系,提高去模糊效果是一個值得考慮的問題。目前的方法通過引入額外的信息幫助提升精度:如使用雙目相機捕獲的雙目圖像對(Zhang等,2018)解決DP傳感器存在孔徑問題,引入圖像重建損失(Pan等,2021)將離焦去模糊和深度估計結合起來、構造仿射不變的損失函數(Garg等,2019)估計具有仿射歧義性的深度。DP圖像在離焦去模糊的應用中,Abuolaim和Brown(2020)的方法并沒有考慮DP圖像對的離焦視差與模糊量之間的關系,但在當時仍取得了令人滿意的結果,可見DP潛在的額外信息能夠幫助改善網絡性能。未來可以考慮結合DP的成像原理,利用仿射歧義性與模糊量之間的關系,通過減少下采樣、提升圖像分辨率等方法來減少信息損失等思路,對DP在深度估計、離焦去模糊等領域開展更深入精準的研究。

2)對于學術界,DP原始數據難以獲取。目前工業界中,DP傳感器主要用于自動對焦。但是絕大多數工業界的制造廠商將DP圖像對的解算過程集成到傳感器芯片中,并不公開提供在自動對焦過程中產生的DP圖像對。即使使用配備有DP傳感器的相機,對于非制造商內部人士,仍無法獲取DP圖像對的原始數據。目前,只有Canon EOS 5D Mark IV和EOS R5相機以及Google Pixel系列手機為用戶提供數據提取權限。Google為用戶提供了一款APP能夠直接使用Google Pixel系列手機拍攝DP圖像對,操作簡單,但是手機拍攝的圖像無法大范圍改變其光圈,景深的可改變范圍也有限,且手機相機內參無法準確獲取。Canon EOS 5D Mark IV單反相機和EOS R5微單相機費用較高且得到DP圖像對的過程十分煩瑣,需要耗費大量時間。Abuolaim和Brown(2020),Punnappurath等人(2020)和Pan等人(2021)均使用Canon EOS Mark IV采集數據,但是受限于處理煩瑣,采集的數據集規模小。因此,仿真DP數據便成為目前較為經濟、省時的解決辦法。雖然Pan等人(2021)使用仿真器通過仿真NYU數據集的DP圖像對構造其仿真數據集,但是仍存在數據集規模小、圖像分辨率低以及部分仿真數據不符合成像原理等問題。此外,仿真數據對算法和設備算力的要求較高,仿真數據與真實數據之間如何縮小差異,如何提升網絡由仿真到真實的泛化能力等,都是目前亟待解決的問題。

DP視圖與雙目圖像對的相似性為深度估計、離焦模糊去除等問題的解決提供了新的思路。如何充分利用DP的離焦視差,將其與深度、離焦模糊和反射等因素聯系起來,是解決這些問題首先要考慮的。其次,需要研究者們思考如何將DP應用于深度學習的神經網絡中,提高網絡精度并提升泛化能力。這可能是DP在相關領域取得突破的關鍵。DP圖像對在計算機視覺領域具有重要的研究價值與應用前景,需要研究者們共同努力提供更多的開源數據,探索更多的研究領域。

6 結 語

全像素雙核應用于自動對焦后,引起了成像工業界的一場變革,使得自動對焦技術擺脫了繁雜龐大的光學結構,并提升了復雜場景下的對焦速度。全像素雙核初步應用在深度估計、反射去除和離焦模糊去除等計算機視覺領域表現不俗。但是限于全像素雙核數據的稀缺,目前國內外缺乏對全像素雙核的進一步研究及系統性的綜述總結,也缺乏對全像素雙核對焦和成像原理的詳細研究。

本文系統調研總結了全像素雙核自動對焦及其在計算機視覺的應用發展狀況,充分涵蓋領域內主要工作和技術內容,形成了國內首篇關于全像素雙核的綜述。本文對全像素雙核自動對焦和成像原理進行了系統性的總結和歸納,有助于未來研究者理解全像素雙核原理。對近年來全像素雙核在計算機視覺的初步應用進行對比分析,其中既有全像素雙核在各領域的研究進展和應用取得的突出成果,也有其存在的一些問題和挑戰??偟膩碚f,全像素雙核具有很重要的應用價值,值得電子成像、工業機器視覺和計算機智能視覺等相關領域關注。作者希望本文能夠為推進全像素雙核技術及其在電子成像、工業視覺檢測和計算機視覺等領域的深入研究與應用發展有所幫助和啟發。

猜你喜歡
視差雙核透鏡
邊角雙核互相轉,環環相扣不變心——解三角形經典題突破
全球金融“F20”在此召開!橫瀝進入“雙核”時代
“透鏡”知識鞏固
“透鏡及其應用”知識拓展
基于自適應窗的立體相機視差圖優化方法研究
“透鏡”知識鞏固
『生活中的透鏡』知識鞏固
基于梯度域引導濾波的視差精煉迭代算法
基于ARM和DSP的雙核嵌入式視頻監控系統
基于分割樹的視差圖修復算法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合