?

月表落石檢測方法研究
——基于梯度注入策略與結構驅動評價機制

2024-04-15 09:03胡云澤袁強強
測繪工程 2024年1期
關鍵詞:落石檢測器梯度

胡云澤,李 杰,何 江,袁強強,鄭 莉

(武漢大學 測繪學院,武漢 430079)

落石可以被描述為一個物理過程,滑坡、泥石流等均是生活中常見的落石現象。相比起日常生活中的落石現象,月表落石的獨特性在于其覆蓋范圍較小,且彼此間較為獨立,都是由單一巖石塊產生的連鎖反應。大眾對月表落石的關注最早可以追溯到1966年傳回的第一張月表高分影像[1]。在這個過程中,較大的巖石塊從高處分離,迅速滾動、反彈和滑落到地形低處,并留下明顯且深刻的軌跡[2]。作為一種普遍現象,落石能夠發生在各類地質環境中,包括月球、火星和谷神星等。盡管每個行星的地質環境不盡相同,但這些環境中的落石都具有相對一致的地質特征,即均由巨石和滾落軌跡組成,這也是在遙感影像中識別落石動態位移的關鍵點。自2009年美國月球勘測軌道飛行器(LRO)進入月球軌道以來,LRO的窄角相機(NAC)連續獲取了大量高分辨率的月表影像,很好地展現了小尺度地質目標的特征,這些特征對于研究落石的形成過程至關重要。落石的形成原因有很多[3],包括但不限于內部地質活動、外部小行星撞擊以及太陽風暴等。因此,對月表落石開展分析,不僅有助于研究月球內外部地質活動的影響,還有利于深入了解月表地質環境和地貌變化,并為未來月球探測乃至月球基地建立等工作提供強有力的支持。

與撞擊坑檢測相類似,月表落石檢測也經歷了一個從手動到自動的過程。過去,行星遙感影像中地質目標的識別與定位主要依賴視覺辨別和人工標注,這種方式無疑是耗時且低效的。

近年來,隨著深度學習的迅速發展,其已被成功應用到遙感影像處理領域中[4-5],為遙感影像的自動檢測和目標識別提供了重要的技術支持。同時,通過月球軌道飛行器,持續且高頻的月球探測工作產生了大量的月球影像數據集,其推動了計算機視覺算法在月表目標檢測中的應用。RetinaNet作為單階段目標檢測算法,已被成功應用于月表落石檢測[6],并自動繪制了第一張包含13.6萬個目標的全月表落石地圖[7]。但是,該算法對于影像標注精度的要求非常高,并容易受到噪聲干擾。隨著自注意力機制的發展,學者們逐漸將Transformer應用在計算機視覺任務中,并作為CNN的潛在替代品[8]。盡管Transformer架構在自然影像中取得了較好的效果,但從未應用于月球地質目標檢測中。鑒于月球遙感影像與自然影像間存在異質性,基于Transformer的月表落石檢測算法的有效性還有待驗證。

考慮到落石影像多為灰度影像,且落石和背景的差異性不顯著,因此文中考慮加入梯度算子來獲得更準確的落石邊緣信息。這種梯度注入策略將有助于挖掘更多的地質特征,同時落石和背景中其他干擾項將會得到有效區分,大大提升落石檢測器性能。

與傳統目標不同的是,巨石和軌跡的特征結合使得落石成為一種組合結構的地質目標。按照傳統評價機制,如果預測框捕捉到較長的落石軌跡,那么它通常會比真值框大得多。此時,由于識別到的軌跡長度較長,IoU會遠小于指定閾值,使得本身被正確識別的落石被誤認為錯檢,進而可能會造成可視化結果與基于IoU計算的mAP指標相反。因此,為了實現可視化結果和定量評價指標間的一致性,文中提出了一種基于落石成功檢測數目的全新評價機制。一旦成功同時檢測到巨石和軌跡,就可以準確識別出落石,從而避免準確的落石檢測結果被錯誤分類。

1 研究數據和預處理

本研究選用的影像均為高分辨率灰度影像,數據來源為公開數據集RMaM-2020[9]。該數據集包含從153張行星遙感影像中提取的2 822個落石標簽,以用于訓練和測試。其中,使用的月表落石數據來自窄角相機(搭載于月球勘測軌道飛行器上的NAC[10]),火星落石數據來自高分辨率圖像試驗相機(搭載于火星勘測軌道器上的HiRISE[11])。落石標簽示例如圖1所示。

圖1 落石樣本示例

為了增強訓練模型的魯棒性和泛化能力,本研究對所有的落石標簽都進行了數據增強的預處理。為了增加數據集的大小,本研究將每個落石標簽分別沿長邊和短邊,對稱兩次,同時將其以圖像中心為旋轉中心,分別旋轉90°、180°和270°。剔除重復樣本后,訓練數據集擴張為原始大小的8倍。

2 方法和原理

目前,基于CNN和Transformer的方法均已廣泛應用于自然影像,但只有基于CNN的單階段檢測算法成功應用于月表落石檢測。盡管Transformer在自然影像中取得了較好的性能,但現有研究尚未將其引入月表落石檢測。同時,考慮到行星遙感影像與地球遙感影像存在異質性,且落石與背景的區分不夠明顯。因此,如何補充提升Transformer架構,使其更好地應用于月表落石探測也是文中研究的關鍵。圖2為文中提出的落石檢測方法的總體框架。

圖2 結合Transformer和梯度注入策略的月表落石檢測方法總體框架

2.1 梯度注入策略

落石是一種具有特殊結構的組合目標,所以分析其邊緣信息對于檢測十分關鍵。同時,由于落石數據均為高分辨率灰度影像,其邊緣特征一定程度上不能很好地與背景相區分,因此落石檢測會受到背景噪聲的影響。受邊緣檢測[12]啟發,文中提出了一種基于梯度注入的落石檢測策略??紤]到落石邊緣包括直線軌跡和圓形巨石輪廓,研究選擇Sobel算子和Prewitt算子進行梯度增強以突出其邊緣。

文中提出的梯度注入策略,通過模擬方向卷積可以更好地提取落石邊緣信息。Sobel算子和Prewitt算子都是離散微分算子,二者分別通過兩個3×3掩膜計算水平和垂直方向上的近似導數值。唯一的區別在于,Sobel算子將“2”和“-2”的權重分配給水平掩碼的第一和第三列的中心,以及垂直掩碼的第一和第三行的中心。兩種權重的算子有助于在落石檢測中更好地增強影像中不同層次的信息,從而獲得更準確的落石邊緣特征信息。

最后,經梯度注入模塊處理后,將增強后的特征與原始影像一同進行綜合處理,得到最終用于訓練的落石特征信息。

2.2 網絡框架

文中所采用的基于Transformer的落石檢測框架主要參考DEtection Transformer,整體由三部分組成。首先是通過卷積神經網絡提取特征信息的主干網絡(backbone),其次是Transformer經典的編碼器(encoder)和解碼器(decoder)結構,最后是簡單的用于最終預測的前饋神經網絡(FFN)。

主干網絡部分結構較為簡單,主要是用ResNet提取影像特征生成較低分辨率的激活圖,并將其作為輸入傳遞到Transformer的編碼器。在編碼器部分,每個編碼器層都有統一且標準的結構,即由一個多頭自注意力模塊和一個前饋網絡組成。由于變換器結構是不變的,所以用固定的位置編碼進行補充,其也被添加到每個注意力層的輸入中。解碼器部分可以實現對多個對象的同時解碼,輸入時學習到的位置編碼被視為對象查詢,進而可以被解碼器轉化為輸出,最后每個對象被兩個前饋神經網絡分別輸出類別和位置坐標兩項結果?;谏鲜鲈?可以實現在影像全局中直接對各類目標進行推理。

2.3 實驗方法對比

深度學習具有強大的表征能力,所以其被廣泛應用于目標檢測領域,并被證實是一種高效準確的檢測手段。因此,文中選擇將Transformer引入月表落石檢測,并與RetinaNet[13](單階段檢測方法)和Faster R-CNN[14](雙階段檢測方法)進行比較。這三類方法是目前主流的不同結構特點的目標檢測模型,圖3給出了三者的特點對比。

圖3 3種目標檢測模型特點對比

DETR(DEtection TRansformer)是一種經典的基于Transformer的目標檢測模型。Transformer在自然語言處理(NLP)領域取得了巨大的成功,引起了學者們對其在計算機視覺中的應用的興趣。DETR的亮點在于將注意力機制引入到目標檢測中,通過結合CNN和Transformer機制實現了端到端的目標檢測。在該方法中,無需預先確定區域或利用非極大值抑制即可刪除重復的邊界框。然而,與單階段或雙階段檢測方法相比,其訓練所需的數據量是巨大的。

RetinaNet是一種單階段目標檢測模型,其通過密集采樣對目標進行一步到位的分類和定位,因此它的訓練過程要快速且簡單得多。然而,與雙階段檢測方法相比,它在訓練速度上的提升會帶來精度的下降,因為在訓練過程中會遇到極端的樣本不平衡問題。由于提取的背景樣本數量較多,大量樣本疊加在一起,即使相對權重較小,也會帶來較大的精度損失。除此之外,RetinaNet在訓練過程中想要達到最優狀態是較為困難的。但值得一提的是,RetinaNet設計了一種損失函數Focal Loss,其通過給交叉熵損失分配指數權重,一定程度上削弱了樣本不平衡問題。

不同于單階段目標檢測模型,Faster R-CNN首先在圖像中生成候選區域,然后在第二階段對其進行分類和定位。盡管這樣的訓練復雜且耗時,但它更適合檢測多尺度的小物體,通常被作為實驗中的對照組。

2.4 評價指標

本研究在月表落石測試集中統計了落石檢測結果的真正樣本(TP)、真負樣本(TN)和假正樣本(FP),并在此基礎上計算了精度和召回率。精度(precision)是指目標檢測器判斷結果中預測爭取的部分(TP)占預測結果(TP+FP)的比例。召回率(recall)是指目標檢測器預測正確的部分(TP)占數據集中所有真值(TP+FN)的比例。召回率越高意味著目標檢測器漏檢的越少,可以在影像中發現更多感興趣的目標。同時,文中還計算了F1分數,這是精度和召回率的調和平均值。

在目標檢測中,全類平均精度(mAP)是較常見的用于衡量檢測器性能的評價指標。AP表示精度—召回曲線下的面積。當mAP指標達到1.0時,通常認為該檢測器是完美的。在目標檢測評價體系中,mAP通常利用不同閾值下的交并比(IoU)進行計算。IoU等于真值實際區域與預測區域重合的面積比上二者整體所占面積[15],其通過比較真值與預測范圍的空間重疊來衡量檢測方法的準確性,計算方法如下:

(1)

其中,定義的閾值是用來確定檢測所得目標是否為真的標準。當IoU大于閾值時,則認為是真正樣本 (TP)。反之,當IoU小于該閾值時,則為假正樣本(FP),即錯檢。由于小目標的特殊性,本研究將IoU的閾值設置為0.3。

由于落石是一種具有特殊結構的組合目標,所以識別到其軌跡的長度決定了預測框的范圍。在該數據集中,研究發現由于標注中軌跡長度較短,導致真值實際區域中反映出的落石軌跡較短,從而使得真值實際區域較小。此時,倘若落石檢測器能夠更充分地反映軌跡長度、更準確地表征落石,那么預測區域將遠大于參考真值的實際區域,其中圖4(a)和(b)均以IoU為分析依據,圖4(c)表示在新評價機制下如何判斷是否成功檢測到落石,如圖4(a)和圖4(b)所示。在這種情況下,IoU可能達不到所設定的閾值,這就會令部分本應視為真正樣本的落石檢測結果被誤認為假正樣本。

圖4 不同評價指標的準則

基于上述分析,文中認為在落石檢測中有必要對基于IoU的評價機制進行補充。因此,研究設計了一種基于落石成功檢測數目(NoS)的新評價機制,該評價機制以落石結構為根本判定標準,將不受識別落石軌跡長度相關的預測框大小的影響。之后,通過基于落石結構的新評價機制下得到的落石成功探測數目,本研究進行了召回率、精度和F1分數的測算。成功檢測到的落石應滿足以下兩個條件:①巨石的邊界應完全在預測范圍內,且在預測框內的相對位置與真值范圍基本相同;②落石軌跡應反映在預測范圍中,且方向與真值區域中的標注趨勢一致,判別式如下:

(2)

(3)

本研究希望通過這種基于落石結構的新評價機制,實現可視化結果與定量指標的一致性。圖4(c)提供了在不同情況下判斷是否成功檢測到落石的示例。白色實線表示真值標注的實際范圍,彩色虛線模擬不同的落石檢測結果。顯然,只有情況(1)能夠表達落石成功檢測的結果。在情況(2)中,落石軌跡識別錯誤,原因在于對于軌跡的方向沒有正確標注;在情況(3)中,一塊沒有軌跡信息的巨石被錯誤地視為落石。

綜上所述,研究采用兩種評價機制來定量評估落石檢測器的性能。一個是基于IoU計算的mAP,另一個是基于所提出的NoS機制計算所得的精度(PrecisionNoS)、召回率(RecallNoS)和F1分數(F1 scoreNoS)。

3 實驗結果和分析

3.1 實驗設置

文中采用不同的樣本設置策略來訓練落石檢測器,目的是通過結合不同目標檢測器和樣本設置策略來提升月表落石檢測的有效性和準確性。表1列出了研究采用的樣本訓練類別。

表1 訓練樣本設置

在樣本類別中,字母表示訓練數據來源,數字表示該數據來源的樣本占所有訓練數據的百分比。每種樣本設置策略下,文中均采用前文所提的3種目標檢測模型進行分析,共構建了9個落石檢測器。

之所以選擇在訓練中引入火星落石樣本,是因為先前的研究中指出,加入一定量的異域行星落石數據參與訓練,相比本地單域訓練數據,可以很好地提高檢測器性能[16]。值得一提的是,M90Ma10g指的是在M90Ma10的基礎上,加入Sobel算子和Prewitt算子以提取梯度信息,獲得更多的落石邊緣特征。

無論選用何種檢測器,參與訓練的落石標簽總數都控制在1 000個,并保證其被隨機分為9比1,分別用于訓練和驗證。所有落石檢測器的測試集均為公開月表落石測試集。

3.2 多域樣本的實驗結果

如表2所示,與基于CNN的目標檢測模型相比,文中所提出的結合Transformer和梯度注入策略的方法獲得了較好的檢測性能,PrecisionNoS達到92.0%,RecallNoS達到68.4%,F1 scoreNoS達到78.4%。

表2 不同檢測方法在不同樣本類別中檢測結果的定量評價

圖5給出了是否有多域落石樣本參與訓練的落石檢測可視化結果,其中,圖5(a)為真值標注,圖5(b~d)基于M100樣本設置,圖5(e~g)基于M90Ma10;從左到右依次采用RetinaNet、Faster R-CNN和DETR 3種目標檢測模型??梢钥吹?在保持落石樣本總數一定的情況下,將火星落石樣本與月表落石樣本混合訓練后,檢測器在月表落石測試集上的性能優于僅有單一月表落石樣本訓練的檢測器。當采用基于Transformer的方法進行落石檢測時,上述結論同樣成立,mAP提高了2.4%?;旌隙嘤蚵涫瘶颖竞?錯檢的落石結果得到了明顯修正,從而提高了檢測器的性能。因此,文中驗證了無論在何種深度學習網絡中,混合其他行星的落石樣本對于月表落石檢測都是非常有益的。

圖5 單域和多域落石樣本參與訓練的落石檢測結果對比

最重要的原因是,火星落石樣本中背景干擾信息較少,落石可以清晰地同背景相區分,這種更為清晰的巨石輪廓和軌跡信息有利于落石檢測器捕捉更多細節特征。因此,從火星落石樣本中提取的更準確的落石特征有利于檢測器訓練,進而提高落石檢測器性能。

本研究發現,與其他混合多域落石樣本的檢測器相比,基于Faster R-CNN的檢測器可視化效果明顯更差。圖5為基于兩張不同底圖的檢測結果可視化,遠取兩個樣例證明結果的可信度。如圖5(e)、圖5(f)、圖5(g)所示,圖5(f)中正確探測到的巖崩數量最少,但其mAP的定量評價結果卻最高??梢暬Y果表明,基于DETR的檢測器明顯檢測到更多的正確落石樣本,但mAP也并沒有體現出這一點。與此同時,經M90Ma10樣本訓練的Faster R-CNN檢測器定量評價最高,但在圖6(c)中,可視化結果展現的效果遠不及本文所提出的Transformer結合梯度注入策略的方法。除此之外,盡管基于Transformer的檢測器在mAP的表現上不如RetinaNet,但其在正確檢測落石的同時,對落石軌跡的捕捉更全面,實現了更長、更充分的落石軌跡標注。

圖6 是否注入梯度信息的落石檢測可視化結果

綜上所述,顯然這是一種定量指標與可視化結果不匹配的情況,且該問題在后續實驗中也有所顯露。這使得本文不僅思考,傳統的基于IoU計算mAP的定量評價機制,對于落石這種特殊結構的地質目標是否合適。

這種可視化結果與mAP定量評價不一致的主要原因在于,落石檢測的預測框與標記的真值框出現了較大差異,這種差異是由檢測到的落石軌跡長度引起的。mAP是通過IoU計算的,而IoU衡量的又是預測區域和參考真值區域之間的重疊度,當真值標記的落石軌跡長度較短時,真值的實際標注范圍覆蓋就較小。然而,基于注意力機制的Transformer檢測器傾向于捕捉更長的軌跡信息,如此就會生成較大的預測范圍。此時,IoU無法達到設定的閾值,實際上是檢測器識別的正確落石則會被認為是錯檢。這種誤判帶來的后果就是mAP指標下降,出現可視化結果與定量指標的矛盾。

考慮到軌跡信息是月表落石檢測重要組成部分,因此對其的關注度不應被削弱或忽視,且檢測結果中落石的軌跡范圍較大,可以被視為是對特征更全面的挖掘。軌跡標注更充分,意味著結構信息檢測更全面,落石的探測也就更準確。然而,這種更優的檢測結果在傳統定量評價指標中很難體現。因此,增加另外一種基于落石實際形態學結構的評價機制對于落石檢測評價是非常必要的。

文中所提出的評價機制是將落石視為一個整體來評價,而不是分解成逐個像素,有效解決了由于檢測軌跡長度增加所引起的錯分問題,從而更全面地反映真實的落石檢測結果。一旦同時檢測到巨石輪廓和走向對應的落石軌跡,就認為該落石被準確檢測。該評價機制與基于IoU的傳統評價機制最大的區別,在于對已檢測結果的分類判斷。通過這樣的評估機制,希望實現可視化結果和評價指標的一致性。

3.3 梯度注入機制的實驗結果

圖6為是否采用梯度注入策略的落石檢測可視化結果,其中,圖6(a)為真值標注,圖6(b~d)基于M90Ma10樣本設置,圖6(e~g)基于M90Ma10g;從左到右依次采用RetinaNet、Faster R-CNN和DETR 3種目標檢測模型??梢钥吹?在加入梯度算子增強落石邊緣后,基于Transformer的檢測模型,不僅糾正了錯檢結果,同時檢測出了極難檢測的落石。如圖6(g)所示,文中所提出的方法是唯一成功檢測到位于影像中心位置落石的方法,哪怕其相應的軌跡方向很難識別準確。因此,基于反映實際情況的可視化結果,文中所提出的Transformer結合梯度注入策略的方法可以有效提升落石檢測器性能。

從圖6(e)和圖6(f)可以看出,前者檢測性能更好,但后者基于IoU的定量評價指標更高。如前文所述,傳統評價機制的定量評價結果與可視化結果不一致的情況再次出現。所以,有必要在此基礎上提出一種從落石結構出發的目標檢測評價機制。

在基于NoS的評價機制下,注入梯度信息提取模塊后,基于注意力機制的方法檢測結果顯著提升,F1分數提高了4.4%。這種檢測性能的提升主要源于精度的提高,近10%,同時召回率也略微提高超1%。結合可視化結果,可以認為該方法在落石檢測中是有效的。除此之外,實驗結果也說明所提出的基于NoS的評價機制可以作為傳統目標檢測評價機制的補充,有利于解決在落石檢測中可視化結果和定量評價不一致的問題。

相比RetinaNet和Faster R-CNN目標檢測模型,梯度注入策略的引入在基于Transformer的方法上表現更好。分析其原因,文中認為相比于基于CNN的目標檢測模型,基于Transformer的方法更關注全局信息而不是局部信息,因此全局引入梯度信息可以有效提高基于Transformer檢測方法的落石邊緣提取能力。相反,由于基于CNN的目標檢測模型更關注局部信息,所以引入的梯度信息很容易被誤認為是噪聲。通過加入梯度算子增強落石邊緣,感興趣的目標特征更加突出,有助于Transformer結構通過注意力機制在行星遙感影像中尋找感興趣的落石目標,并補充在降采樣過程中丟失的細節特征信息。綜上所述,提高落石檢測器性能的關鍵是根據落石的形態學結構增強其本身特點。

4 結 論

文中提出了一種結合Transformer和梯度算子的月表落石有效檢測方法。同時,研究還提出了一種結構驅動的基于落石成功檢測數目(NoS)的落石探測器評價機制,該機制從整體評價落石,從而避免了因落石軌跡識別長度對探測結果造成的影響。實驗表明,與現有基于CNN目標檢測模型的落石檢測方法相比,文中所提出的月表落石檢測方法在月表落石數據集RMaM-2020上表現更好,尤其是在精度方面。同時,與傳統基于IoU的目標檢測評價機制相比,文中提出的基于NoS的落石檢測器評價機制能夠更有效、更客觀地反映月表落石數據集上的實際結果,其有效性主要源于對月表落石結構形態的考慮。因此,如何結合更先進的模型,以便更有效地挖掘落石的結構特征將是今后研究的重點。

猜你喜歡
落石檢測器梯度
一個改進的WYL型三項共軛梯度法
基于機器視覺的高速道路落石檢測
一種自適應Dai-Liao共軛梯度法
基于視覺識別的隧道落石預警系統
一類扭積形式的梯度近Ricci孤立子
引導式落石拖掛網落石沖擊模型試驗研究
車道微波車輛檢測器的應用
一種霧霾檢測器的研究與設計
落石碰撞法向恢復系數的模型試驗研究
一體化火焰檢測器常見故障分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合