吳堅
關鍵詞:目標檢測;開放性;詞匯
中圖分類號:TP37 文獻標識碼:A
文章編號:1009-3044(2024)03-0025-03
1 概述
目標檢測是圖像處理的一個重要分支。開放性詞匯檢測可以檢測任意類別的目標,并以文本的形式體現。本文介紹基本的開放性詞匯目標檢測。通過基本的規范設置,訓練帶有固定分類的目標檢測數據集來進行基準檢測。進行基準檢測的主要方法是從圖像學習開放的詞匯知識,并通過知識精餾或遷移學習將知識傳遞給檢測器[1-7]。
2 具有變換的點到點目標檢測
Carion 首先提出了具有變換的點到點目標檢測。DETR是由骨架組成的點到點的檢測模型,并緊接著編碼-解碼變換器 [1-2]。
DETR編碼操作是根據二維平面圖形的骨架特征應用一系列的變換層。解碼是利用N個學習嵌入集合即目標查詢作為輸入,它可以被視為插槽,是需要用檢測的目標來填充的模型。所有這些目標查詢和解碼器平行,使用交叉關注層來查看編碼的圖像并預測每個查詢的輸出嵌入。每個目標查詢最終的表示獨立于使用方框坐標的解碼和使用共享前饋層的類標簽[1-2]。
DETR使用匈牙利匹配損失進行訓練,該損失對N個建議目標和真實目標之間計算一式兩份的匹配。每個匹配目標受到相應的目標例如真實圖像的監督,同時不匹配的目標也受到監督并預測為沒有目標的標簽。分類的標題受到標準交叉熵的監督,同時圖形邊框的標題受到絕對誤差(L1損失)和概括的IoU的綜合監督。[1-2]其中,Intersection over Union(IoU) 是聯合基礎上的交集,它是用于比較兩個隨意形狀的相似度,定義如下:對于兩個任意的凸形狀A 和B,其中A,B ? S ∈ Rn。找到最小的且封閉的凸目標C,其中C ? S ∈ Rn。定義IoU和GIoU如下:[3]
算法將GIoU 作為方框回歸邊界的損失。二維目標檢測的任務是根據校準的圖形邊框來與軸比較,選用GIoU 是直接的解決方案。由于反向傳播中最小、最大函數是可用的,每個組成部分都是可以推導出。這樣IoU 和GIoU 可以直接作為損失,用于基于目標檢測的深度神經網絡的優化[3]。
3 運用于點到點的多模態理解的調制檢測
3.1 調制檢測的結構
Kamath 首先提出了MDETR,是基于DETR 的點到點的調制檢測框架。通過與自然語言理解的結合完成目標檢測。目標檢測是形成多模態理解系統的有機組成部分,使用黑盒來檢測圖像中的固有概念詞匯,緊接著對詞匯進行多模態的校準[2]。
MDETR和DETR類似,圖像運用卷積骨架進行編碼并平滑。為保留空間信息,將二維位置嵌入并添加到這類平滑向量中。該算法對文本使用預訓練的變換語言模型進行編碼,以產生和輸入同等尺寸的一系列隱藏向量。然后使用模態依賴的線性投影,將圖像和文本投影到共享的嵌入空間。這些特征向量在序列維度上連接,產生單一的圖像和文本特征序列。該序列聯合變換編碼作為交叉編碼項。和DETR相似,在目標查詢中使用了變換解碼,同時交叉地參加交叉編碼的最終隱藏狀態,解碼輸出被用于預測實際的方框[2]。
3.2 調制檢測的訓練
算法添加兩個用于MDETR的兩個損失函數:軟標記預測損失(Soft Token Prediction Loss) 和文本查詢對比校準(Text-Query Contrastive Alignment) ,這兩個損失函數可以促進圖像與文本之間的校準[2]。
軟標記預測損失:算法的目標是預測參考每個匹配目標的初始文本的標記范圍。首先,設置標記的最大數量。對于每個與真實方框相匹配的預測方框使用一式兩份的匹配,模型被訓練來預測一個相應于目標標記位置的均勻分布。任何與目標不匹配的查詢被預測為沒有目標的標簽。注意到在文本中的若干單詞可能相應于圖像中相同的目標,相反,若干目標也可能相應于同樣的文本。通過以這種方式設計損失函數,訓練模型能夠從同樣的參考表示中學習到同一所指的目標[2]。
7 結束語
本文介紹了近年來迅速發展起來的基本的開放性詞匯目標檢測的幾種算法,通過這些算法,通過目前的詞匯目標檢測的關鍵技術的解決,使越來越多的開放性詞匯目標檢測技術向著更高的方向邁進。
【通聯編輯:唐一東】