?

一種基于分層多尺度卷積特征提取的坦克裝甲目標圖像檢測方法

2017-10-12 08:29孫皓澤常天慶王全東孔德鵬戴文君
兵工學報 2017年9期
關鍵詞:卷積樣本建議

孫皓澤, 常天慶, 王全東, 孔德鵬, 戴文君

(裝甲兵工程學院 控制工程系, 北京 100072)

一種基于分層多尺度卷積特征提取的坦克裝甲目標圖像檢測方法

孫皓澤, 常天慶, 王全東, 孔德鵬, 戴文君

(裝甲兵工程學院 控制工程系, 北京 100072)

針對坦克裝甲目標的圖像檢測任務,提出一種基于分層多尺度卷積特征提取的目標檢測方法。采用遷移學習的設計思路,在VGG-16網絡的基礎上針對目標檢測任務對網絡的結構和參數進行修改和微調,結合建議區域提取網絡和目標檢測子網絡來實現對目標的精確檢測。對于建議區域提取網絡,在多個不同分辨率的卷積特征圖上分層提取多種尺度的建議區域,增強對弱小目標的檢測能力;對于目標檢測子網絡,選用分辨率更高的卷積特征圖來提取目標,并額外增加了一個上采樣層來提升特征圖的分辨率。通過結合多尺度訓練、困難負樣本挖掘等多種設計和訓練方法,所提出的方法在構建的坦克裝甲目標數據集上取得了優異的檢測效果,目標檢測的精度和速度均優于目前主流的檢測方法。

兵器科學與技術; 目標探測與識別; 卷積神經網絡; 坦克裝甲目標; 目標檢測

Abstract: A target detection method based on hierarchical multi-scale convolution feature extraction is proposed for the image detection of tank and armored targets. The idea of transfer learning is used to mo-dify and fine-tune the structure and parameters of VGG-16 network according to the target detection task, and the region proposal network and the detection sub-network are combined to realize the accurate detection of targets. For the region proposal network, the multi-scale proposals are extracted from the convolution feature maps of different resolutions to enhance the detection capability of small targets. For the object detection sub-network, the feature maps with high-resolution convolution are used to extract the targets, and an upsampling layer is added to enhance the resolution of the feature maps. With the help of multi-scale training and hard negative sample mining, the proposed method achieves the excellent results in the tank and armored target data set, and its detection accuracy and speed are better than the those of current mainstream detection methods.

Key words: ordnance science and technology; target detection and identification; convolutional neural network; tank and armored target; target detection

2.4 液化性壞死的處理與轉歸 2例患者術后消融區液化性壞死經口服抗炎藥治療后自行消散,局部未作處理(圖3)。10例患者行手術切開放置皮片引流,14~26 d 后切口愈合,其中 3例行患側甲狀腺壞死組織清除術和負壓引流,2例頸部皮膚留下明顯瘢痕。6例采取超聲引導下擴開穿刺竇道引流,任壞死物自然引流或輕壓輔助引流,皮膚破潰處使用安爾碘消毒液擦洗,用無菌紗布覆蓋并每天更換,10~20 d 愈合,頸部皮膚均無瘢痕形成。

0 引言

基于圖像的目標檢測技術是指利用計算機視覺等相關技術,將既定類別的物體自動從圖像中檢測出來,并對物體的類別、位置、大小以及置信度進行判斷[1]。目前,該技術已在海防監視、精確制導、視頻監控等方面得到廣泛應用。然而,對于坦克裝甲車輛而言,由于地面戰場環境的復雜性以及相對較遠的觀測打擊距離,在大視場內實現對敵方坦克裝甲目標的自動檢測識別和精確定位仍具有很大的難度。當前,坦克裝甲車輛仍然是地面戰場最主要的作戰力量,因此開展針對坦克裝甲目標自動檢測識別方面的研究,通過結合我方無人機、地面偵察車以及坦克裝甲車輛等多種觀測平臺的圖像采集設備,實現對敵方的坦克裝甲目標的自動檢測識別,對提升坦克裝甲車輛的智能化、信息化作戰水平具有重要的意義[2]。

1.2.2.3 經濟狀況 采用主觀經濟狀況自評問卷,即單條目問卷,“您在當地的富裕程度”,以“富裕、一般和不富?!弊鳛樵u判尺度,將“富?!辟x值為“3”,“一般”賦值為“2”,“不富?!辟x值為“1”,分數越高提示居民的主觀自評經濟水平越高。

近年來,基于圖像的目標檢測技術一直是計算機視覺領域研究的熱點。傳統的圖像目標檢測任務基本上遵循“設計手工特征(方向梯度直方圖(HOG)特征、局部二值模式(LBP)特征、尺度不變特征變換(SIFT)等[3]+分類器(Boosting、支持向量機(SVM)等)[4-5]”的思路,采用人工設計的特征提取方法在原始輸入圖像中提取特征信息,并將其輸入分類器中學習分類規則,最后利用訓練完成的分類器實現對目標的檢測。這種人工特征建模方法在人臉識別、行人檢測等領域都取得了不錯的效果,極大地推動了圖像目標檢測技術的發展。然而,由于人工特征建模方法只包含圖像原始的像素特征和紋理梯度等信息,并不具備高層語義上的抽象能力,使得這種方法針對復雜場景下的目標檢測效果并不理想。2012年,隨著Hinton等[6]在ImageNet[7]圖像分類競賽中取得重大突破, 深度卷積神經網絡(CNN)開始引起學術界和工業界的廣泛關注,并相繼在圖像分類、目標檢測、圖像分割等多種圖像處理任務中取得突破性進展。相比于傳統手工設計的特征描述,深度卷積特征在語義抽象能力上有著顛覆性的提升。針對目標檢測任務,國內外學者先后提出了多種基于深度CNN的檢測方法:Girshick等[8]率先提出了區域卷積神經網絡(R-CNN)檢測方法,其主要思想是先采用選擇性搜索方法[9],對輸入圖像中可能包含目標的位置提取若干個建議區域,接著采用深度CNN對建議區域提取卷積特征,隨后采用線性SVM分類器對建議區域進行判別,最后對建議區域的邊界框進行回歸修正。該方法刷新了Pascal VOC[10]目標檢測數據集的測試結果。然而,由于該方法需要對每一個建議區域計算一次卷積特征,計算效率較低;此外所有的建議區域均縮放到相同的尺度,在一定程度上造成了圖像的畸變,影響最終的檢測結果。針對R-CNN存在的問題,Girshick[11]隨后又提出了加速區域卷積神經網絡(Fast R-CNN)檢測方法,該方法將建議區域的特征提取轉移到最后一層的卷積特征圖上進行,解決了R-CNN需要對同一張圖片重復進行多次卷積計算的問題,同時將建議區域的判別和邊界框回歸整合到一個框架下進行,有效提高了目標檢測的精度和效率。在不計入建議區域提取時間的情況下,Fast R-CNN的單張圖片檢測時間達到0.32 s,使得實時的目標檢測成為可能。針對建議區域提取低效的問題,微軟亞洲研究院何凱明等在Fast R-CNN的基礎上,提出了Faster R-CNN[12]的檢測方法。該方法設計了一種建議區域提取網絡(RPN),并與目標檢測子網絡共享卷積特征,從而實現了在GPU上對整個輸入圖像的端到端的訓練和測試。該方法在Pascal VOC[10]和MS COCO[13]數據集上都取得了優異的結果,在使用ZF-net[14]和VGG-16[15]預訓練網絡時檢測速度分別達到了17幀/s和5幀/s. 除以上基于分類的目標檢測方法,國內外學者還從回歸的角度對目標檢測方法進行了探索:Redmon等[16]提出了一種被稱為YOLO的檢測方法,其基本思路是直接在卷積特征圖上對多個區域的類別和邊界框進行回歸,實現對輸入圖像的端到端的訓練和測試。該方法大幅度提高了圖像目標檢測的速度,最快檢測速率能夠達到155 幀/s,真正實現了對目標的實時檢測。然而由于舍棄了建議區域提取這一關鍵步驟,該方法的檢測精度相比于Faster R-CNN有一定差距。Liu等[17]也采用基于回歸的設計思路,提出了一種被稱為SSD的檢測方法。該方法通過在基礎網絡VGG-net上添加多個卷積層,并從多個卷積特征圖上對多個區域的類別和邊界框進行回歸,較好地平衡了目標檢測的精度和效率,當輸入圖像的分辨率為500×500時,檢測速度能夠達到23幀/s,同時平均檢測精度也與Faster R-CNN基本持平。

1.2.2 困難負樣本挖掘

現代戰爭的戰場態勢瞬息萬變,需要在保持一定檢測精度的同時,盡可能提高目標檢測的速度。因此,本文針對坦克裝甲目標圖像檢測任務的特點和要求,提出一種基于分層多尺度卷積特征提取的目標檢測方法:首先,引入遷移學習[18-19]的設計思路,將在ImageNet數據集上預訓練完成的VGG-16作為基礎網絡,針對目標檢測任務對網絡的結構和參數進行修改和微調;其次,沿用Faster R-CNN中的檢測框架,結合建議區域提取網絡和目標檢測子網絡來實現對目標的精確檢測;對于建議區域提取網絡,在多個不同分辨率的卷積特征圖上提取不同尺度的建議區域,增強網絡對弱小目標的檢測能力;對于目標檢測子網絡,選用分辨率更高的卷積特征圖(conv4-3)提取目標,并額外增加一個上采樣層來提升特征圖的分辨率,使其對弱小目標具有更強的表征能力。通過結合多尺度訓練、困難負樣本挖掘等多種設計和訓練方法,本文提出的方法在構建的坦克裝甲目標數據集取得了優異的檢測效果,目標檢測的精度和速度均優于目前主流的檢測方法Faster R-CNN.

此外,對于回歸損失,[yi=1]指明了只有在樣本標簽為正時才被激活,否則將不產生作用。

1 基于分層多尺度卷積特征提取的目標檢測方法

本文提出的目標檢測方法的整體框架如圖1所示。整個網絡結構主要由3部分組成,即:VGG-16預訓練網絡、基于分層多尺度采樣的建議區域提取網絡以及目標檢測子網絡。

1.1 基于VGG-16預訓練模型的遷移學習

多層級的深度CNN通常具有上百萬甚至千萬的模型參數需要進行學習訓練,對訓練樣本的數量和硬件條件都有非常高的要求。目前,通用的做法是采用在大規模的圖像數據集ImageNet上預訓練好的網絡模型,通過遷移學習的方式在特定數據集上對該模型參數進行修改和微調。常用的深度CNN模型包括Lenet-Net[20]、Alex[7]/ZF-Net[13]、VGG-Net[15]、Google-Net[21]等。通過對硬件條件和檢測任務的綜合考慮,本文選定預訓練好的VGG-16網絡模型作為基礎網絡,通過對VGG-16網絡的修改和微調來實現目標檢測任務。

1.2 基于分層多尺度特征提取的建議區域提取網絡

圖1 基于分層多尺度卷積特征提取的目標檢測整體框架Fig.1 Framework of target detection based on hierarchical multi-scale convolution feature extraction

對于一副待檢測的輸入圖像,建議區域提取網絡主要用于對其提取若干個可能包含目標的矩形建議框,并對每個建議框賦予一個是否包含物體的置信度。Faster R-CNN采用了一種全卷積網絡的實現方式,區域提取網絡和目標檢測子網絡共享基礎網絡所有的卷積層,并在最后一層的卷積特征圖上滑動小網絡,實現對建議區域的提取。相比于目標檢測方法,Faster R-CNN首次提出采用CNN來提取建議區域,實現了在GPU上對輸入圖像進行端到端的訓練和測試,大幅度提升了目標檢測的速度。然而,Faster R-CNN的建議區域由最后一個卷積層提取得到,由于該層上卷積特征圖的分辨率不足,導致該方法對弱小目標的檢測能力有限(對于一個輸入圖像中大小為32×32的目標,經過CNN的前向傳遞,在VGG-16最后一個卷積層上大小僅為2×2)。針對以上問題,本文采用一種多尺度的提取策略[22-23],將建議區域的提取對象擴展到VGG-16網絡的多個卷積層(如圖1),分別在卷積層conv3-3、conv4-3、conv5-3、pooling-5上滑動不同大小的窗口,將每一個滑動窗口覆蓋的區域作為初始建議區域,判斷其是否包含感興趣的目標。隨后,將每個滑動窗口區域映射到更低維的特征向量(512維),并將其輸出到兩個全連接層(分類層Scoring和邊界框回歸層Bbox reg),從而得到每個滑動窗口區域的置信度以及邊界框回歸向量。對于conv3-3而言,由于該層上的卷積特征圖分辨率較高,相比于后兩層對小目標的響應更強,主要用于對輸入圖像中小于30像素的弱小目標提取建議區域??紤]到對檢測速度的要求,此處只采用一個大小為7×7的滑動窗口,并將滑動步長設置為2;對于conv4-3和conv5-3,分別采用兩個大小為5×5和7×7的滑動窗口;對于pooling-5,考慮到實際情況中大于250像素的目標不能完全避免,除了兩個大小為5×5和7×7的滑動窗口外,此處增設一個9×9的滑動窗口,用于實現對超大目標的檢測。除conv3-3外,其余層上的滑動步長均設置為1. 需要指出的是,雖然在高分辨率的特征圖上采取精細的建議區域提取方式能夠在一定程度上提升檢測精度,但是將導致檢測速度的驟降,因此需要根據具體需求對其進行折中。實驗結果表明,本文采用的建議區域提取方式對于坦克裝甲目標保持著較高的召回率。

1.2.1 損失函數

l(Xi,Yi|W)=Lc(p(Xi),yi)+λ[yi=1]Ll(bi,i),

(1)

式中:Lc(p(Xi),yi)表示樣本集的分類損失函數,Ll(bi,i)表示樣本集的回歸損失函數,二者分別對應圖1中的分類層和回歸層,通過補償因子λ進行加權平衡;W表示整個建議區域提取網絡需要訓練的參數。

分類層采用1個二分類的交叉熵分類函數,通過損失函數Lc(p(Xi),yi)=-lgpyi(Xi)輸出樣本在目標和背景間的概率分布,pyi(Xi)表示樣本Xi屬于yi類的概率。

對于回歸層,主要用對樣本邊界框的坐標進行微調。由于預測的建議區域并不可能與真實目標的標注框完全重合,在其比較接近的情況下,可以通過線性的邊界框回歸對建議區域進行微調。參考文獻[11]提出的邊界框回歸方法,定義回歸損失函數Ll(bi,i)如下:

(2)

式中:smooth函數定義為

(3)

bi,x=(x-xa)/ωa,bi,y=(y-ya)/ha,
bi,w=lg (ω/ωa),bi,h=lg (h/ha),
i,x=(-xa)/ωa,i,y=(-ya)/ha,
i,w=lg (/ωa),i,h=lg (/ha).

(4)

通過給正負樣本的損失函數添加相應的權重系數,確保在正樣本數量低于設定的比例時,通過權重系數來增加正樣本在損失函數中的比重,使得損失函數中正負樣本的權重保持均衡。

回來后,我苦悶了好久,到底要不要繼續?如果要繼續,就必須跟爸媽說,不說不行。如果不繼續,就不再去他家了。老秦后來跟我說:“我看出來了,知道你來了一次就不想再來了?!?/p>

于是,對于所有被標注的M個樣本,根據被選用的卷積層不同,可以得到一個總的損失函數:

3.2.1 建議區域提取網絡測試評估

(5)

式中:N為參與建議區域提取的卷積層數量(此處取值為4);ωn對應每一個卷積層的樣本權重;Sn對應從每一個卷積層提取的樣本集合。在訓練時,通過隨機梯度下降法實現對損失函數的逐步優化。

以上所述方法曾先后在Pascal VOC[10]、MS COCO[13]等通用目標檢測數據集上取得了不錯的效果,有效推動了目標檢測技術的發展。然而,針對復雜環境下坦克裝甲目標的檢測任務,直接移植以上方法的思路并不可行,這是因為目標在整幅圖像中所占的尺寸比例有所不同。由于坦克裝甲車輛的觀測打擊距離通常在幾百米甚至1 000 m以上,使得目標在輸入圖像中所占尺寸的比例較小。以1 000 m的觀測距離為例,當圖像采集設備的觀測視場角為20°時,敵方坦克裝甲目標在1 024×768的輸入圖像中僅有20~30像素大小,目標尺寸比Pascal VOC等通用測試集中的大多數目標要小得多。目前主流的Faster R-CNN、SSD等檢測方法主要是針對Pascal VOC等通用測試集設計完成的,以求在通用測試集上取得更高的平均檢測精度,并未重點強調對小目標的檢測效果。此外,Pascal VOC等通用目標檢測數據集主要強調目標檢測的精度,對檢測的速度并沒有硬性要求。

對于一副待檢測圖像,在經過樣本標注后,由于目標在圖像中所占的比例有限,負樣本的數量通常會遠遠超過正樣本,這種樣本分布的不平衡可能會導致訓練的不穩定。因此在訓練時,需要對正負樣本的數量和比例進行調整。對于一個樣本集,本文將正負樣本間的數量比例確定為|S-|/|S+|=α. 由于負樣本數量眾多且分布不均勻,不同的負樣本存在難易程度的區別,對最終的檢測精度影響很大,需要制定特殊的采樣策略對負樣本訓練集進行挑選。文獻[24]分別對隨機采樣、Bootstrapping采樣和混合采樣(隨機采樣+Bootstrapping采樣)3種策略進行了分析和驗證,結果表明Bootstrapping采樣和混合采樣的效果相當。因此,本文采用Bootstrapping采樣方法,其基本思路是根據置信度值對所有的負樣本進行排序,并從中挑選出得分最高的若干樣本加入訓練集。

在構建的坦克裝甲目標數據集上,對所提出的建議區域提取網絡網絡進行測試評估。作為對比,同時對目前主流的目標檢測方法Faster R-CNN進行相同的測試。遵循文獻[27]提出的評估方法,將建議區域對目標的召回率作為其評估準則,并將建議區域的召回閾值設置為0.7,與真實標注框重合度超過70%的建議區域即認為是有效召回。

(6)

式中:變量x、xa、分別表示預測的邊界框、建議區域邊界框以及真實目標標注框。由此,在網絡的訓練階段,算法以預測樣本邊界框內圖像的卷積特征作為輸入,通過梯度下降法對回歸參數進行優化;在測試階段,根據輸入圖像的卷積特征得到輸出,經過反參數化后對邊界框進行微調。

1.2.3 非極大值抑制

完善物流配送的法律投訴機制建設,健全物流配送體制。在加強外部管理的同時完善內部的監管,建立健全物流配送體制,相互制約促進其發展。針對網上購物配送中出現貨物破損及退貨、賠償等種種問題,政府有關部門應該制定有針對性的法規和政策,以規范網上購物市場,增加廣大消費者對網上購物的信任感。因此企業應盡快建立、健全電子商務法規與物流配送投訴機制,這樣才可以妥善解決爭端,使客戶在消費后能維護自己的合法權益,也使商家能建立起較好的商業信譽,從而立于不敗之地。

對于一副分辨率為1 024×768的輸入圖像,通過本文方法進行建議區域提取后,將得到大約30 000個初始建議區域。這些建議區域間將存在大量的重疊和冗余,嚴重影響檢測的速度。因此,本文基于初始建議區域的分類得分,采用非極大值抑制的方法對其數量進行精簡。在進行非極大值抑制時,將IoU的閾值設置為0.7,從而每張圖像將只剩下大約2 000個建議區域。之后,從剩余的2 000個建議區域中挑選分類得分最高的100個作為最終的建議區域,并將其輸入目標檢測子網絡。非極大值抑制不會對最終的檢測精度造成影響,還能夠大幅度提升檢測效率。在后文的實驗部分,本文對選取不同數量的建議區域進行了對比。

1.3 目標檢測子網絡

盡管單獨使用建議區域提取網絡能實現目標檢測的功能,文獻[16-17]也采用這種檢測框架設計完成,但實驗結果表明,這種設計思路相比于先提取建議區域再進行目標檢測的方法,檢測的速度有明顯提高,但同時也犧牲了一定的檢測精度,小目標檢測更是效果欠佳。因此,本文在建議區域提取網絡之后單獨設計了目標檢測子網絡。整個網絡的結構如圖1所示。首先,為了增強對小目標的檢測能力,不同于R-CNN系列的檢測方法在最后一個卷積層上提取目標,本文在分辨率更高的第4個卷積層(conv4-3)上執行該操作。此外,為了進一步增大卷積特征圖的分辨率,本文引入了文獻[25]的設計思路,在conv4-3層上執行反卷積操作,通過雙線性插值的上采樣方式來增大卷積特征圖的分辨率。反卷積層的加入有效提升了系統對小目標的感知能力,本文將在實驗部分對其效果進行評價。隨后,在增大后的卷積特征圖上對建議區域所對應的部分進行固定尺度的池化采樣。本文沿用了文獻[11]中的ROI(感興趣區域)采樣方法,將建議區域對應的卷積特征轉化為7×7×512維的特征向量。之后,依次連接全連接層和輸出層。對于全連接層,考慮到VGG-16網絡中兩個4 096維的全連接層計算起來比較耗時,用一個2 048維的全連接層對其進行替換。對于輸出層,與建議區域提取網絡一樣,由并行連接的分類層和回歸層組成,并采用多任務模式對其進行聯合優化。

這樣,對于整個網絡的損失函數,可在(5)式的基礎上擴展得到:

“法治”是當今社會的主旋律,必須在“依法治國”的背景下建立和落實國家機關“誰執法誰普法”責任制,以確保其擁有穩固的制度根基[1]。一般來講,該責任制的建立和實施必須有以下依據:

(7)

式中:ln+1表示檢測子網絡的損失函數;Sn+1表示檢測子網絡的訓練樣本。由于目標檢測子網絡與建議區域提取網絡共享基礎網絡VGG-16的部分卷積層,此處考慮將兩個子網絡的參數W和Wd進行聯合優化,即:

(1)振搗混凝土采用機械振搗,柱混凝土采用振搗棒振搗。分層澆筑的混凝土,振搗棒插入下層5 cm左右,以消除兩層之間的接縫。

(8)

與建議區域提取網絡一樣,在訓練時通過隨機梯度下降法對其進行優化。對于目標檢測子網絡的輸出結果,同樣采用非極大值抑制方法對其進行優化。此處的IoU閾值設置為0.3. 最后,從簡化結果中挑選出置信度得分大于閾值的區域作為最終的目標區域。對于坦克裝甲目標的檢測而言,可以容忍一定程度的誤檢率,但對于漏檢卻需要極力避免,因此為了盡可能檢測出所有目標,此處設置了相對較小的置信度閾值(閾值為0.5),旨在發現更多的可疑目標,但也會造成誤檢率的提升。本文將在實驗部分對此進行討論。

2 訓練與測試的實現細節

整個目標檢測網絡通過反向傳播和隨機梯度下降法對網絡進行端到端的訓練。文獻[11-12]在訓練和測試過程中對輸入圖像進行了多尺度變換,這種方式在一定程度上能夠提高檢測的準確性,但檢測速度有所損失。本文采取一種折中方式:在訓練時,對輸入圖像進行隨機縮放,在保持原有長寬比例的條件下使其短邊為400、600、1 000等多個像素尺寸;在測試時,直接使用輸入圖像的原始尺寸(1 024×768)。

整個目標檢測網絡的訓練在VGG-16網絡的基礎上進行,該網絡在Imagenet數據集上初始化訓練完成。對于所有的新增層,遵循文獻[12]的方法,采用零均值、標準差為0.01的高斯分布進行隨機初始化完成。遵循文獻[11]的訓練規則,只對VGG-16網絡conv3及其之后的層進行調節。由于采用多任務損失函數和bootstrapping采樣可能導致訓練早期的不穩定,故采用一種兩步訓練策略:1)對建議區域提取網絡進行初始化,采用較小的平衡因子(λ=0.05),以0.000 1的學習率對建議區域提取網絡進行10 000次迭代訓練;2)將平衡因子和學習率分別增大為1和0.001,對整個網絡進行20 000次迭代訓練;隨后將學習率縮小至0.000 1,繼續進行10 000次迭代訓練。整個訓練過程均采用bootstrapping采樣方式,每個批量包含256個訓練樣本,正負樣本數量比例設置為1∶3(α=3),分別從兩副輸入圖像中采樣得到。當正樣本數量不滿足比例時,選用負樣本對該批量進行補充。此外,動量因子設置為0.9,權重衰減因子設置為0.000 5. 對于各卷積層的權重因子,本文將第3和第4個卷積層的權重因子分別設置為0.8和0.9(ωconv3=0.8,ωconv4=0.9),將第5個卷積層以及池化層的權重因子均設置為1(ωconv5=1,ωpooling5=1)。實驗結果表明,采用這種兩步訓練方式能夠使整個網絡快速趨于穩定。

3 實驗及結果分析

為了驗證本文所提方法的性能,針對坦克裝甲目標構建專用的測試數據集,在該數據集上對提出的方法以及目前主流的目標檢測方法Faster R-CNN進行訓練和測試。此外,還在通用目標檢測數據集Pascal VOC2007上對所提方法進行了測試分析。所有的測試評估均在核心配置為CPU:E5-2650Lv3/GPU:GTX-TITIAN-X的圖形工作站上進行。整個目標檢測網絡在Ubuntu 14.04/Matlab 2014a上構建完成,在構建過程中使用了Caffe[26]框架。

3.1 構建針對坦克裝甲目標的測試數據集

從多個場景拍攝圖像中挑選出2 000張圖像,構建一個小型坦克裝甲目標樣本庫。如圖2所示,該樣本庫拍攝于多種野外環境,包含多種車型的多個視角,并考慮遮擋、煙霧等多種復雜情況。隨后,將樣本圖像的像素尺寸統一縮放為1 024×768,并采用LabelImg工具包對樣本圖像進行標注,對圖像中目標的位置、大小和種類分別進行標定,使其滿足Pascal VOC數據集的格式,以便后期對樣本庫進行學習訓練。按照慣例,將樣本庫中的圖像隨機分為兩組,其中1 400張用于訓練,剩下600張用于測試,分別共包含3 159和1 344個坦克裝甲目標。目前該數據集中的樣本數量和類型還不夠豐富,后續工作中還將對其進行完善。

圖2 坦克裝甲目標測試集中的部分樣本圖像Fig.2 Examples of tank and armored target test set

3.2 在坦克裝甲目標測試數據集上的實驗

根據館藏《麥華三小楷書黎暢九李鐵夫生軼事并跋》內容,文中提到的李鐵夫的9幅水彩畫作品現均藏我館。②這組水彩作品材質均為宣紙,但構圖和用色方式與其它水彩畫一致。此外,歸入水彩的藏品中還有2幅也確認是在宣紙上用水彩完成。

1.4 統計學分析 運用SPSS 18.0軟件對數據進行統計學分析,數據均符合正態分布,計量資料以表示,數據比較采用獨立樣本t檢驗,計數資料以例(%)表示,數據比較采用χ2檢驗,P<0.05為差異有統計學意義。

由于CNN每一層的特征圖對應不同大小的感知區域,每一個參與提取建議區域的卷積層負責提取不同尺度的建議區域。例如,第3個卷積層(conv3-3)負責提取最小尺度的目標,第5個池化層用來提取最大尺度的目標。這種提取方式可能導致在某一個卷積層上正樣本數量的不足,即|S-|?α|S+|,將導致訓練的不穩定。因此,本文對分類損失函數的權重進行了修改:

表1展示了各卷積層提取的初始建議區域對目標的有效召回率。從表1可以看出,盡管各層所提取的初始建議區域只對相應尺寸的目標具有較高的召回率,但通過對各卷積層的結合使用,對所有尺寸的目標總的召回率達到了92.9%,從而證明了這種建議區域提取方法的有效性。

圖3比較了本文的建議區域提取方法與Faster R-CNN所采用的RPN提取方法使用不同數量建議區域時的召回率。由圖3可知,在使用相同數量的建議區域時,本文提取方法相比于RPN擁有更高的召回率(數量超過500個時兩種方法的召回率持平)。本文的提取方法只需使用得分前100的建議區域,即可達到較高的召回率(92.9%),RPN則需要使用超過500個建議區域才能達到同等水平。使用較少的建議區域將有利于檢測速度的提升,因此本文的提取方法更高效。圖4比較了使用100個建議區域時,兩種方法在不同IoU閾值時對應的召回率。由圖4可以看出:當閾值被設定為0.5時,RPN和本文的方法均取得了較高的召回率;當設定的閾值超過0.7時,RPN對應的召回率下降幅度明顯超過本文方法。從而表明了本文方法生成的建議區域相比于RPN更加精確,其主要原因在于RPN在最后一個卷積層上提取建議區域,由于分辨率不足,導致其對小目標的感知能力有限。本文在多個卷積特征圖上提取不同尺度的建議區域,針對各種尺度的目標設計了相應大小的提取窗口,因此提取的建議區域更為精確。

表1 初始建議區域對目標的召回率

圖3 不同數量建議區域對應的召回率(IoU=0.7)Fig.3 Recall rates corresponding to different number of region proposals (IoU=0.7)

圖4 不同交除并重疊比對應的召回率Fig.4 Recall rates corresponding to different IoUs

3.2.2 檢測精度和速度分析

表2比較了本文方法以及Faster R-CNN在坦克裝甲目標數據集上的檢測精度與速度等性能指標。從總的檢測精度來看,本文方法相比于 Faster R-CNN有7.4%的提升。從目標的大小尺度進行分析,盡管本文方法在大目標(≥100像素)上相對于Faster R-CNN檢測率并無優勢,但對于小于50像素的小目標,相比Faster R-CNN有10%~20%的提升,印證了本文方法在小目標檢測上的優勢。從檢測速度來看,由于簡化了全連接層,同時使用了更少的建議區域,對于1 024×768的輸入圖像,本文方法的檢測速度達到10幀/s,略快于Faster R-CNN. 此外,由于本文方法旨在檢測出更多的可疑目標,在提取最終目標時設置了相對寬松的置信度閾值,導致本文方法的誤檢率達到4.2%,比Faster R-CNN高出1.3%. 圖5展示了本文方法在坦克裝甲目標(tank)測試集上對部分樣本的檢測結果,其中紅形矩形區域為正確檢測到的目標,圓形實線區域為漏檢的目標,圓形虛線區域表示誤檢。

3.2.3 模型分解實驗

第三,中美意識形態的根本分歧。中國并未按照美國在過去數十年一直抱有的期望發展,即隨著逐步融入美國和西方主導的國際體系,朝著西方期待的方向發展。20世紀初,美國為更多的占據中國的市場份額,打入中國市場,給予中國最惠國待遇,幫助中國加入世界貿易組織。美國希望隨著中國經濟市場化改革的深入,如東歐國家一樣,改旗易幟,走上資本主義道路。但由于中國開辟了中國特色社會主義道路,經濟社會發展穩步前進,不斷突破,嚴重威脅了美國資本主義社會的經濟霸主地位,導致其不得不轉變對華貿易政策,通過打壓社會主義中國的經濟,維護其資本主義自身的利益。

五、學習貫徹十七大,圍繞貼近基層服務,在深入調研上下功夫。隨著改革的深化,大量勞動關系中的矛盾發生的基層,因此,工會的組織工作重心也必須“下移”。師團工會工作要圍繞“三貼近”——貼近實際、貼近群眾、貼近生活,有針對性地指導工作,夯實基礎。今后,師團工會要進一步轉變工作作風,深入基層、深入職工群眾,大興調查研究之風,做好職工熱點、疑點、焦點問題化解,尤其要對帶傾向性、典型性的問題進行調研,為工會組織積極投入新型團場建設,提供理論指導及對策?!?/p>

為了進一步驗證本文方法的性能,在坦克裝甲目標數據集上進行模型分解實驗,分析文中使用的多種設計和訓練方法對檢測結果的影響。測試使用的輸入圖像采用與上文相同的尺度(1 024×768),表3展示了模型分解實驗的結果。由表3可以看出,本文使用的多種設計和訓練方法均對檢測精度有一定的提升:使用分辨率更大的conv3-3卷積層來提取建議區域,增強對弱小目標的感知能力;不使用conv3-3卷積層時檢測精度將下降2.5%;使用反卷積層增加了檢測子網絡特征圖的分辨率,使最終的檢測精度提升了2.8%;使用bootstrapping采樣方式增強了對困難負樣本的挖掘能力,能夠將檢測精度提升1.9%;在訓練時對輸入圖像進行多尺度的縮放,使檢測精度提升了2.3%。需要指出的是,這些方法并未對檢測速度造成較大的影響。本文嘗試了在測試時對輸入圖像進行多尺度縮放,這種處理方式能夠將檢測精度提升1.7%,但檢測的速度也將大幅下降,因此并未被使用。

這時,牛皮糖就撥開眾人,沖到前面,手舞足蹈的和肉仔吵起來。大家都不再買肉,停在那里看。受不了吵鬧的老人就走開到遠點的肉攤上去了。

表2 在坦克裝甲目標數據集上的測試結果

3.3 在VOC2007數據集上的測試結果

除了在坦克裝甲目標數據集上進行測試外,本文還在更通用的VOC2007數據集上對提出的方法進行了測試,并將測試結果與Faster R-CNN進行比較。為了公平比較,訓練樣本集均由VOC2007-trainval和VOC2012-trainval構成,測試樣本集為VOC2007-test。由于VOC2007和VOC2012中樣本圖像的像素大小約為500×375,本文沿用Faster R-CNN對輸入圖像的處理方式,在保持原有長寬比例的條件下將其短邊縮放為600像素,在單一尺度下對樣本進行訓練和測試。此處采用的數據集相比于坦克裝甲目標數據集有更多的樣本,因此訓練時需要迭代更多的次數:第一步訓練,以0.000 1的學習率對建議區域提取網絡進行40 000次迭代訓練;第二步訓練,將學習率增大至0.001,對整個網絡進行80 000次迭代訓練;隨后將學習率縮小至0.000 1,繼續進行40 000次迭代訓練。表4展示了兩種方法在VOC2007數據集上的測試結果。從總的檢測精度看,由于VOC2007數據集中包含了大量尺寸超過300像素的超大目標,本文方法相比于Faster R-CNN基本持平。從不同種類的檢測結果進行分析:對于公交車、飛機、火車、馬等大物體種類,Faster R-CNN比本文方法的檢測精度更高;對于貓、小轎車、桌子、電視機等中等尺度的物體種類,本文方法和Faster R-CNN在檢測精度上基本持平;對于鳥、瓶子、植物等小物體種類,本文方法相比于Faster R-CNN有5%~10%的優勢。這一結果與預期相符,由于本文方法的設計初衷是主要針對小于200像素的中小物體檢測,提取建議區域的最大滑動窗口大小僅為288×288,相比于Faster R-CNN中最大為768×437的錨點生成區域,對公交車和飛機等超大物體的檢測能力有一定的差距。然而,由于坦克裝甲車輛的觀測打擊距離較遠,這種超大目標在實際情況中很難出現。

圖5 坦克裝甲目標測試集上部分樣本檢測結果Fig.5 Example detection results of tank and armored target test set

項目結果conv3-3?√√√√√反卷積層√?√√√√bootstrapping√√?√√√輸入多尺度縮放(訓練)√√√?√√輸入多尺度縮放(測試)?????√檢測精度/%66.766.467.366.969.270.9

注:“√”代表使用,“×”代表不使用。

表4 在VOC2007數據集上的測試結果

4 結論

本文針對坦克裝甲目標圖像檢測任務,提出了一種基于深度CNN的多尺度目標檢測方法。采用遷移學習的設計思路,在VGG-16網絡的基礎上針對目標檢測任務對網絡的結構和參數進行修改和微調,結合建議區域提取網絡和目標檢測子網絡,實現對目標的精確檢測。針對小目標在深層卷積特征圖上分辨率不足的問題,在多個不同分辨率的卷積特征圖上提取不同尺度的建議區域,并在分辨率更高的卷積特征圖中提取目標,同時通過上采樣方式進一步提升特征圖的分辨率。通過結合多尺度訓練、困難負樣本挖掘等多種設計和訓練方法,本文方法在構建的坦克裝甲目標數據集取得了優異的檢測效果,目標檢測的精度和速度均優于目前主流的檢測方法Faster R-CNN.

筆者所設計的民族綜合信息大數據平臺資源庫管理系統,可實現內蒙古民族信息的統一管理和資源整合。隨著信息技術的發展,資源庫管理系統將進一步推進大數據平臺的發展,民族信息的管理體系也將隨之完善。

下一步工作將對所構建的坦克裝甲目標數據集進行進一步完善,同時將嘗試在深度CNN的基礎上采用循環神經網絡對視頻圖像的時序信息進行處理,將單幀圖像的信息與幀和幀之間的變化信息進行融合,從而對視頻圖像進行更高效的目標檢測。

References)

[1] 尹宏鵬, 陳波, 柴毅, 等. 基于視覺的目標檢測與跟蹤綜述[J]. 自動化學報, 2016,42(10): 1466-1489. YIN Hong-peng, CHEN Bo, CHAI Yi, et al. Vision-based object detection and tracking[J]. Acta Automatica Sinica, 2016,42(10): 1466-1489. (in Chinese)

[2] 王鐵虎, 焦愛泉, 馮連仲, 等. 精確打擊作戰與裝甲裝備未來發展[J]. 兵工學報, 2010,31(增刊2): 59-65. WANG Tie-hu, JIAO Ai-quan, FENG Lian-zhong, et al. Future development of armored equipment and precise attack operation [J]. Acta Armamentarii, 2010,31(S2): 59-65. (in Chinese)

[3] 郭明瑋, 趙宇宙, 項俊平, 等. 基于支持向量機的目標檢測算法綜述[J]. 控制與決策, 2014, 29(2): 193-200. GUO Ming-wei, ZHAO Yu-zhou, XIANG Jun-ping, et al. Review of object detection methods based on SVM[J]. Control and Decision, 2014, 29(2): 193-200. (in Chinese)

[4] Felzenszwalb P, Girshick R, Allester D M, et al. Object detection with discriminatively trained part based models [J]. IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

[5] 吳青青,許廷發,閆輝, 等. 復雜背景下的顏色分離背景差分目標檢測方法[J]. 兵工學報, 2013, 34(4): 501-506. WU Qing-qing, XU Ting-fa, YAN Hui, et al. An improved color separation method for object detection in complex background [J]. Acta Armamentarii, 2013, 34(4): 501-506. (in Chinese)

[6] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 2012 Advances in Neural Information Processing Systems. Cambridge, MA, US: The MIT Press, 2012: 1097-1105.

[7] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]∥Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL ,US: IEEE, 2009: 248-255.

[8] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,US: IEEE, 2014: 580-587.

[9] Uijlings J R, Sande V D, Gevers K E, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171.

[10] Everingham M, Van G L, Williams C K, et al. The Pascal visual object classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

[11] Girshick R. Fast R-CNN[C]∥Proceedings of the IEEE 14th International Conference on Computer Vision. Chile: IEEE, 2015: 1440-1448.

[12] Ren S Q, He K M, Girshick R B, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Proceedings of the 2015 Advances in Neural Information Processing Systems. Cambridge, MA, US: MIT Press, 2015: 91-99.

[13] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context [C]∥Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 740-755.

[14] Zeiler M D, Fergus R. Visualizing and understanding convolutional neural networks [C]∥Proceedings of the 13rd European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 818-833.

[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10) [2016-11-15]. http:∥arxiv.orb/abs/1409.1556.

[16] Redmon J, Divvala S K, Girshick R B, et al. You only look once: unified, real-time object detection [EB/OL]. (2016-05-09) [2016-11-14]. http:∥arxiv.orb/abs/1506.02640.

[17] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multi box detector [EB/OL]. (2016-03-30) [2016-11-15]. http:∥arxiv.orb/abs/1512.02325.

[18] Oquab M, Bottou L, Laptev I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,US: IEEE, 2014: 1717-1724.

[19] 石祥濱, 房雪鍵, 張德園, 等. 基于深度學習混合模型遷移學習的圖像分類[J]. 系統仿真學報, 2016,28(1): 167-174. SHI Xiang-bin, FANG Xue-jian, ZHANG De-yuan, et al. Image classification based on mixed deep learning model transfer learning[J]. Journal of System Simulation, 2016, 28(1): 167-174. (in Chinese)

[20] LeCun Y, Boser B, Denker J, et al. Back propagation applied to hand written zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.

[21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]∥Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, US: IEEE, 2015:1-9.

[22] Kong T, Yao A B, Chen Y, et al. HyperNet: towards accurate region proposal generation and joint object detection [EB/OL]. (2016-04-03) [2016-11-14]. http:∥arxiv.orb/abs/1604.00600.

[23] Bell S, Zitnick C L, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks [EB/OL]. (2015-12-14) [2016-11-14]. http:∥arxiv.orb/abs/1512.04143.

[24] Cai Z, Fan Q, Feris R, et al. A unified multi-scale deep convolutional neural network for fast object detection [EB/OL]. (2016-07-25) [2016-11-14]. http:∥arxiv.orb/abs/1607.07155.

[25] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]∥Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA,US: IEEE, 2015: 3431-3440.

[26] Jia Y. Caffe: an open source convolutional architecture for fast feature embedding [EB/OL]. [2016-10-15]. http:∥caffe.berkeleyvision.org/2013.

[27] Hosang J, Benenson R, Dollar P, et al. What makes for effective detection proposals? [EB/OL]. (2015-08-01) [2016-11-14]. http:∥arxiv.orb/abs/1502. 05082.

ImageDetectionMethodforTankandArmoredTargetsBasedonHierarchicalMulti-scaleConvolutionFeatureExtraction

SUN Hao-ze, CHANG Tian-qing, WANG Quan-dong, KONG De-peng, DAI Wen-jun

(Department of Control Engineering, Academy of Armored Force Engineering, Beijing 100072, China)

TP391.413

A

1000-1093(2017)09-1681-11

10.3969/j.issn.1000-1093.2017.09.003

2016-11-14

總裝備部院??萍紕撔鹿こ添椖?ZXY14060014)

孫皓澤(1989—), 男, 博士研究生。E-mail: sunhz1989@163.com

常天慶(1963—), 教授, 博士生導師。 E-mail: changtianqing@263.net

猜你喜歡
卷積樣本建議
基于3D-Winograd的快速卷積算法設計及FPGA實現
用樣本估計總體復習點撥
接受建議,同時也堅持自己
卷積神經網絡的分析與設計
從濾波器理解卷積
好建議是用腳走出來的
規劃·樣本
基于傅里葉域卷積表示的目標跟蹤算法
隨機微分方程的樣本Lyapunov二次型估計
建議答復應該
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合