?

DL-MAML:一種新的蝴蝶物種自動識別模型

2024-03-23 08:04趙戈偉許升全謝娟英
計算機研究與發展 2024年3期
關鍵詞:特征提取蝴蝶卷積

趙戈偉 許升全 謝娟英

1 (陜西師范大學計算機科學學院 西安 710119)

2 (陜西師范大學生命科學學院 西安 710119)

蝴蝶分類的依據是翅膀背和腹面的顏色、花紋和圖案.目前,全球大約有18 000 種蝴蝶.蝴蝶與植物密切相關,是環境指示昆蟲,對評估生態系統平衡具有重要意義.傳統蝴蝶物種識別依賴于昆蟲學家的知識和經驗,需要將野外采集的蝴蝶制作成標本,費時費力.野外環境下的蝴蝶物種識別,不需要制作蝴蝶標本,直接依據野外環境下拍攝的蝴蝶照片進行蝴蝶種類識別,本質上是目標檢測任務,包括蝴蝶(目標)位置檢測和分類,但比普通目標檢測更具有挑戰性.因為普通的目標檢測,目標往往屬于不同的大類,分類容易;而野外環境下的蝴蝶物種識別的分類任務是細粒度的分類,目標同屬蝴蝶大類,遠比普通目標檢測問題中的目標分類困難.然而,深度學習技術的飛速發展,為目標檢測任務提供了新的理論和技術,并使野外環境下的蝴蝶物種識別成為可能[1-5].盡管如此,野外環境下的蝴蝶種類識別還面臨蝴蝶類別標簽嚴重依賴于專家知識,數據集的獲得非常困難,現有數據集的蝴蝶種類和樣本數量有限,未涵蓋所有蝴蝶種類,使學習獲得的蝴蝶種類分類識別系統的泛化推廣非常受限,無法用于新的蝴蝶類別識別.

元學習(meta-learning)通過挖掘不同學習任務的學習方法論的共性,實現學習方法論的學習目的.因此,本文借助元學習的方法論學習優勢,針對現有野外環境下蝴蝶數據集包含蝴蝶種類較少,未能涵蓋所有蝴蝶種類,致使蝴蝶分類識別系統的泛化性受限問題,提出基于元學習的蝴蝶種類識別,并改進元學習的目標函數,以期解決當前蝴蝶種類識別研究面臨的泛化性挑戰.另外,借助深度學習的極強特征學習能力,改進元學習模型的結構,以期得到可以任意推廣的野外環境下的蝴蝶識別系統.

1 相關研究

現有蝴蝶自動識別研究至今已有10 多年歷史,最初只是基于蝴蝶標本圖像的蝴蝶物種識別,隨著深度學習的出現和發展,出現了基于野外環境下蝴蝶圖像的蝴蝶物種識別研究[2-5].

基于標本照片的蝴蝶識別研究起源于10 年前.2011 年陳淵等人[6]提出改進支持向量機,對7 種蝴蝶標本進行自動識別.2012 年Wang 等人[7]使用基于內容的圖像檢索方法,對蝴蝶標本圖像進行特征提取并進行分類識別.2013 年Kaya 等人[8]提出基于極限學習機和Gabor 濾波器的新方法,用于蝴蝶物種識別.2014 年Kaya 等人[9]采用灰度共生矩陣和局部二進制模式提取特征,用極限學習機識別蝴蝶標本圖像,分別得到98.25% 和96.45% 的識別準確率.2014年Kayci 等人[10]利用GLCM(grey-level co-occurrence matrix)提取蝴蝶翅膀表面紋理特征,用MLR(mixed logistic regression)對蝴蝶標本圖像進行分類,達到96.3%的分類準確率.2015 年Ertu?rul 等人[11]通過結合極限學習機和Law 紋理能量測度技術來識別蝴蝶標本圖像.2018 年Li 等人[12]采用多尺度曲率直方圖和圖像塊灰度共生矩陣提取特征,設計了一種加權K 近鄰分類器對蝴蝶進行識別.2020 年Lin 等人[13]提出能提取蝴蝶細粒度特征的跳躍連接卷積神經網絡,對包含56 種蝴蝶的24 836 張標本進行分類,準確率達到93.36%.

基于生態照的蝴蝶自動識別研究,源于2018 年的第3 屆中國數據挖掘競賽暨國際首次蝴蝶識別大賽.謝娟英等人[1]為競賽提供了一個包含蝴蝶標本照和生態照的數據集,其中生態照有1 425 張,共111 種;并利用Faster R-CNN 為競賽實現了一個baseline[2].2020 年Almryad 等人[14]創建了一個包含104 類野外環境中蝴蝶圖像的數據集,其中共有44 659 張圖像數據,但許多物種都只有很少量的圖像樣本,因此,他們選擇了其中的10 類蝴蝶,共17 769 張圖像用于實驗,利用卷積神經網絡進行蝴蝶種類識別.2020 年Xin 等人[15]提出了一個結合壓縮激勵模塊和空間注意力模塊的分類網絡對野外環境中的30 類蝴蝶圖像進行分類.2021 年Xie 等人[4]針對蝴蝶生態照數據集類別分布不平衡問題,提出了一種新的數據集劃分方法和數據增強技術,采用RetinaNet 取得了當時基于生態照的蝴蝶物種識別的最好結果.另外,謝娟英等人[3]通過加入注意力機制改進經典目標檢測算法RetinaNet,對野外環境中的蝴蝶進行識別,取得了很好的識別效果,并發現結構差異是引起誤識的主要原因.2022 年,Xie 等人[5]提出了基于人類視覺機制的野外環境下蝴蝶識別系統KSRFB-Net,取得迄今為止最好的蝴蝶物種識別效果.

然而,現有蝴蝶物種自動識別研究,無論基于蝴蝶標本還是基于野外環境下的蝴蝶圖像,涉及的蝴蝶種類均較少.盡管蝴蝶標本的種類相對較全,但是基于標本的蝴蝶自動識別研究涉及的種類也不多,這是由于蝴蝶分類是非常具有挑戰性的細粒度分類,每種蝴蝶標本照片的數量非常有限,無法滿足機器學習,特別是深度學習需要的訓練樣本,無法避免過擬合,從而無法實現蝴蝶多類別分類.野外環境下的蝴蝶物種自動識別還面臨數據收集和標注極為困難的挑戰,研究涉及的蝴蝶種類更少,每類蝴蝶的樣本量也很有限,甚至有的種類僅一張照片.因此,蝴蝶物種自動識別是一個小樣本分類.由于野外環境下的蝴蝶自動識別不需要制作蝴蝶標本,且與生物多樣性、生態系統平衡等密切相關,研究會更有意義,因此,本文關注野外環境下的蝴蝶物種自動識別.

傳統機器學習往往針對某一具體學習任務,通過訓練數據學習分類模型,在樣本量較多的任務中很成功,但樣本量較小時,往往由于學習不足而使模型性能較差[16],深度學習更是依賴于大量訓練數據[17].小樣本學習(few-shot learning)作為機器學習的一個分支,通過少量樣本進行學習[18].2015 年Koch 等人[19]提出了一種學習孿生神經網絡的方法,采用獨特的結構對輸入之間的相似性進行度量,實現了少量樣本下的學習.2016 年Vinyals 等人[20]采用基于深度神經特征的度量學習,利用外部記憶增強神經網絡,提出了網絡學習新框架,并定義了one-shot learning 問題.2017 年Ravi 等人[21]提出一個基于長短期記憶的學習機模型學習精確的優化算法,在少樣本狀態下訓練另一個神經網絡分類器,驗證了元學習模型在小樣本學習領域的優越性能.2017 年Finn 等人[22]提出一種與模型無關的元學習算法,兼容任何經過梯度下降訓練的模型,適用于各種不同的學習問題,在小樣本分類基準數據集表現出最先進的性能.

鑒于元學習在小樣本分類中的優越性能,針對現有野外環境下的蝴蝶種類識別面臨的樣本類別和樣本量少、樣本獲取和樣本類別標注困難的挑戰,提出基于元學習的蝴蝶種類識別,以解決現有野外環境下的蝴蝶種類識別模型面臨的泛化推廣性能差的挑戰.另外,為了解決野外環境下的蝴蝶種類識別面臨的蝴蝶分類特征學習困難問題,提出采用深度學習來提取蝴蝶分類特征,作為元學習的數據預處理步驟,并在元目標函數引入正則化項避免過擬合,從而得到深度學習結合元學習的野外環境下蝴蝶種類識別系統.大量實驗測試表明,提出的模型對野外環境下的蝴蝶識別具有不錯的效果,成功解決了蝴蝶種類識別系統的泛化問題,為蝴蝶物種自動識別開辟了新途徑.

2 元學習

相比于傳統意義上的機器學習(包括深度學習),元學習是更高層次的學習,即學會學習,它不同于傳統機器學習,不再聚焦于某個具體的學習任務[23].元學習的學習對象由數據提升為任務,挖掘不同學習任務共有的方法論內涵,實現學習不同任務的學習方法論,以期進行方法論知識的遷移,減少超參調制,在少量數據條件下,獲得良好的學習效果,提高系統的性能[24].元學習方法可以在少量訓練樣本的情況下,快速適應一個新的分類任務,為小樣本分類提供了有效手段,為野外環境下的蝴蝶種類識別提供了新的解決方案.經典機器學習需要大量的訓練數據支撐[25],在某個特定任務上訓練模型,關注點是模型在當前任務上的表現.元學習關注模型對新任務的快速適應能力,因此,元學習非常適合用來解決當前野外環境下蝴蝶物種自動識別任務面臨的挑戰.

2.1 元學習概念

元學習通常被解釋為學會學習的學習[26],其目的是通過在多個任務上學習,掌握快速學習的能力,關注點不再是模型在某個任務上的表現,而是在多個任務上的學習能力.因此,很合適用來解決傳統神經網絡的泛化性能不足,及其對新類別適應性較差的問題.元學習過程包含元訓練(meta train)階段和元測試(meta test)階段.元學習的基本單元是任務,不再是面向某一任務的具體數據.元學習的訓練任務集合通常包含1 組或多組任務,每個任務又被分為support set 和query set.假設元訓練集為Dmeta-train,元測試集為Dmeta-test,Dmeta-train和Dmeta-test的數據無類別交叉,即Dmeta-train∩Dmeta-test=?.元訓練階段的任務采樣于Dmeta-train,元測試階段的任務采樣于Dmeta-test.元學習過程的數據劃分如圖1 所示.

圖1 元學習過程的數據劃分Fig.1 Data division of the meta-learning process

2.2 MAML 算法

MAML(model-agnostic meta-learning)[22]是一種基于初始參數的元學習方法,其基本思想是:通過學習相似任務的分布來尋找一個更好的初始參數,使得在良好的初始參數情況下,模型可以用較少的梯度更新,快速學習新任務.因此,對于一個新任務,模型不需要從隨機初始化的權重開始,而是可以從最優權重開始,僅需很少的步驟就可以達到收斂,且不需要太多數據來進行訓練.具體描述是:模型在一個新任務(task)上,使用基于梯度的學習規則進行微調來學習一個模型,使這個基于梯度的學習規則能在從數據集D的分布P(T)抽取的新任務上快速收斂[22].

MAML 算法包括內、外2 層循環,內循環試圖學習每個任務的最優參數,外循環計算每個任務相對于其最優參數的損失,從而更新隨機初始化的模型參數.即內循環學習特定任務的參數,使用梯度下降最小化損失;外循環更新模型參數,減少幾個任務間的期望損失,將更新后的模型參數作為相關任務的更優初始參數.

MAML 算法的訓練模型由參數化函數fθ表示,其中 θ為參數.元訓練期間,從Dmeta-train中采樣任務,使用的support set 中的K個樣本和相應損失函數的反向傳播來訓練模型,得到內循環參數,這里中上標1 表達該參數是內循環參數,然后在來自的query set 新樣本上測試參數來自的query set 新數據的測試損失為元學習過程任務的訓練誤差,依據該誤差,改進外循環模型fθ.在訓練階段,當訓練相同batch(batch size 設置為8)中的新任務(k≠i)時,模型的初始參數相同,也為 θ.MAML 內循環更新的參數向量使用任務的support set 的1 個或多個梯度下降更新來計算.僅考慮在的support set 的一個梯度下降的計算公式如式(1)所示,超參數 α為內循環參數更新步長,即內循環參數學習率.

對訓練模型fθ的優化在模型參數 θ上進行,使用更新的模型參數來計算目標.實際上,MAML 提出的方法旨在優化模型參數,以便新任務上的1 個或少量梯度更新步驟,便產生最大有效的行為.跨任務的元優化通過隨機梯度下降(stochastic gradient descent, SGD)實現.因此,模型參數 θ的更新公式如式(3)所示,其中 β是元步長,即MAML 外循環參數學習率.

2.3 改進的MAML 算法

MAML 元學習算法能通過訓練少量樣本實現在新任務上的快速學習,但是由于訓練樣本量少,網絡在元訓練過程中存在過擬合風險,使在元測試階段對新類識別率低.為了降低網絡在元訓練過程中的過擬合,提升模型在元測試階段對新類別的識別能力,本文對MAML 算法的元目標如2.2 節式(2)中添加L2 正則化項,得到新的元目標,如式(4)所示.其中 λ為超參數,取值范圍為λ ∈[0,1].

根據式(4)的元目標更新模型參數 θ,則 θ的更新公式如式(5)所示:

3 DL-MAML 算法

MAML 算法將圖像直接輸入網絡進行訓練,然而,圖像經過深層卷積后的特征具有更高級的語義[27],更能體現圖像特征,因此,提出DL-MAML(deep learning advanced model-agnostic meta-learning)算法,增加獨立的特征提取模塊,并對MAML 結構增加2 個卷積模塊,同時采用2.3 節改進MAML 算法的元目標和參數更新.

3.1 算法思想

MAML 算法對小樣本的學習效率、準確率及收斂速度提升都相當可觀[22],其將圖像直接輸入網絡(4 個卷積模塊和1 個Linear 分類器)進行訓練來完成分類任務[22].然而,4 個卷積模塊和1 個Linear 分類器組成的網絡層數限制導致圖像特征提取能力有限.

基于深度卷積神經網絡的圖像分類任務,大量卷積層本質上是提取圖像的不同特征.經過深層卷積后的特征具有更高級的語義,更能體現圖像的抽象特征[27].因此,提出DL-MAML 網絡模型,將深度卷積神經網絡作為獨立的特征提取器來提取圖像特征,送入改進的MAML 算法的元學習模塊進行訓練,在整個訓練過程中,特征提取器的參數不更新.

DL-MAML 模型的貢獻在于:首先,對MAML 算法進行改進,不僅增加了模型層數,同時對MAML 算法的元目標函數增加了L2 正則項,優化元目標模型參數,得到DL-MAML 模型的元學習模塊.其次,DLMAML 模型的元學習模塊之前,增加了特征提取模塊,使元學習模塊能更多地關注到圖像的有用特征,從而在模型初始化參數學習方面更有針對性.

DL-MAML 模型如圖2 所示,包括特征提取模塊和元學習模塊2 部分.其中,特征提取模塊的主要任務是提取圖像特征,網絡訓練過程中,特征提取模塊的參數不更新,因此,特征提取模塊可看作是對輸入圖像的編碼.元學習模塊的參數在網絡訓練過程中依據2.3 節所述的改進MAML 算法,即式(5)不斷更新模型參數,網絡訓練最終得到元學習模塊的初始化參數 θ.

圖2 DL-MAML 模型Fig.2 DL-MAML model

3.2 元學習模塊

DL-MAML 模型的元學習模塊對MAML 算法進行了2 點改進:1)增加網絡層數,提高網絡的特征提取能力;2)元訓練的元目標函數中增加L2 正則化項,如式(4)所示,減少網絡對訓練數據的過擬合.

Finn 等人[22]提出的MAML 算法網絡結構圖如圖3 所示,包含4 個卷積模塊和1 個Linear 分類器.每個卷積模塊由卷積層(卷積層參數kernel 為3×3,stride 為1,padding 為0,filters 為32)、非線性激活函數ReLU(rectified linear unit)、 批量歸一化(batch normalization,BN)[28]和最大池化層組成.前3 個卷積模塊中的最大池化層大小為2×2,最后1 個卷積模塊中最大池化層大小為2×1.MAML 算法采用式(3)更新網絡參數.

圖3 MAML 網絡結構Fig.3 Network structure of MAML

DL-MAML 模型的元學習模塊在MAML 網絡基礎上增加2 個卷積模塊,如圖4 所示,即MAML 前4個卷積模塊參數保持不變,增加2 個由卷積層、非線性激活函數ReLU、批量歸一化BN 組成的卷積模塊,進一步增加元學習模塊的特征提取能力.該元學習模塊采用式(5)更新網絡參數.元學習模塊增加的第1 個卷積模塊的卷積層參數kernel 為3×3,stride 為1,padding 為0,filters 為512;第2 個卷積模塊參數kernel為3×3,stride 為1,padding 為0,filters 為1024.

圖4 DL-MAML 的元學習模塊網絡結構Fig.4 Network structure of meta-learning module of DLMAML

3.3 特征提取模塊

為了兼顧圖像的低級和高級抽象特征,選擇ResNet[29]網絡構建獨立的特征提取模塊,與原始ResNet不同的是:作為特征提取器,本文使用的ResNet 去掉了最后的全連接層(full connection).

ResNet 殘差模塊,一定程度上解決了網絡退化問題,使網絡能夠提取到圖像更高層次的抽象特征,能夠關注到輸入圖像在網絡不同層次的特征圖信息,從而得到一個融合的特征圖.本文選擇ResNet34 作為特征提取模塊,特征提取器中的殘差塊如圖5所示.

圖5 DL-MAML 特征提取器的ResNet 殘差塊Fig.5 ResNet residual block of DL-MAML’s feature extractor

3.4 損失函數

損失函數采用式(6)所示的交叉熵損失:

其中x(j),y(j)是采樣于的輸入輸出對.本文所涉及的所有損失計算均采用式(6).

3.5 評價指標

評價指標以元測試階段采樣自Dmeta-test的任務來測試經過訓練的DL-MAML 模型的初始化參數.設任務(j=1,2,…)采樣自Dmeta-test,DL-MAML 模型在的support set 上經過少量更新后(本文實驗設置更新次數為5),在的query set 上測試.

本文實驗為蝴蝶自動識別,即蝴蝶種類分類,采用的評價指標為式(7)所示的在元測試集Dmeta-test采樣的所有任務的平均分類準確率Accuracy.

其中M是在元測試集Dmeta-test采樣的總任務數,本文M=200,Accj是DL-MAML 對任務的query set 的預測準確率,計算方式如式(8)所示:

4 實驗及結果分析

本文采用開源深度學習框架PyTorch1.6.1 實現DL-MAML 模型,所有實驗均使用單GPU 加速網絡的學習以及訓練過程,顯卡型號為GeForce RTX 2080Ti.

4.1 數據集

實驗數據來自謝娟英等人[1-2]2018 年發表的蝴蝶生態照片數據集,含有生態照1 425 張,共111 類蝴蝶,其中17 種蝴蝶的生態照片只有1 張,多數種類的生態照片在20 張以內,每類蝴蝶至少有1 張生態照,最多有121 張.去除僅含有1 張生態照的蝴蝶樣本,用于實驗的數據共有1 408 張蝴蝶生態照片圖像,共94 類,數據分布如圖6 所示.

圖6 蝴蝶生態照樣本量分布Fig.6 Sample distribution of butterfly ecological photos

相比于常見的分類問題,該數據集包含類別多、樣本少,屬于小樣本分類,且各類別樣本的分布明顯不平衡.這些特點給分類算法帶來挑戰,然而本文的元學習實驗不存在類別不平衡問題.另外,本文只關注蝴蝶種類識別,實驗中裁掉蝴蝶生態照背景,得到不包含或者包含很少生態背景的蝴蝶生態照圖像.剪裁后的部分蝴蝶生態照如圖7 所示.

圖7 蝴蝶生態照部分樣本Fig.7 Several samples of butterfly ecological photos

元訓練集和元測試集按照7:3的比例劃分94 類蝴蝶,元訓練集共含65 類,元測試集包含29 類.元訓練集和元測試集無類別重合.本文對樣本量不足10個的類別,采用隨機旋轉進行數據增強,將樣本量擴充為10 個.所有圖像經過隨機裁剪并統一調整大小為224(高)×224(寬)×3(通道)的圖像.

4.2 實驗設置

本文實驗設置參考Vinyals 等人[20]提出的實驗方案.元訓練階段,每個任務隨機從元訓練集Dmeta-train選擇N個蝴蝶種類(本文N=5),從每個種類采樣2×K個實例,即每個任務包含2×N×K個實例,使用此N個種類中每個類的K個不同實例組成此任務的support set,則support set 包含N×K個實例,其余N×K個實例組成此任務的query set.元測試階段,每個任務隨機從元測試集Dmeta-test選擇N個蝴蝶種類,每個任務的support set 和query set 的設置方式與元訓練階段相同.本文稱此種采樣數據的方式為N-wayK-shot.其中,5-way 1-shot 實驗的元測試階段的數據集設置如圖8 所示,support set 從29 個用于測試的蝴蝶種類中隨機選擇了5 類,每類選擇1 個樣本.

圖8 5-way 1-shot 實驗的元測試數據集設置Fig.8 Dataset setting of the 5-way 1-shot experiment in meta test

本文實驗的N-wayK-shot 設置如表1 所示,共采用2 組:5-way 1-shot,5-way 5-shot.表1 所示的數據集劃分的第2,3 列表示在元訓練與元測試階段,每個任務包含的樣本數量,即每個任務的support set +query set 的樣本量.

Table 1 Data Division Results of Different Experiments for Each Task表1 不同實驗每個任務的數據劃分結果

4.3 正則項權重測試實驗

本節通過實驗測試,驗證提出的DL-MAML 算法的元學習模塊的改進元目標函數的正則項權重λ設置的合理性.實驗在本文改進的元學習模塊(MAML+2 Modules+L2)進行,分別將 λ設置為2,0.5,0.2,0.02 進行5-way 1-shot 實驗,此時λ/2分別為1,0.25,0.1,0.01.實驗結果如表2 所示.

表2 顯示,當 λ=0.2 時,DL-MAML 的元學習模塊的性能表現最好,因此本文后續實驗均設置 λ=0.2.

4.4 元學習模塊消融實驗

本節通過消融實驗驗證DL-MAML 算法的元學習模塊的2 處改進(對原始MAML 增加卷積模塊和改進元目標函數)的有效性,消融實驗結果如表3所示.表3 中的MAML 為Finn 等人[22]使用的模型以及更新策略,也就是式(3)的更新策略;MAML+2 Modules 為增加2 個卷積模塊的模型使用的原始更新策略,即式(3)的更新策略;MAML+L2 為使用MAML 模型,采用式(5)的更新策略;MAML+2 Modules+L2 為增加2 個卷積模塊的模型使用式(5)的更新策略,即DL-MAML 模型的元學習模塊.

Table 3 Accuracies of Butterfly Classification in Ablation Experiments of Meta Learning Module表3 元學習模塊消融實驗的蝴蝶分類準確率%

實驗超參數設置參考Finn 等人[22]的設置,實驗進行10 000 epoch,內循環的學習率 α=0.01,外循環學習率 β=0.001,batch size 設置為8,訓練階段每個任務內部進行5 次梯度更新,測試階段每個任務進行5 次梯度更新,測試階段每個任務的分類準確率為5 次梯度更新之后的平均準確率.訓練階段從元訓練集Dmeta-train采樣80 000 個任務進行訓練,測試階段從元測試集Dmeta-test采樣200 個任務進行測試.DL-MAML的元目標函數的L2 正則化項參數 λ=0.2.

由表3 可見,在5-way 1-shot 實驗中,分別增加卷積模塊、改進MAML 算法的元目標函數、同時增加卷積模塊和改進MAML 算法元目標函數這3 種策略均顯著提高了模型對測試任務的分類準確率.表3 還顯示,在5-way 5-shot 實驗中,無論是增加2 個模塊,還是給元目標函數增加正則化項,模型對測試任務的準確率都有提升,且同時增加卷積塊和在元目標函數中引入正則項所得模型的分類準確率提升最多.另外,表3 還顯示,在5-way 1-shot 實驗中增加卷積塊對模型性能的提升比改進元目標函數對模型性能的提升更強,但在5-way 5-shot 實驗中則相反.這說明本文改進的MAML 元目標函數和參數更新方法在內循環樣本更多時,帶來的更多參數微調能進一步提升模型性能.由此可見,本文對MAML 的2 處改進明顯提升了其性能.但是表3 還顯示,改進模型在5-way 5-shot 實驗的分類準確率的提升不及在5-way 1-shot 實驗的分類準確率的提升明顯.原因是5-way 5-shot 采用了更多來自新類別的樣本進行測試.

4.5 特征提取模塊消融實驗

本節基于DL-MAML 模型的元學習模塊,采用消融實驗驗證DL-MAML 模型的特征提取模塊的性能.元學習模塊參數設置與實驗超參數設置與4.4 節相同,圖像經過特征提取模塊之前大小為224×224×3,圖像經過特征提取模塊之后,圖像特征圖大小被調整為84(高)×84(寬)×3(通道)的圖像.

另外,將VGG 網絡作為特征提取器替換DLMAML 模型的特征提取器進行實驗比較,驗證本文以ResNet 網絡作為特征提取器的正確性.實驗結果如表4 所示,其中“DL-MAML特征提取”表示沒有特征提取模塊的改進MAML,“VGG-MAML”表示用VGG 網絡替換DL-MAML 模型的特征提取模塊,“DL-MAML”表示本文模型.

Table 4 Classification Accuracies of Feature Extraction Module in Ablation Experiments表4 特征提取模塊消融實驗的分類準確率%

表4 顯示,包含特征提取模塊的VGG-MAML 和本文DL-MAML 模型對測試任務的分類準確率都有提升,尤其是在5-way 1-shot 實驗的分類準確率提升顯著,在5-way 5-shot 實驗的分類準確率有提升但不及前者顯著.這說明DL-MAML 模型的特征提取模塊對DL-MAML 模型的性能提升有積極作用,但本文改進的MAML 元目標函數和對原始MAML 元學習模塊增加的卷積模塊的作用也不容忽視,特別是元目標函數和參數更新方法的改進對模型性能影響顯著,這在4.4 節的消融實驗已經得到驗證.

4.6 與其他元學習模型的比較

本文4.4 節和4.5 節實驗結果顯示,DL-MAML模型相比于MAML 算法在蝴蝶分類任務上表現較優.本節將比較DL-MAML 模型與其他小樣本分類方法的性能,對比實驗結果如表5 所示.

Table 5 Accuracies of Different Meta-Learning Models for Classifying Butterfly Species in the Field Environments表5 不同元學習模型對野外環境下蝴蝶的分類準確率%

表5 所有實驗均采用本文數據集以及本文4.1節數據劃分方式進行訓練與測試.對于Vinyals 等人[20]提出的基于度量的元學習方法matching nets,實驗超參數采用原文作者設置,使用余弦相似度度量;對于Ravi等人[21]提出的基于模型的元學習方法meta-learner LSTM,實驗超參數采用原文作者設置;MAML 算法超參數使用4.4 節設置;本文模型DL-MAML 超參數使用4.4 節設置.

表5 實驗結果顯示,DL-MAML 模型在元測試階段新任務上的蝴蝶分類準確率優于MAML 算法,特別是5-way 1-shot 實驗的分類準確率提升非常顯著,比MAML 模型高出17.38 個百分點;在5-way 5-shot 實驗的性能提升雖然不及5-way 1-shot 實驗,但分類準確率也提升了1.52 個百分點.因此可以說,DL-MAML 模型比MAML 算法可以得到更好的模型初始化參數以適應新任務,更好地實現了在新任務上的快速學習.

對比其他小樣本分類方法,DL-MAML 模型對野外環境下的蝴蝶物種識別也具有明顯優勢.盡管matching nets 方法在5-way 1-shot 實驗的性能優于meta-learner LSTM 和MAML,但遠不及DL-MAML.MAML 在5-way 5-shot 實驗的分類準確率優于matching nets 和meta-learner LSTM 方法.

對比DL-MAML 與MAML 算法可見,DL-MAML的特征提取模塊結合了深度網絡的特征提取優勢來彌補MAML 模型的特征提取不足;DL-MAML 模型的元學習模塊通過添加卷積模塊和增加正則項改進了MAML 算法的元目標函數和參數更新方法,在提升了MAML 算法表現的同時,避免了模型參數過擬合的風險,增強了模型快速適應新類的優點,有效解決了現有機器學習方法在野外環境下蝴蝶識別任務的泛化性問題.

4.7 原始圖像數據集的實驗

本文4.3~4.6 節所有實驗均采用剔除了背景的蝴蝶生態照圖像,但是盡管剔除了背景,圖像中依然包含部分背景.本節將在未剔除背景的原始蝴蝶圖像數據集進行實驗,以測試野外環境下的蝴蝶圖像背景對DL-MAML 算法性能的影響.實驗結果如表6 所示,其中MAML(org) 和DL-MAML(org) 表示在未剔除背景的蝴蝶生態照片數據集的實驗.

Table 6 Butterfly Classification Accuracies of Different Types of Ecological Images表6 不同生態照的蝴蝶分類準確率%

表6 顯示,MAML 和DL-MAML 算法在原始蝴蝶生態圖像的蝴蝶分類準確率均比它們在剔除了背景但還含有部分背景的蝴蝶生態圖像的分類準確率差10 多個百分點.這說明,野外環境下的蝴蝶圖像背景對模型的分類性能有直接影響.另外,表6 實驗結果還顯示,各模型在5-way 1-shot 實驗的性能均遠不如其在5-way 5-shot 實驗的性能,說明在元學習獲得了學習方法論之后,針對具體任務的參數微調對模型性能的影響很大.

此外,表6 的實驗結果還揭示,提出的DL-MAML算法使得圖像背景對模型性能的影響顯著降低,特別是在5-way 1-shot 實驗,使用原始圖像的元學習模型DL-MAML(org)的蝴蝶分類準確率比使用剪裁背景圖像的元學習模型MAML 的分類準確率高4.16 個百分點;同時,在5-way 5-shot 實驗,DL-MAML(org)模型的蝴蝶分類準確率比MAML(org)模型高8.71 個百分點.

5 結論與展望

本文提出了DL-MAML 模型,對MAML 模型進行改進,增加了深度特征提取模塊,同時對MAML 的元學習模塊增加了2 層特征學習模塊,并提出了L2正則項修正MAML 的元目標函數和模型參數更新方法.將提出的DL-MAML 模型應用于野外環境下的蝴蝶物種識別任務.消融實驗與其他小樣本分類模型的實驗比較表明,DL-MAML 模型極大提升了MAML元學習模型的分類準確率,從新的視角解決了野外環境下蝴蝶識別任務的泛化性問題,從更高的視角(即學會學習)實現了開放環境下的蝴蝶物種識別,使得面對新環境時,只需要簡單地訓練就可以得到性能很好的野外環境下蝴蝶物種識別模型.

然而,本文研究重點關注野外環境下的蝴蝶物種識別任務,沒有關注野外環境下的蝴蝶位置檢測.如何使用元學習同時實現野外環境下的蝴蝶位置檢測和分類,即用元學習解決野外環境下的蝴蝶物種自動識別這一具有挑戰性的目標檢測(蝴蝶位置發現和種類分類)問題是我們需要進一步研究的問題.

作者貢獻聲明:趙戈偉負責完成實驗并撰寫論文初稿;許升全提供數據,提出指導意見修改論文;謝娟英提出算法思路、實驗方案,并負責撰寫和修改論文.

猜你喜歡
特征提取蝴蝶卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于Daubechies(dbN)的飛行器音頻特征提取
基于傅里葉域卷積表示的目標跟蹤算法
Bagging RCSP腦電特征提取算法
為了蝴蝶
捉蝴蝶
捉蝴蝶
基于MED和循環域解調的多故障特征提取
找找看
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合