?

基于改進Mask R-CNN 的番茄莖稈分類方法

2023-03-08 06:32項榮張茂琛
關鍵詞:掩膜主莖莖稈

項榮,張茂琛

(中國計量大學 質量與安全工程學院,浙江 杭州 310018)

農業機器人是實現農業自動化的重要方式,而視覺系統是農業機器人實現作業目標自動識別和定位的主要部件.目前農業機器人視覺系統研究多集中于果蔬識別[1-5],對果蔬植株其他器官尤其是莖稈的識別研究較少.實現果蔬植株莖稈識別是農業機器人實現對靶噴施、剪枝、疏葉、成簇采摘等作業自動化的前提[6-7],同時也有助于實現農業機器人作業時的自動導航和避障[8].

傳統的果蔬植株器官識別方法主要應用于場景簡單[9]、與背景異色的目標識別.在目標與背景近色,存在遮擋、重疊及光照不均勻的復雜應用場景中,其目標識別正確率不高[10].與傳統的莖稈識別方法相比,深度學習方法識別正確率更高,受環境因素影響更小,在復雜場景下的果蔬植株器官,尤其是與背景近色的果實識別中得到了廣泛應用[11].然而,當前基于深度學習的植株莖稈識別方法研究主要集中于主莖或與其他器官異色的樹枝的識別[12-13].比較而言,與背景近色的果實個體輪廓分界分明,形狀相對規則,與背景異色的樹枝,顏色特征鮮明,而番茄莖稈相互貫通,形狀呈細長的近似直線或不規則弧線,且與葉片等背景顏色相近,識別難度大.

Mask R-CNN(Mask Region-Convolutional Neu?ral Network)作為一種可對多個目標同時進行分割和識別的深度學習框架[14],在植株器官識別中已得到初步應用[15-16].本文針對日間自然光條件下和夜間主動照明條件下番茄植株不同區域光照條件不一致、莖稈與其他器官近色等帶來的番茄莖稈的分類難題,提出了一種基于改進Mask R-CNN 的番茄莖稈分類方法.基于最小外接矩提取算法對Mask RCNN 模型的Mask 分支進行了改進,使其在生成莖稈掩膜的同時生成對應的最小外接矩,同時提出了用于實例分割深度學習模型綜合性能評價的像素級評價指標和掩膜邊框精確率評價指標Re,以提高實例分割深度學習模型性能評價的準確性.

1 試驗材料和方法

1.1 試驗材料與設備

1.1.1 試驗材料與圖像采集

試驗材料為溫室大棚中種植的虹越大番茄植株.分別采集了日間和夜間番茄莖稈圖像.

參照文獻[17],夜間照明系統如圖1(a)所示,其中ACDF長×寬為700 mm×600 mm.通過開關 控制可實現不同的光源布局.圖像采集系統實物如圖1(b)所示.使用PointGreyResearch 公司的 Bumblebee2型雙目立體相機進行夜間番茄植株圖像采集.相機安裝于三腳架,通過1394 連接線和采集卡MOGE1394 與計算機相連.所用計算機為DELLE4300,內存2GB,CPU 為IntelCore2DuoP9400,操作系統Windows7.圖像存儲為JPG 格式(800 像素×600像素).

圖1 夜間圖像采集系統Fig.1 Night image acquisition system

2018 年6―7 月使用兩盞2W LED 對角布局(AF)在溫室大棚采集夜間番茄植株圖像192 幅;2019 年6―7 月使用兩盞1W LED 對角布局(AF)在溫室大棚采集夜間番茄植株圖像272 幅,使用四盞1W LED 四角布局(ACDF)采集圖像63幅.2021年8月采集日間番茄植株圖像,其中于7:00―11:00 采集圖像106 幅,于14:00―18:00 采集圖像107 幅.圖像采集距離為300~600 mm.

1.1.2 深度學習軟硬件環境及數據制備

使用聯想拯救者R7000p 筆記本電腦進行深度學習模型訓練和測試,其內存16 G,CPU為AMD Ry?zen 7 4800H with Radeon Graphics,顯卡為NVIDIA RTX 2060.操作系統Windows 10,基于Python,使用深度學習框架Tensorflow 1.6.0 和Keras 2.1.6 搭建深度學習環境.

使用自制的莖稈分類數據集對Mask R-CNN 模型進行訓練.以夜間莖稈分類數據集的制作為例,方法如下:使用標注軟件labelme 4.2.0對圖像中莖稈輪廓進行標注,根據莖稈的生長位置將莖稈分為主莖和側枝.主莖是直接生長在地面上的莖稈,豎直向上生長,較為粗壯,其標簽為main stem.側枝為生長在主莖上的莖稈,以主莖為中心向外側生長,其標簽為firstary side branch,如圖2 所示.圖像中的過暗莖稈、曝光莖稈不予標注.由于葉片、支撐桿、繩子等雜物的遮擋以及曝光等環境因素的影響,番茄莖稈被分割為若干大小不等的片段,因此每幅圖像中標注的平均莖稈對象數為5~20個.

圖2 莖稈分類示例Fig.2 Example of stem classification

對夜間采集所得529 幅圖像進行翻轉、平移等操作實現數據增強后,按比例劃分獲得的訓練集含1 012 幅圖像,驗證集含200 幅圖像,測試集含109 幅圖像,3 個數據集含標注莖稈對象數合計超 16 000個.

日間莖稈分類數據集的制作類似.標注完成后,經數據增強、按比例劃分后得到的數據集含訓練集圖像567幅,驗證集圖像47幅,測試集圖像24幅.

1.2 番茄莖稈Mask R-CNN分類方法

1.2.1 番茄莖稈Mask R-CNN分類模型

如圖3 所示,基于Mask R-CNN 的番茄莖稈分類模型結構可分為三部分.

圖3 Mask R-CNN結構圖Fig.3 Structure diagram of the Mask R-CNN

1)主干網絡ResNet-FPN,是共享卷積層,用于提取輸入圖像的特征以生成特征圖.選用殘差網絡ResNet-101(Residual Network-101)結合特征金字塔網絡FPN(Feature Pyramid Networks)作為主干網絡,FPN 主要解決了目標檢測中的多尺度檢測問題.通過自底向上的卷積神經網絡得到四級特征圖P2、P3、P4、P5,使用自頂向下和橫向連接的方法將四組特征圖融合起來,融合后的每層網絡都具有深層次和淺層次的特征.

2)區域建議網絡RPN(Region Proposal Net?work),用于生成可能含有檢測目標的感興趣區域RoI(Region of Interest).RPN 涉及的特征圖來自FPN 中金字塔特征層,首先由P5 下采樣得到P6,再分別在P2~P6 中提取5 種不同尺度,長寬比分別為0.5、1 和2 的總計15 種可能含有檢測目標的矩形框anchor 作為RoI,然后對生成的anchor 進行分類和回歸.

3)三分支,用于回歸檢測物體的類別class、邊界框Bbox(Bounding box)及掩膜Mask.其中,邊界框Bbox 是一個內含預測對象,且邊與圖像邊平行或垂直的矩形.掩膜Mask 是在使用選定的圖像、圖形或物體,對處理的圖像(全部或局部)進行遮擋,來控制圖像處理的區域或處理過程中,用于覆蓋的特定圖像或物體.Mask 分支最后一層輸出掩膜類別設置為2類(主莖和側枝).

Mask R-CNN的損失函數為[18]:

式中:Lcls為分類損失,指的是RPN在預測anchor時分類是否正確的二分類平均交叉熵損失;Lbox為邊界框回歸損失,指的是每個邊界框結果與真實邊界框之間各個偏移量之和的平均交叉熵損失;Lmask為掩膜預測損失,將每個預測掩膜與人工標注前景各像素進行比較,其結果經過sigmoid 函數,最后計算平均交叉熵損失.

為了解決小樣本數據集訓練效果較差、收斂時間較長的問題,引入遷移學習的思想.遷移學習是指使用現有數據集,對為實現其他任務而訓練得到的深度學習模型的各項參數進行微調(fine-tuning)得到目標模型[19].與傳統訓練方法相比,遷移學習可以減少模型訓練所需時間,加速模型收斂速度,在使用樣本數量較小的數據集進行訓練時可有效避免模型的過擬合.利用MS COCO(Microsoft Common Ob?jects in Context)數據集上預訓練好的參數模型對Mask R-CNN 進行初始化,結合完成標注的番茄莖稈分類數據集對整個網絡層進行微調,獲取番茄莖稈分類模型.

1.2.2 基于最小外接矩提取算法的Mask分支改進

Mask R-CNN 對目標進行像素級分割,在生成掩膜的同時生成Bbox 作為掩膜的邊框.Bbox 內往往包含大量冗余的背景信息.通過調用Numpy、OpenCv_Python(cv2)中函數,對Mask R-CNN 網絡三分支中的Mask 分支進行了改進,使模型生成掩膜的同時生成其最小外接矩.其中,一個凸多邊形的最小外接矩是指外接該凸多邊形且面積最小的矩形.使用最小外接矩作為掩膜的新邊框可有效減少邊框內的背景信息,更為精確地反映莖稈掩膜的輪廓和位置.

Mask 分支掩膜最小外接矩提取算法流程如圖4所示.首先,針對輸入Mask 分支的每個RoI 生成掩模二值圖,對每張二值圖的尺寸進行調整并將其映射到一幅空白圖像上.然后,提取每幅圖像中掩膜的坐標,據此生成其最小外接矩坐標.最后,將掩膜及其最小外接矩繪制到原圖像中,得到一幅含掩膜及其最小外接矩的預測圖像.

圖4 掩膜最小外接矩提取算法流程Fig.4 Algorithm for the extraction of the minimum external moment of masks

為比較Mask 分支改進前后掩膜邊框的精確性差異,提出了一種掩膜面積與其邊框面積比的評價指標Re,如式(2)所示:

式中:N為測試集中被模型識別出的目標數;SMask(i)為第i個目標對應掩膜的面積,其中1≤i≤N;SRect(i)為第i個目標的掩膜邊框面積.

1.2.3 像素級Mask R-CNN性能評價指標

當前實例分割評價指標多為基于交并比IOU(Intersection over Union)的目標級評價指標,IOU 計算如式(3)和圖5所示:

圖5 IOU計算原理Fig.5 The calculation principle of IOU

式中:SD∩G為圖中D與G的交集面積;SD為圖中D的面積;SG為 圖中G的面積.

IOU 計算完成后對其大小進行判定,若其大于預設閾值且預測對象與真實對象標簽一致,則該對象預測正確.根據預測正確的對象數目計算模型的精確率、召回率、F1值等目標級評價指標[20-22].目標級評價指標適用于目標檢測深度學習模型的性能評估,但無法準確評價實例分割深度學習模型性能.基于實例分割模型性能評價的關鍵是判斷模型對目標區域分割的正確性,本文提出了像素級實例分 割模型評價指標,包括:像素精確率PP、像素召回率PR、像素F1值PF1score和像素平均正確率PAP,分別如 式(4)~(7)所示.

式中:PTP為掩膜的真陽性像素數,表示和人工標注前景重合的掩膜像素數;PFP為掩膜的假陽性像素數,表示背景被誤判為前景的掩膜像素數;PFN為掩膜的假陰性像素數,表示前景被誤判為背景的掩膜像素數.

式中:M為測試圖像數目.

為評價多類別對象實例分割模型的性能,基于目標級全類平均正確率mAP提出了像素級全類平均正確率PmAP.當模型識別對象僅有1 種類別時,PAP和PmAP等價.

1.2.4 Mask R-CNN分類模型訓練

夜間番茄莖稈分類模型訓練步驟如下:

1)設置模型配置參數,包括RPN 的anchor 尺度、學習率、迭代步長等.

2)加載預訓練好的MS COCO 模型參數,開始 訓練.根據模型損失值loss 的變化規律,重復步驟1)~2)直至得到最優配置參數.

3)以夜間莖稈分類訓練集對Mask R-CNN 模型進行迭代,每進行完1 輪迭代后輸出模型當前的損失值loss和權重文件.迭代100輪后,完成訓練.

4)使用測試集對模型性能進行測試.

最優模型參數設置為:模型訓練的學習率為0.001,動量因子為0.9,權重衰減系數為0.000 1,每輪迭代步長為506,Batch Size 為2.RPN 的anchor 尺度為8、16、32、64和128.

日間莖稈分類模型使用日間莖稈數據集進行訓練與測試,其訓練步驟和參數設置均與夜間莖稈分類模型相同.

2 試驗結果與討論

2.1 基于像素級評價指標的分類性能分析

為驗證像素級評價指標的有效性,以夜間番茄莖稈分類測試集圖像為例進行分析.測試圖像、預測結果及人工標注的莖稈分類真實結果Ground Truth的對比如圖6所示.

圖6 測試圖像、預測結果及Ground Truth二值圖對比Fig.6 Comparison of test image,predicted image,and binary image of Ground Truth

由人工定性評價圖6(b)和圖6(c)可見,模型對于該圖像莖稈的分類效果較好.分別使用目標級評價指標和像素級評價指標對圖像預測結果進行評價,目標級F1值F1score 為30.30%,mAP 為30.20%,像素級F1值PF1score為70.23%,PmAP為67.99%.可見,像素級評價指標與定性評價結果一致性更高,能更精確地反映番茄莖稈分類模型性能.

為定量評價模型性能,分別使用夜間和日間莖稈分類數據集對模型進行測試,結果如表1 所示.可見:目標級評價指標值顯著低于像素級評價指標值,結合圖6,進一步驗證了像素級評價指標的有效性;像素召回率與像素精確率存在較大差距;日間番茄莖稈分類模型的像素F1值和像素全類平均正確率均高于夜間分類模型,說明日間莖稈分類模型性能優于夜間分類模型.

為與其他分類模型進行性能對比,分別使用支持向量機SVM(Support Vector Machine)、基于遷移學習的YOLACT(You Only Look At CoefficienTs)訓練番茄莖稈分類模型.支持向量機SVM是一類按監督學習方式對數據進行分類的廣義線性分類器[23].YOLACT 在目標檢測模型YOLO(You Only Look Once)的基礎上添加Mask 分支,繼承了YOLO 系列目標檢測模型訓練耗時短、識別速度快的優點[24].SVM 屬于傳統圖像分割算法,無法使用目標級評價指標.對比表1 中的測試結果可見,Mask R-CNN 莖稈分類模型性能最優.莖稈分類錯誤包括漏識別、分割不精確和誤識別,如圖7所示.

表1 不同數據集莖稈分類試驗結果Tab.1 Test results of stem classification of different data sets

漏識別,即未識別出莖稈,如圖7(a)所示;分割不精確,即生成的掩膜未精確地覆蓋莖稈,如圖7(b)所示;誤識別,即莖稈識別錯誤,包括將背景識別為莖稈,將主莖識別為側枝等,如圖7(c)所示.分析原因,包括:

圖7 識別與分割錯誤示例Fig.7 Examples of recognition and segmentation errors

1)番茄莖稈分類數據集中標注的莖稈對象數量龐大,不同莖稈對象,即使是同類莖稈,其長度、直徑、形狀、顏色、亮度、清晰度等存在較大差異,Mask R-CNN學習同類莖稈共同特征的難度極大.

2)圖像中存在曝光和光照過暗莖稈區域.一方面,存在曝光或光照過暗的標注莖稈對象數目較少,使模型難以學習該類莖稈的特征.另一方面,曝光或光照過暗使得莖稈的顏色特征缺失,進而導致其大小、形狀等特征也缺失,導致模型性能下降.

3)莖稈與葉片、未成熟果顏色差異小,且部分細長葉片區域與莖稈區域形狀相似,部分圖像背景中含非番茄綠色植株,增大了模型分類難度.

4)莖稈區域光照不均勻,使同一莖稈不同區域顏色特征存在較大差異,造成部分莖稈區域被誤判為背景,產生分割不精確的錯誤.

為檢驗番茄莖稈分類模型對不同類莖稈的分類性能,分別使用夜間和日間莖稈分類模型對相應測試集中的2類莖稈進行檢測,結果如表2所示.

表2 測試集不同種類莖稈分類試驗結果Tab.2 Classification results of different types of stalks in the test set

由表2 可知,無論是夜間還是日間莖稈分類模型,主莖分類性能均優于側枝.此外,日間莖稈分類模型對主莖的分類性能優于夜間模型,對側枝的分類性能較差,可能原因如下:

1)主莖較粗,生長方向豎直向上,特征明顯.日間光照充足且相對均勻,降低了主莖分類難度.

2)側枝較細,生長方向具有隨機性,難以學習其共同特征.日間圖像中含有大量綠色非番茄植株,增大了模型對側枝的分類難度.

為測試在不同光照條件下的莖稈分類模型性能,將測試集按照光照條件進行劃分,使用莖稈分類模型進行測試,結果如表3所示.

表3 不同圖像采集條件下莖稈分類試驗結果Tab.3 Test results of stem classification under different image acquisition

由表3 可見,對于夜間莖稈分類模型,1W LED條件下的莖稈分類性能更優.可能是由于相較于2W LED,1W LED 條件下莖稈表面照度適中,曝光區較少,降低了模型對主莖和側枝的分類難度.

為驗證夜間莖稈分類模型在不同光照條件下的泛化能力,測試了模型對1W LED 四角布局(ACDF)光照條件下采集的63 幅圖像的莖稈分類性能,結果如表3 所示.可見,在該光照條件下,模型分類性能與1W LED 對角布局光照條件相近.該結果表明模型在不同的光照條件下具有一定的泛化能力.

對于日間莖稈分類模型,當圖像采集時間段為9:00―11:00 時,像素F1值和像素全類平均正確率 要優于其他時間段采集的圖像.可能原因為:在 9:00―11:00 時段,由于太陽持續升高,光照逐漸變強卻不強烈,為莖稈表面提供了適宜光照,從而減少了莖稈區域的曝光和陰影,為模型提供了更多的莖稈特征.

2.2 基于掩膜邊框精確率的性能分析

Mask 分支改進前后模型預測結果對比如圖8 所示.使用Re對改進前后模型的掩膜邊框精確率進行評估,結果如表4所示.

表4 Mask分支改進前后不同數據集掩膜邊框精確率對比Tab.4 Comparison of mask border accuracy of different datasets before and after Mask branch improvement

結合圖8 與表4 可知,改進后莖稈分類模型的Re有了顯著提升,預測結果內包含的無用背景信息顯著減少,掩膜邊框的精確率有了明顯提升.

圖8 Mask分支改進前后模型預測結果對比Fig.8 Comparison of model prediction results before and after Mask branch improvement

由表4 可知,夜間莖稈分類模型的掩膜邊框精確率優于日間,可能原因是日間莖稈分類模型的分割不精確問題較夜間嚴重,對莖稈掩膜生成最小外接矩作為新邊框時,框內包含較多背景信息,導致日間莖稈分類模型的Re相對較差.

2.3 實時性能分析

以夜間莖稈分類測試集的100 幅圖像對夜間莖稈分類模型的實時性進行測試.共計耗時30.20 s,平均每幅圖像耗時0.31 s,其中最長耗時為0.39 s,最短耗時為0.26 s,說明本文提出的番茄莖稈分類模型具有較強的實時性.

3 結論

本研究對日間、夜間相互貫通、形狀呈細長的近似直線或不規則弧線、與葉片等背景顏色相近的目標分類方法研究具有參考價值,可為剪枝機器人的研發提供方法基礎,主要結論如下:

1)對Mask R-CNN 模型的Mask 分支進行了改進,使模型在生成掩膜的同時生成最小外接矩,可有效減少分割結果中冗余的背景.

2)基于遷移學習訓練的日間、夜間番茄莖稈分類模型,可實現日間、夜間番茄主莖和側枝的正確分類.

3)與常用的目標級評價指標相比,像素級評價指標和掩膜邊框精確率評價指標Re可更準確地評價實例分割模型的綜合性能.

猜你喜歡
掩膜主莖莖稈
不同來源小麥品種主要產量性狀的比較分析
金蕎麥收集系株型相關性狀遺傳變異分析
利用掩膜和單應矩陣提高LK光流追蹤效果
水稻莖稈接觸物理參數測定與離散元仿真標定
甘藍型油菜雙主莖YD 4899的選育及表型性狀比較分析
寬周期掩膜法HVPE側向外延自支撐GaN的研究
谷子莖稈切割力學特性試驗與分析
施肥量與施肥頻率對紫花苜蓿莖稈直徑及長度的影響
光纖激光掩膜微細電解復合加工裝置研發
馬鈴薯品種‘荷蘭15號’主莖密度與植株性狀及塊莖產量的關系
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合