?

聯合SAM 與VGG16 的樹上柑橘檢測方法

2024-04-15 14:04重慶三峽學院江金輝
河北農機 2024年1期
關鍵詞:柑橘圖像目標

重慶三峽學院 江金輝

柑橘作為我國南方地區的主要經濟作物[1],其生產過程的現代化和智能化對其產業的發展有著非常大的意義。隨著人工智能、計算機視覺等技術的快速興起,諸如采摘機器人、分揀機器人等越來越多的智能農業機械應用到了柑橘的生產過程當中[2]。目標識別作為這些智能農用機械的“眼睛”,在設計和研發以及應用階段中都扮演了極為重要的角色。為了實現對柑橘果實的精準識別,國內外研究人員提出了許多解決方案。

黃河清等人[3]針對當前柑橘果實目標檢測模型多數需在服務器上運行,難以直接在果園部署且識別實時性較差等問題,設計了基于邊緣計算設備的便攜式柑橘果實識別系統,識別系統對柑橘果實的識別平均準確率達93.01%。易詩等人[4]基于特征遞歸融合YOLOv4模型,針對小個體柑橘、單株密集柑橘和遮擋柑橘進行檢測,檢測結果對于果園環境中春見柑橘的平均檢測精度達到94.6%。李揚[5]分別對單個柑橘目標和重疊目標進行了識別,并提出一種基于凸殼及距離變換理論的重疊柑橘目標識別方法。試驗結果表明,對于單個柑橘的識別,平均識別誤差為2.03%。對于重疊目標的識別,仿真試驗中的采摘中心點定位誤差為6.51%。徐利鋒等[6]提出基于改進DenseNet 多尺度特征提取模塊的水果檢測框架,在多尺度特征提取模塊中結合低層與深層特征的優勢,建立特征金字塔結構,在目標重疊框篩選任務中嵌入非極大抑制算法,但改進后的框架存在高內存占用率問題。李頎等人[7]為了實現果粒排列密集、相互遮擋的葡萄果實檢測,將金字塔結構及遮擋補償機制引入到ResNet50 網絡中,改善對遮擋果粒的識別問題。莊昊龍等[8]提出一種基于改進YOLOv5+Deep-Sort 的柑橘果實識別與計數方法,改進后的模型對于柑橘果實識別的平均準確率達到了93.712%。

可見,以深度學習方法解決果實識別問題是近幾年的主流熱門方法。但這些方法還存在一些問題:(1)深度學習方法對于數據量的需求較高。由于柑橘數據集并非通用數據集,因此其質量往往較為粗糙,同時數量上也相對較少,而深度學習模型通常需要大量標注數據進行訓練,除了會耗費大量人工標注時間外,獲取大規模的柑橘一類的果實圖像數據集也會面臨困難,這限制了深度學習方法在果實識別問題上的應用范圍。(2)深度學習方法在處理小樣本情況下表現欠佳。對于某些樣本數量較少的情況,深度學習模型可能面臨著過擬合或者無法充分學習的問題,導致目標漏檢、錯檢。

綜上所述,盡管深度學習方法在果實識別問題上取得了顯著的進展,但仍然面臨數據需求高、小樣本識別效果差等問題。

隨著深度學習大模型的發展,特別是SAM分割大模型的出現,在柑橘識別任務中提供了新的思路,該模型具備了足夠的通用性,可以涵蓋廣泛的用例,并且可以在新的圖像領域上即開即用,無需額外的訓練。在柑橘目標檢測任務中,我們認為可以先利用SAM大模型對柑橘進行分割,以實現對各個目標的準確定位,然后再對定位結果進行識別。經過實驗驗證,筆者的方法相較于僅使用通用檢測器進行柑橘檢測的方法表現更好,并且在實際應用中更加便捷,省去了復雜的數據集制作和調整的步驟。

1 模型架構

1.1 SAM 介紹

2023 年Meta 的Segment Anything(SA)項目孕育出了SAM(Segment Anything Model)。該項目構建了一個功能廣泛且適應性強的通用大模型,該模型能夠快速適應各種現有和新興的分割任務,如邊緣檢測、對象提議生成、實例分割以及從自由文本中提取對象等。模型結構如圖1 所示。

圖1 SAM 結構圖

該模型主要由三個部分組成:強大的圖像編碼器(MAE 預訓練的ViT)、提示編碼器(分為稀疏輸入和密集輸入)以及掩碼解碼器(使用自注意和交叉注意的提示圖像雙向變壓器解碼器)。此外,當輸入的提示信息不夠明確時,網絡會根據置信度對三種可能的掩碼輸出進行排序。在訓練中,使用的SA-1B 數據集包含超過十億個掩碼,為模型的訓練和評估提供了充足的高質量數據。實驗證明,SAM模型在各種分割任務上展現出了出色的性能和靈活性,無論是面對已知數據分布還是全新數據分布,SAM都能夠進行零樣本遷移,并取得令人矚目的效果。

1.2 VGG16 介紹

VGG16 是一個由牛津大學計算機視覺組開發的深度卷積神經網絡模型,具有16 層深度,結構如圖2 所示。在柑橘分類任務中,使用VGG16 模型具有以下優勢:(1)準確性高,VGG16 模型通過多層卷積操作能夠有效地提取圖像特征,從而提高了柑橘分類任務的準確性。(2)易于訓練:VGG16 模型的結構相對簡單且層次清晰,參數數量可控,因此相對容易訓練,適合應用于柑橘分類等中小規模任務。(3)應用范圍廣,作為經典的深度學習模型之一,VGG16 在業界擁有廣泛的應用和研究基礎,相關的開源實現和優化技巧豐富,便于使用者參考和借鑒。

圖2 VGG16 結構圖

綜上,將VGG16 模型應用于柑橘分類任務中能夠帶來較高的準確性、良好的泛化能力和相對簡單的訓練過程,是一種有效且可靠的選擇。

2 實驗過程與結果分析

2.1 數據集

在目標檢測任務中,傳統方法通常需要人工采集、制作大量的數據集,再將數據集按比例劃分為訓練集、驗證集、測試集,利用龐大的數據集輸入到網絡模型中進行長時間的訓練,以求達到良好的檢測效果。而在分類任務中,分類數據集的制作相對簡單且模型對數據集的需求量少,并且對于簡單二分類任務而言,所需訓練時長較短。本文實驗方法的優勢在于僅需要簡單的類別標定制作分類數據集,無需傳統檢測方法那樣標注包圍框。

本文數據集所用柑橘圖像均采集于重慶市萬州區某果農自種果園,在不同的天氣狀況、光照環境、拍攝角度、遠近距離的條件下進行拍攝,經過對數據集的初步篩選,剔除不含柑橘或難以標記的樣本后選取了1200 張柑橘圖片樣本。部分圖像如圖3 所示。

圖3 柑橘圖像

對柑橘圖像篩選完成后,為了測試本文方法的應用性能,筆者利用Labelme 工具進行標注,制作了包含1000 張柑橘圖片樣本的數據集。將剩余200 張圖像進行處理后,制作了包含柑橘與非柑橘兩類的分類數據集,該分類數據集用于訓練分類器。

2.2 實驗流程

本文實驗總體流程如圖4 所示。將柑橘圖像輸入到SAM后,通過對SAM模型參數進行調整,生成分割目標小圖像以及基于原圖的編號和定位信息,再將從原圖上裁剪出的目標小圖像輸入到微調后的VGG16分類模型中,分類器將類別為“orange”的圖像編號返還到原圖上生成檢測目標框。

圖4 實驗流程

2.3 實驗結果

本文對比實驗選取了YOLOV4 原始模型,將標注過的1000 張柑橘圖像數據集按照6:2:2 的比例劃分為模型訓練集、驗證集、測試集,輸入到YOLOV4 模型中進行訓練,其實驗結果作為本文方法的對照組。

將本文方法記為SAM-VGG16,在這一部分中,我們將本文方法的檢測結果與測試集進行計算,得到該實驗方法的mAP。兩種方法的mAP 結果對比如下表:

通過結果對比,筆者發現本文方法可以利用少量的分類數據集實現柑橘檢測任務,比經過訓練的yolov4模型效果高出1.4%。由此,筆者認為,本文的方法在缺少實驗樣本的條件下達到了柑橘目標檢測任務的要求,能夠避免在缺少數據集時無法進行訓練識別的問題,在識別效果上也能夠為下一步的采摘任務提供支持,為柑橘識別項目提供了另一種思路。

3 討論

針對自然環境下樹上柑橘數據集難以獲取、數據集人工標注難度大等問題,本文提出一種聯合SAM與VGG16 模型的柑橘檢測方法。該模型通過SAM將輸入圖像進行分割,然后將分割后的結果輸入到VGG16 分類模型中,對圖像中的柑橘目標進行識別,實驗結果表明,該方法能夠在數據集數量不足、質量不好或者沒有數據集的情況下,仍能夠在柑橘目標檢測項目中達到不錯的效果。當然,該實驗方法也存在一些有待改進的地方,例如由于SAM大模型的加入使模型推理速度變慢、分類器是否有更合適的模型、該方法在其他檢測任務中是否具有同樣的零樣本泛化能力等,在后續的實驗過程中我們將進行更深一步的探索。

猜你喜歡
柑橘圖像目標
改進的LapSRN遙感圖像超分辨重建
吃柑橘何來黃疸——認識橘黃病
有趣的圖像詩
柑橘大實蠅綜合治理
“五及時”柑橘凍害恢復技術
我們的目標
柑橘實蠅防治一法
遙感圖像幾何糾正中GCP選取
趣味數獨等4則
中學英語之友·上(2008年2期)2008-04-01
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合