?

深度學習算法下的采摘機器人系統優化研究

2024-01-09 09:46張軍凱韓俊先程龍雪
農機化研究 2024年4期
關鍵詞:錨框池化層圖像識別

張軍凱,李 欣,韓俊先,趙 娟,程龍雪

(河北機電職業技術學院 電氣工程系,河北 邢臺 054000)

0 引言

蘋果作為一種深受大眾喜愛的水果,在我國種植面積廣泛,但由于蘋果生長位置較高,需要進行登高采摘,勞動強度較大[1-2]。隨著城鎮化進程的加劇,大量的農村勞動力涌入城鎮就業,從事農業生產的人口規模逐漸減小[3],故缺乏勞動力和高強度的蘋果采摘勞動形成了一對鮮明的矛盾,而實現蘋果采摘自動化成為解決該矛盾的有效手段。目前,蘋果采摘系統廣泛采用圖像識別技術。傳統的圖像識別需要將圖像進行灰度化處理和圖像分割,進而確定蘋果位置[4-5];但不同天氣的光照強度直接影響著圖像分割精度,故傳統的圖像識別技術不能有效適應所有地形和天氣情況。本系統基于改進型深度學習網絡,具有很強的環境適應能力[6-7],同時改進型深度學習網絡可以有效降低學習樣本量,提高識別經度;采用單目視覺系統和激光測距器可實現蘋果定位,采用雙反饋系統對采摘機械臂進行控制。測試結果表明,系統具有良好的圖像識別精度和采摘機械手控制精度。

1 系統組成

為了實現蘋果的自動化采摘,基于深度學習網絡設計了蘋果自動采摘系統,如圖1所示。其中,電瓶為整個系統供電,中央控制器完成行走系控制、機械臂控制和深度圖像識別與目標蘋果定位。中央控制器通過后輪驅動器和前輪驅動器控制后驅動輪和前驅動輪,實現采摘系統的移動;機械臂通過水平舵機實現水平轉動,大臂舵機和小臂舵機實現采摘機械臂的關節運動,小臂伸長氣缸實現采摘終端的前后移動,采摘終端配有采摘器、攝像頭和激光測距器。

工作時,攝像頭采集蘋果圖像,在中央控制器完成深度學習,識別圖像中蘋果區域;激光測距器完成距離測定,進而實現目標蘋果圖像坐標向空間坐標的轉換;根據視覺定位系統得到的目標蘋果空間坐標位置,中央控制器調整機械臂舵機與氣缸伸長量,完成采摘終端向目標蘋果的轉移,實現采摘;中央控制器控制行走底盤,向下一處采摘地點轉移。

圖1 系統組成Fig.1 Structure of system

2 圖像預處理

CCD攝像頭采集圖像是進行整個分析過程的基礎,但由于光照強度及天氣等原因會對采集到的圖像造成干擾,因此需要對CCD攝像頭采集的圖像進行濾波處理,降低自然環境因素對于圖像的影響。

CCD攝像頭采集到的蘋果枝頭的圖像如圖2(a)所示。由于光照的影響,在蘋果葉片邊緣出現模糊,同時蘋果的果實上出現葉片影子的暗區域以及陽光直射造成的明亮區域。采用目前的主流降噪方法(即均值濾波、高斯濾波和中值濾波)對圖像進行預處理,均值濾波[8]結果如圖2(b)所示。由圖2(b)可知:整張圖片明顯發亮,對于蘋果果實上的暗區域和亮區域調整效果明顯,但整張圖像趨于模糊。高斯濾波[9]結果如圖2(c)所示。由圖2(c)可知:葉片邊界趨于清晰,果實整體色調趨于統一。中值濾波[10]結果如圖2(d)所示。由圖2(d)可知:葉片邊緣出現模糊情況,同時果實存在色調、亮度不統一問題。因此,選用高斯濾波作為圖像預處理算法。

圖2 圖像預處理Fig.2 The preprocessing for image

3 基于深度學習的蘋果圖像識別

傳統的圖像識別技術是將圖像灰度化處理后進行圖像分割,進而得到圖像的邊界信息,整個過程采用灰度化算法、二值化算法和邊界算法固定,對環境變化的適應能力差;深度學習的圖像識別技術是在全彩色狀態下對圖像進行分析,具有自主識別的特點,深度學習算法具有適應能力強、準確度高的特點。因此,本系統在經典VGG16深度學習網絡[11-12]上進行優化,以提高識別速度和精度。

傳統卷積深度學習網絡分為卷積層、池化層、全連接層等。其中,卷積層作用為輸入圖像和卷積核進行卷積運算得到的結果,在池化層完成圖像降維,實現特征的提取;卷積層、池化層進行多次重復設置,最終實現圖像特征提取,在全連接層特征圖像得到整合,進而完成圖像特征提取[13-14]。

建立整個網絡的損失函數,用來表征預測值與實際值的差距。輸入圖像從輸入層進入網絡,經歷多個卷積層和池化層后,在全連接層實現圖像特征提取,同時計算損失函數,完成正向學習過程;利用損失函數對每個卷積層參量進行梯度計算,得到結果用于優化卷積層參量,完成逆向學習。

目前,主流的深度學習網絡為VGG16網絡,其網絡特點為卷積層和池化層結構單一,由16層結構相同的卷積層和池化層組成。其中,卷積層中卷積核大小為3×3,填充量為1;池化層窗口為3×3,步幅為2。由于將圖像進行統一卷積處理,造成學習周期較長,因此在其基礎上進行改進,改進后深度學習網絡結構如圖3所示。由圖3可知:在VGG16最后一層卷積池化層后,增加區域推薦網絡;將區域推薦學習網絡學習得到的特征圖和VGG16得到的卷積特征圖,在Roi Pooling池化層進行融合,完成特征圖像大小的格式統一,而后進入全連接層,完成特征圖像的邊界框預測和類別預測。整個優化學習網絡的核心為區域推薦學習網絡和Roi Pooling池化層。

圖3 基于VGG16的深度學習優化網絡Fig.3 The deep learning optimization network based on VGG16

區域推薦網絡的卷積層填充數為1,通道數為256;以每個像素為中心,建立大小不同的方形區域(即建立錨框),每個錨框具有256個通道。建立背景分類器,原理如下:①計算每個錨框預測概率p,按照預計概率p由大到小將此類錨框進行排列,得到一次向量L;②將預測概率p最大的錨框與其他本類錨框進行交并比計算,將大于閾值的非基準錨框剔除;③按照步驟②方法,將預測概率p第2大的錨框與本類錨框進行交并比計算,將大于閾值的非基準錨框剔除;④重復步驟②和步驟③,直到向量L中的所有錨框的交并比均小于閾值為止,剩下的錨框即為預測錨框。區域推薦網絡的損失函數為

(1)

VGG16學習網絡得到的卷積特征圖像,經過區域推薦網絡后大小發生變化;Roi Pooling池化層的作用為實現不同大小的圖像融合,即完成VGG16學習網絡特征圖像并和經過區域推薦網絡的特征圖像的融合。Roi Pooling池化層原理如下:假定輸入前圖像大小為16×16,輸出標準大小為8×8,過程為將16×16平均分為2×2的8個區域,每個區域取最大特征值,進而構成大小為8×8的標準圖像。

對改進型學習算法和VGG16學習網絡進行比較,測試兩種深度學習網絡達到穩定預測值所需要的樣本容量和穩定預測值精度,采用AP值來表征穩定預測精度,即

(2)

其中,P為預測準確度;R為預測樣本召回度。

改進型學習算法和VGG16學習網絡穩定預測值及所需樣本量如圖4所示。

圖4 改進型學習算法性能對比Fig.4 The performance comparison for improved learning algorithm

其中,VGG16網絡達到的穩定準確率AP值為0.855,穩定所需樣本量為13;改進型學習網絡能達到的穩定準確率為0.92,穩定所需樣本量為11。結果表明:改進型學習網絡在學習速度和準確率上均優于VGG16網絡。

4 蘋果定位與采摘控制

攝像頭采集的圖像通過改進型深度學習網絡,得到蘋果的特征邊界。采用圖像定位的方法,根據圖像中蘋果位置,計算實際環境中蘋果的位置坐標,進而控制采摘機械臂,完成蘋果的采摘。其中,蘋果定位系統采用單目圖像定位系統配合激光測距方案[15],采摘機械臂采用雙反饋控制系統。

4.1 蘋果視覺定位

蘋果視覺定位系統如圖5所示。圖5中,蘋果空間坐標P(X,Y,Z)在成像平面內,已知整個圖像的中心坐標為O(u0,v0),P點在成像平面的投影點為P1(u,v),則投影平面內P1點到O點的坐標增量為Δu和Δv,則

(3)

其中,du和dv為水平方向和豎直方向像素點間距對應的實際距離(mm/pixel)。

圖5 蘋果視覺定位Fig.5 The visual positioning for apple

由相似三角關系可知,蘋果空間坐標P的水平坐標和豎直坐標與成像平面水平坐標和豎直坐標增量的關系,即

(4)

其中,f為攝像頭焦距;Z為攝像頭鏡頭到蘋果位置之間的距離,由激光測距儀檢測得到。

4.2 機械臂采摘控制

通過視覺系統計算目標蘋果的空間位置坐標P,機器人控制器比對目標蘋果位置坐標和采摘終端位置坐標,通過逆運動學方程調整機械臂各關節舵機和小臂伸長氣缸,完成機械臂采摘機構向蘋果移動,進而實現采摘。

機械臂控制系統如圖6所示。其中,上控制閉環實現機械臂采摘控制、機器人動作控制器、計算機械臂逆運動學方程、機器人各關節舵機調整,伸長氣缸調整、進而控制采摘機械臂完成采摘作業;下控制閉環CCD攝像頭采集蘋果圖像,通過改進型深度學習算法提取蘋果特征信息,進而確定蘋果在成像平面上的坐標增量,通過機器視覺控制器實現圖像位置向空間位置坐標的轉化。整個系統工作過程為CCD攝像頭采集蘋果圖像,通過深度學習算法提取蘋果圖像特征,輸入信號在機器視覺控制器內進行分析,將蘋果圖像坐標轉化為蘋果空間距坐標;采摘端坐標和目標蘋果坐標在機器人控制器進行比對,通過機器人逆運動學方程調整機器人關節舵機和小臂氣缸,改變采摘終端位置,直到完成蘋果的采摘。

圖6 采摘機械臂控制系統Fig.6 The control system for picking manipulator

5 系統測試

為了實現蘋果采摘的自動化,基于深度學習網絡設計了蘋果圖像自動識別技術;采用單目視覺系統配合測距儀的方案,實現了圖像坐標向空間坐標的轉移,通過控制機械臂采摘終端,最終實現了機械臂向蘋果移動,完成采摘任務。本系統兩大關鍵環節為圖像識別和機械臂控制,現對二者進行測試,結果如圖7所示。

對深度學習網絡蘋果識別精度進行測試,進行8組試驗,對比圖像中蘋果個數與識別個數,結果如圖7(a)中實線及偏差棒所示。圖像中蘋果個數區間為20~27,偏差分布區間為0~2,在第6組和第7組時出現最大偏差;相對誤差分布如圖7(a)中虛線所示,分布區間為0~7.8%。測試結果表明,深度學習網絡具有較高的識別精度。

對采摘機械手進行動作精度測試,測試方法為指定采摘終端移動距離,控制機械手移動,得到實際移動距離,計算二者之間的誤差,測試結果如圖7(b)所示。其中,數據點為實際移動距離,偏差棒為實際移動距離和設置距離之間的偏差,實際移動距離分布區間為[895mm, 1414mm],偏差分布區間為[-10mm, 12mm]。測試結果表明:機械手具有較高的控制精度,偏差分布區間可以滿足蘋果采摘要求。

圖7 系統測試Fig.7 The test for system

6 結論

為了實現蘋果采摘的自動化,基于改進型深度學習網絡設計了視覺采摘系統。首先,對攝像頭采集的蘋果圖像進行高斯濾波處理;其次,在VGG16深度學習網絡基礎上增加區域推薦網絡,將區域推薦學習網絡學習得到的特征圖和VGG16得到的卷積特征圖在Roi Pooling池化層進行融合,完成圖片大小的格式統一。測試結果表明:改進型網絡在所需樣本量為11,小于VGG16網絡所需的13個樣本量,同時改進型學習網絡能達到的穩定準確率為0.92,優于VGG16深度學習網絡的0.855;基于單目視覺系統和激光測距器,可實現目標蘋果由圖像坐標向空間坐標的轉化。測試結果表明:蘋果識別相對誤差小于7.8%,機械臂實際移動距離分布區間為[895mm,1414mm],偏差分布區間為[-10mm, 12mm],表明機械臂具有較高的控制精度。

猜你喜歡
錨框池化層圖像識別
基于YOLOv3錨框優化的側掃聲吶圖像目標檢測
錨框策略匹配的SSD飛機遙感圖像目標檢測
基于SSD算法的輕量化儀器表盤檢測算法*
基于GA-RoI Transformer的遙感圖像任意方向目標檢測
卷積神經網絡模型研究分析*
基于卷積神經網絡的紙幣分類與點鈔
基于深度學習卷積神經網絡的人體行為識別研究
基于Resnet-50的貓狗圖像識別
高速公路圖像識別技術應用探討
圖像識別在物聯網上的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合