?

基于改進DQN算法的茶葉采摘機械手路徑規劃*

2023-09-11 09:22李航廖映華黃波
中國農機化學報 2023年8期
關鍵詞:嫩芽機械手坐標系

李航,廖映華,黃波

(四川輕化工大學,四川宜賓,644000)

0 引言

目前,國內外市場對于名優茶的需求量較大,并且隨著中國經濟不斷向外拓展,茶葉市場增長速度快[1]。名優茶采摘時效性、采摘完整率和采摘品質是保證名優茶產量的關鍵因素[2]。為提高名優茶的產量和質量,茶葉采摘技術的研究逐漸增加。采摘技術主要包括人工采摘、半機械采摘、智能采摘三種方式,其中人工采摘的效率低、成本高,但采摘精度高;機械采摘產量大,效率較高,但嫩芽的完成率較低,優質茶產量小;智能采摘具有效率高、成本低、采摘精度高、設備價格貴的特點。智能采摘過程中采摘路徑易受阻擋干擾,導致嫩芽采摘完整率低,采摘切割不準確等問題,需要設計一種智能終端采摘設備,利用圖像處理和運動控制技術,解決因運動路徑規劃而影響名優茶的采摘效率低的問題。

孫肖肖等[3]提出在深度學習的基礎上利用目標檢測算法YOLO,根據大、小尺度檢測并結合超綠特征及OSTU算法實現目標圖像的分割,使得目標對象特征更加明顯,便于智能終端的采摘;湯一平等[4]提出基于機器視覺設計的智能采茶機,利用機器視覺識別嫩茶同時自動調整采茶機割刀平臺高度,使得割刀面與茶隴蓬面有較好的吻合,通過自動調整切割臺的高度可以解決采茶機老嫩茶葉一刀切的問題;汪琳等[5]提出通過提高機械手的運動跟蹤精度,減小機械手各關節之間的運動誤差,從而提高茶葉采摘的運動定位精度,采用自適應魯棒PD控制策略,實現各關節的精確控制且迅速達到期望路徑,但對于如何識別嫩芽目標還需要解決。姜宏濤等[6]提出在傳統分水嶺算法的基礎上,引入BM3D去噪和灰度拉伸法分割圖像,利用SURF算法對目標對象進行特征點數據進行采集,然后去除誤匹配點,最小外接矩形法與雙目測距原理方法基礎上完成采摘點的三維空間定位,最后利用機械手完成定位運動,但該方法對于機械手的運動路徑缺少優化。袁加紅等[7]提出基于RGB顏色空間及組合因子對圖像進行灰度處理,利用維納濾波和梯度增強技術進行濾波去噪,通過大律法和迭代法分割圖像獲取二值圖像,最后通過質心法對目標進行定位。毛騰躍等[8]提出一種便攜式真空吸附采茶機,通過網格劃分模型,利用GAMBIT軟件得到網格質量信息定義扭曲率的百分比以及邊界類型和區域模型,最后分析對比得到真空度和吸入功率,驗證采茶機的可靠性和可行性。

針對目前名優茶采摘過程中易受阻礙物干擾,導致采摘完整率低等問題,利用圖像識別技術將葉梗、葉莖等阻礙物進行判斷,獲得名優茶嫩芽的切割點在三維空間中的空間位置坐標。然后通過對茶樹面進行分析判別處理得到嫩芽分布集中區域,利用本文運動路徑規劃算法得到采摘運動路徑,根據改進型DQN算法將采摘路徑進行強化訓練,優化采摘運動路徑。

1 名優茶嫩芽特征

1.1 茶葉形態標定

茶葉類型較多,由于我國地域的氣候環境復雜,茶葉種植方式較多,所以茶葉的形態特征各異,其中名優茶作為茶葉中的優品,其形態可將茶葉分為單芽、單芽單葉、單芽雙葉、單芽三葉[9]。茶葉采摘需要根據茶葉特征進行采摘技術的開發,由于優質嫩芽的采摘是根據識別嫩芽葉梗的位置,然后通過切割葉梗而獲得嫩芽,嫩芽葉梗切割位置如圖1所示。

圖1 優質嫩芽切割位置及形態分析

為獲取嫩芽的切割位,需要對嫩芽的幾何特征進行采集標注,用于嫩芽信息的提取,根據嫩芽在茶樹上的生長特性可知,優質茶葉的采摘時間只有短暫的半個月,所以采摘最優時間段的優質茶葉形態如圖1所示,為便于茶葉成熟度和嫩芽形態的識別,通過對優質茶葉形態進行數字化識別,定義其中嫩芽規范的參數,圖1中a1表示嫩芽的開合寬度,d1表示嫩芽的生長高度,d2表示嫩芽的最大外圍寬度。

1.2 嫩芽圖像處理

嫩芽圖像特征的識別容易受到外界環境的干擾,其中光照對于特征的提取影響最大,由于茶葉采摘周期短,為解決在長時段光照強度不均勻條件下提取嫩芽圖像特征的問題,利用相機獲取茶葉采摘范圍內圖像,對特征圖像進行灰度處理,調整灰度閾值尋找嫩芽區域,通過特征點的提取獲得采摘區域,根據對采摘區域進行濾波、去噪等預處理,得到如圖2所示的處理效果圖。

圖2 嫩芽圖像預處理

圖像預處理可以得到灰度圖,為獲取嫩芽在圖像實際空間中的坐標位置,需要進一步處理得到嫩芽切割位的坐標位置圖,由此引入HSI顏色模型,調整色調、飽和度和亮度可以通過圖像體現出不同空間位置的深淺度,如圖3所示。由于嫩芽的顏色與老葉、莖梗明顯不同,所以調整色調獲取嫩芽的圖像,利用R通道的參數設置得到基于嫩芽的顏色圖像,如圖4所示為處理后的嫩芽圖像特征。

圖3 嫩芽HSI空間圖

圖4 嫩芽圖像特征

2 采摘機械手模型分析

名優茶的采摘形式較多,采摘形式主要包括人工采摘、半自動采摘、全自動采摘等方式,其中依靠全自動采摘設備的智能采摘方式效率較高,但是在實際運用過程中也存在采摘精度、嫩芽識別誤差大等問題,為了解決采摘路徑受到障礙阻擋的問題,利用機械手來提高采摘效率,并對機械手進行模型分析。

2.1 機械手運動學模型分析

根據茶樹的外形特點,并結合名優茶的采摘要求,利用三自由度的機械手進行嫩芽的采摘,由于高度、環境、穩定性、位移距離等方面的要求,三自由度的機械手更加適合嫩芽的采摘[10]。

如圖5所示為三自由度機械手的結構簡化模型,主要包括兩個機械手臂、一個旋轉機械切割爪,通過聯動控制可以實現切割爪的抓取,其中根據每個自由度旋轉點建立了局部坐標系分別為Xa-Ya-Za、Xb-Yb-Zb、Xc-Yc-Zc、Xd-Yd-Zd,便于空間坐標系運動點的表示。機械手基座在空間運動坐標表示則是基于全局坐標系X-Y-Z。坐標系Xa-Ya-Za通過控制Za軸旋轉可使得手臂在Xa-Ya平面旋轉運動,旋轉Ob-Xb軸,可實現Ob-Oc手臂在Zb-Yb平面運動,再旋轉Oc-Xc使得Oc-Od在Yc-Zc平面運動,最后通過對Od-Zd軸的運動控制即可得到切割爪在Xd-Od-Yd平面上做旋轉運動。

圖5 機械手簡化模型圖

三自由度機械手的運動控制需要符合采摘機械手的運動特點,同時由于機械手的運動空間范圍有限,所以對機械手的運動極限空間進行分析,根據如圖6所示為機械手運動空間的極限范圍,機械切割手爪的旋轉直徑為ΦD,虛線輪廓的運動表示為機械手的活動空間,所以采摘過程需要滿足機械手運動空間覆蓋嫩芽的采摘范圍。

圖6 機械手運動空間范圍

2.2 空間坐標轉換

機械手聯動控制主要是基于圖像識別的嫩芽采摘點,從而帶動機械手的聯動控制,利用已知坐標點的變換帶動多坐標系的位置變化。全局坐標系中令嫩芽采摘位置點的空間坐標位置為[x,y,z],機械手的固定基座在全局坐標系的空間坐標為A[xa,ya,za],已知OA-OB軸的距離為Lab,OB-OC軸的距離為Lbc,OC-OD軸的距離為Lcd,采摘切割點到OD原點的距離為L,所以采摘點在末端坐標系Xd-Yd-Zd中坐標值為N[xd,yd,-L]。

全局坐標系需要對于局部坐標系進行空間轉換,所以{D}坐標系通過{C}、{B}、{A}坐標系的轉換實現采摘點坐標在全局坐標中的位置確定,通過式(1)可得坐標系的連續轉換關系。

(1)

(2)

坐標系OB到坐標系OC之間的轉換關系為Y軸方向的位置變化,即可得到OB坐標系在OC坐標系中的坐標轉換,如式(3)所示。

(3)

D坐標系與C坐標系之間的轉換過程不僅需要平移,還需要按照Oc-Xc軸旋轉才能實現坐標轉換,其中R表示為旋轉矩陣,通過轉換可轉換坐標,如式(4)所示。

(4)

最后通過坐標系的計算轉換可以得到,采摘切割點在全局坐標系中空間坐標位置點。

2.3 運動學分析

機械手運動控制主要是通過控制關節電機的運動,多自由度機械手則需要聯動控制每個電機的運動位移和速度,并需要對機械手進行運動學分析,如式(5)所示的轉換矩陣計算公式可以得到相鄰轉動關節的轉換矩陣,其中i=1,2,3,4分別表示不同關節,s表示正弦函數,c表示余弦函數,di表示機械臂的長度,θi表示繞Zi軸從Xi-1旋轉到Xi的角度,αi表示繞Xi軸,從Zi-1旋轉到Zi的角度[11]。

(5)

利用轉換矩陣的乘積可以計算機械手的運動學方程,通過轉換矩陣可以得到坐標系{D}的位姿相對于全局坐標系中位姿如式(6)所示,其中c23表示第二個關節旋轉角度與第三個關節旋轉角度的余弦值乘積,而s23則表示第二個關節旋轉角度與第三個關節旋轉角度的正弦值乘積,c2、c1表示關節1和關節2的旋轉角度余弦值,s1、s2表示關節1和關節2的旋轉角度正弦值,Lbc、Lcd分別表示不同坐標系的原點距離。

(6)

3 改進DQN路徑規劃

多自由度機械手的運動路徑設計是基于圖像識別技術判斷影響嫩芽采摘阻擋物的位置,根據規劃的采摘路徑,利用機械手的運動控制技術,實現采摘過程。在此過程中需要利用路徑規劃算法實現對空間軌跡的規劃,結合控制技術實現采摘。

3.1 DQN規劃算法

名優茶采摘環境復雜,受到各種外部環境干擾大,基于人工采摘的思維模式,能夠準確判斷嫩芽的位置,而圖像處理和運動控制技術比較與人工,精度方面在技術上存在差距,但效率方面則遠超過人工。目前深度強化學習(Deep Q-learing,簡稱DQN)不僅結合深度學習在環境信息的感知能力而且還對強化學習的決策能力進行融合,生產了一種類似于人類思維方式的學習能力,根據識別對象的特征提出決策策略[12]。DQN學習算法用于環境復雜、干擾因素多的茶葉采摘技術具有很大的優勢,如圖7所示為強化學習算法模型。

圖7 強化學習算法模型

DQN主要是通過引入經驗回收提高采集樣本的關聯性和利用率,通過固定目標值Q降低不平穩性[13]。DQN算法的實現主要分為三個步驟分別為建立目標函數、目標網絡和引入經驗回收[14]。

1) 建立目標函數。DQN目標函數利用Q-learing構建得到,利用式(7)可得更新后的動作值和狀態值。

(7)

式中: (s,a)——當前的狀態和動作值;

當運動到s狀態時則可以得到獎勵值r,然后對其進行評估計算。

(8)

式中:ω——神經網絡結構的權值參數;

γ——衰減系數。

由此損失函數的均方差損失函數L(ω)表達式如式(9)所示。

(9)

2) 建立目標網絡。DQN利用目標網絡和預測網絡評估當前狀態-動態值函數,目標網絡基于神經網絡得到目標值Q,利用當前目標值Q估計下一時刻的目標值Q,預測網絡則可以使用隨機梯度下降法,不斷更新網絡參數,實現端到端的學習控制,梯度下降法的表達式如式(10)所示。

(10)

3) 經驗回放。經驗回收主要是解決樣本的關聯性和效率利用問題。機器人和環境交互時,可獲得樣本數據,把樣本數據存儲到建立的經驗池中,從經驗池中隨機抽取小部分數據用于訓練樣本,再將訓練樣本送入神經網絡中訓練。經驗回收主要通過利用樣本來提高學習效率。

3.2 DQN算法改進

智能體通過DQN算法可以實現自身對環境的認知強化,通過訓練可以達到理想的軌跡規劃[15]。DQN在運動控制過程中,通過智能體和環境的交互利用獎勵值函數,實現采摘過程的訓練,得到優化的采摘路徑。運動過程中從當前狀態值到下個狀態值分配的獎勵值不同,則會影響訓練的收斂速度和程度,茶葉采摘過程需要滿足嫩芽實時性、準確性的采摘要求,故以準確識別采摘位置為目標,設計具有明確導向性的獎勵值函數,通過強化學習得到最優動作策略,在訓練過程中碰到阻擋物時即返回起始點,往復訓練不斷探索最優采摘路徑。改進后的DQN算法模型如圖8所示,根據改進的控制算法實現對采摘路徑的規劃。

圖8 改進DQN設計模型

改進的獎勵函數是根據切割點到采摘點的空間位置距離、運動的速度、角速度來實現獎懲機制的導向,同時由于強化學習在學習開始階段可能出現全是負面學習,導致學習進度較慢,也會出現全是積極學習,導致學習過程不全面,所以獎勵值函數從中間難度點開始學習,能夠更加全面地掌握學習過程,所以改進后的獎勵值函數表達式如式(11)所示。

(11)

4 試驗仿真

茶葉采摘機械手的試驗仿真主要基于ROS(Robot Operation System)系統中的Gazebo平臺,并搭建采摘機械手的運動模型,利用算法結構調整控制參數,實現采摘機械手運動路徑規劃。

4.1 茶樹外形分析

采摘機械手在進行茶葉采摘過程中需要根據茶樹的外形特征進行環境適應判斷,由于嫩芽的生長區域在茶樹的頂端,所以茶樹的外形特征對于采摘機械手的采摘路徑設計有較大影響,根據常見茶樹特征分析,茶樹的基本外形特征如圖9所示,茶葉采摘區域的高度為h,有效高度范圍主要集中在H1和H2之間,茶樹寬度在B1內。

圖9 茶樹外形特征

4.2 試驗設計

主要在仿真環境中利用本文算法對茶葉采摘過程進行采摘路徑規劃的強化訓練,通過SolidWorks設計出茶葉采摘機械手模型,其中三維模型及仿真平臺如圖10所示。

圖10 采摘機械手試驗仿真平臺

試驗仿真平臺的搭建主要模擬實際茶葉采摘環境,采摘機械手移動平臺的運動效率是根據茶樹的種植布局環境和地勢特征決定,同時根據茶葉采摘的效率和速度進行實時調整。采摘機械手進行強化訓練,隨著訓練次數的增加可以得到優化的路徑,當訓練得到最優運動路徑則訓練結束。根據DQN算法的原理可知,訓練過程主要利用具有導向性的獎勵函數實現對采摘路徑的探索,為保證強化訓練的效率,需對訓練參數進行設置如表1所示。

表1 訓練參數設置Tab. 1 Training parameter settings

通過訓練參數的設置可在Gazebo平臺上經過強化訓練,采摘機械手末端采摘爪從初始位置到采摘點的運動過程,采摘機械手的采摘運動路徑的漸變過程如圖11所示。為避免采摘老葉和莖梗,并為提高采摘效率,采摘路徑通過強化訓練得到的優化的采摘運動路徑,主要利用導向性的獎勵函數,根據速度、角速度、切點的距離誤差的導向可以高效地實現嫩芽采摘路徑的規劃。

(a) 機械臂45°狀態

如圖12所示為訓練強化后的運動路徑圖,主要以采摘機械手末端上的采摘機械爪為參考點,利用機械臂的旋轉,可以準確到達采摘區域,最后旋轉末端采摘手爪實現老葉和莖梗的躲避,控制切割爪的運動實現切割功能,由此產生的采摘運動路徑即為強化訓練后的優化路徑。

圖12 運行路徑軌跡

4.3 試驗分析

4.3.1 獎勵函數值分析

根據仿真試驗得到采摘機械手經過強化訓練可規劃出采摘路徑,評價訓練過程中的優化效果可通過獎勵函數值進行判斷,通過對比改進DQN算法和傳統DQN算法可以得訓練次數與采摘機械手運動規劃獎勵值的變化關系如圖13所示。根據獎勵值的變化趨勢可知,由于本文的獎勵函數為了避免開始階段的出現全是負面獎勵和積極獎勵,從中位開始,開始階段的獎勵值較大,隨著訓練次數的增加不斷獎勵值不斷趨近于平穩,由于在末端需要避免障礙物的阻擋所以在3 000~5 000次的時候遇到末端障礙物時則會出現獎勵值降低幅度較大的情況,3 000次之前路徑探索獎勵值從高獎勵值降低,當達到目標點時則出現增加并逐漸達到穩定的獎勵值。

圖13 獎勵值變化圖

4.3.2 路徑定位精度分析

根據分析仿真結果可知,采摘機械手末端切割爪的運動路徑,隨著強化訓練次數不斷增加,可不斷迭代規劃出運動路徑,為驗證運動路徑的可靠性,可通過采摘機械手末端切割點與茶葉采摘點之間的距離變化關系,判斷本文算法的有效性,如圖14所示為位置誤差變化曲線關系。

圖14 訓練次數與采摘點距離變化關系

本文主要對比分析訓練在1 000~5 000次的位置誤差變化關系,隨著訓練次數的增加,位置誤差變化速度越快,訓練次數1 000次在預測時間1~3.5 s的時間變化較慢,而在預測時間3.5~8.0 s的預測時間變化較快。然而訓練次數1 000次的穩定預測時間為8.3 s,訓練次數5 000次的趨向穩定的變化時間為7.9 s。訓練結果顯示訓練次數在5 000次時切割點位置精度誤差穩定在0.005 m范圍內。

4.3.3 損失函數值變化分析

試驗仿真結果顯示損失函數的收斂性和波動性可以判斷本文算法的有效性,試驗對比關系如圖15所示,本文對比分析改進型DQN算法和傳統DQN算法,可得改進DQN算法的損失函數在訓練1 000次之前的波動性較大,但在1 000~2 000次之間的波動性逐漸降低,2 000次后則趨近于穩定;傳統DQN算法的波動性在2 000次之前都沒有趨近于穩定,但是2 000次后逐漸趨于穩定收斂,通過對比也可知,改進型的收斂速度更快。

圖15 損失函數的對比效果

5 結論

茶葉采摘機械手易受到老葉、莖梗等阻擋干擾導致采摘效率低,采摘路徑長以及茶葉品質低,利用基于改進DQN算法實現采摘路徑的規劃,同時保證機械手末端切割裝置的定位精度,利用圖像識別技術對茶葉切割位置的識別以及空間位置進行確定,采用改進型DQN算法進行強化訓練,實現采摘路徑的高效規劃。本文通過模擬仿真試驗得到運行狀態數據,利用速度、角速度、距離誤差作為路徑規劃中的導向引導參數,用于改變運動規劃過程,實現規劃效率的提高,由此可得如下結論。

1) 改進型DQN算法能夠提高機械手末端切割裝置的定位精度,通過強化訓練迭代次數的增加定位精度會隨著訓練次數的改變發生變化,驗證試驗得到訓練次數較少的情況下,誤差穩定控制時間較長,同時控制定位精盾不高,而訓練試驗結果分析在訓練次數為5 000次時,定位精度能夠穩定控制在0.005 m范圍內。

2) 機械手的采摘路徑規劃通過改進的DQN算法優化采摘路徑,利用獎勵值對比分析改進型DQN平穩變化,分析可知在3 000~4 500次時改進算法的效果較為明顯;損失函數值在訓練2 000次前的變化幅度較大,改進算法收斂后的數據值較低,說明采摘路徑的有效性更高;驗證改進型DQN算法對采摘路徑優化有效。

猜你喜歡
嫩芽機械手坐標系
抓取脆弱物體的機械手
小嫩芽
嫩芽
嫩芽的面積
解密坐標系中的平移變換
坐標系背后的故事
基于重心坐標系的平面幾何證明的探討
希望的嫩芽
搬運機械手PLC控制系統設計
基于ADAMS與MATLAB的機械手控制系統仿真研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合