?

基于人體姿態估計與場景交互的果園噴施行為檢測方法

2023-03-07 03:30宋懷波韓夢璇王云飛陳春堃
農業機械學報 2023年2期
關鍵詞:關節點噴霧器果樹

宋懷波 韓夢璇 王云飛 宋 磊 陳春堃

(1.西北農林科技大學機械與電子工程學院,陜西楊凌 712100;2.農業農村部農業物聯網重點實驗室,陜西楊凌 712100)

0 引言

近年來,我國果樹種植業邁入高速發展時期。在目前的果園管理過程中,化學農藥防治是消滅或控制有害生物脅迫的最主要的方法[1-2],因此實現果園日常農藥噴施行為的有效記錄與監管對于助推果樹種植產業生產的綠色轉型、完善果品的溯源體系有重要意義[3-5]?,F有果園農藥噴施情況的評價和監管主要依賴自主提交的作業記錄[6],存在工作量大、工作效率低、準確性差及主觀性強等問題[7]。視頻數據具有可長效監測及不易篡改的特點,已成為行為監測研究的熱點,實現人體動作及場景交互下的噴施行為自動監測是關鍵,對于果品溯源體系的完善具有重要意義。

針對果園日常監管過程中人工成本高,規?;N植果園監測難度大等問題,國內外學者開展了相關研究工作[8-9]。ZHAI等[10]提出了一種用于識別噴霧器行程的射頻識別裝置解決方案,同時設計了噴霧監測和引導系統,能夠實現噴霧器行駛方向識別、位置識別、流量及噴霧量信息記錄等功能。李震等[11]設計了一款輕巧、小型、便于安裝的監測裝置,能夠獲取農機的序列號、累計使用次數、工作時長、運行速率、經緯度位置以及有無故障等情況。

在我國,背負式噴霧器占比98%以上,是目前最為常用的噴藥器械[12-13]。如何依據作業場景及操作人員動作信息,實現場景交互的噴施行為檢測,對于提升噴施行為的檢測精度具有重要意義。在人體行為識別研究方面,計算機視覺以其低成本、高效率、信息豐富穩定等優勢得到了廣泛應用[14-15],而基于場景交互的人體行為識別近年來更是在相關領域中發展迅速[16]。在家庭安防、跌倒檢測、快遞分揀、駕駛安全、摩托車盜竊檢測等方面取得了較好的效果[17-21]。場景交互下的行為識別算法充分考慮了目標與活動場景間的關聯關系,是未來復雜環境下行為識別的重要研究方向。

綜上,本研究擬提出一種基于人體姿態估計與場景交互的果園噴施行為檢測方法,首先將噴霧器和果樹在訓練時進行分類標記,并利用自建數據集訓練優化YOLO v5模型,之后采用OpenPose模型完成果園復雜環境下的人體姿態估計,完成人體目標的跟蹤和識別。并將相關數據整理組成總特征向量,采用SVM模型完成分類工作,從而實現果園噴施行為的準確識別。

1 果園噴施行為識別數據集構建

1.1 果園噴施行為視頻數據集

由于果園噴施行為監控視頻的公用數據集較少,因此本研究以西北農林科技大學園藝實驗教學基地的蘋果園為例,采用自建數據集進行噴施行為識別與評價。為達到在果園內所有果樹周圍都能夠捕捉到操作人員的人體關節點并識別果樹和噴霧器的要求,以長寬比為a∶b(a>b)的蘋果園為例,設行距為4 m,株距為2.5 m,其攝像頭布點方案的俯視圖如圖1所示:在寬邊的每兩行果樹間布置1個攝像頭,確保人體不會被枝葉遮擋;在長邊每隔6株果樹(15 m)安裝焦距為12 mm的1個攝像頭,確保監控范圍內的果樹和噴霧器目標不會因像素過低而難以識別;攝像頭布點方案的剖面圖如圖2所示,監控視頻主要是為了識別人體農藥噴施行為,因此攝像頭高度為2.5 m,略高于人員頭頂,同時攝像頭安裝時向下的傾斜角度在5°~15°之間,確保在監控內人體關節點的角度不會變形,同時最大監控范圍可達35~40 m。

圖1 果園內攝像頭布點方案俯視圖

圖2 果園內攝像頭布點方案側視圖

試驗數據采集時間為2021年10月15—25日和2022年5月1—3日,噴霧器選擇WDB-20型背負式藍色電動噴霧器。拍攝設備為??低暩咔逡挂晳敉鈹z像機,型號為DS-IPC-B12V2-I/PoE,焦距為12 mm,分辨率為1 920像素×1 080像素,拍攝時間為07:30—09:30和16:30—18:30,每段視頻拍攝時長平均為8~15 s。果園管理人員的噴施行為示意圖與實際場景視頻截幀如圖3所示,為人體背負噴霧器在果樹一側上下運動手肘進行噴施。本研究共采集包括噴施行為等3種主要情況的92段視頻。圖4所示分別為存在針對果樹的噴施行為(存在噴施動作),有噴霧器但無果樹的其他行為和有果樹但無噴霧器的其他行為。

圖3 果園噴施行為示意圖

圖4 果園3種主要情況的視頻截幀

同時為驗證果園復雜情況下模型的魯棒性,如表1所示,在具有噴施行為的83段視頻中,分別以遮擋、距離變化、光線變化(日出后1 h、日出后2 h、日落前2 h和日落前1 h)和多人出現且1人進行噴施行為等情況為4種主要條件測試噴施行為的識別分類效果,其中距離變化條件中以噴霧器與相機距離近(3~7 m)、中等(7~10 m)、較遠(10 m及以上)和持續變化(3~10 m)4種情況加以分類,每種類別的視頻均寫明該類別中正常光照、逆光和陰天條件的視頻數量。該數據集包括了果園眾多復雜的干擾因素(光照變化、人或工具遮擋、枝葉遮擋、距離變化和人員復雜等),使噴施行為的識別分類工作具有實際借鑒意義。

表1 果園噴施行為視頻信息統計

1.2 果園噴施行為圖像數據集構建

訓練果園噴施行為識別模型所需的數據集構建工作包括兩部分:

(1)對果樹與噴霧器等交互場景目標的識別:從各類別試驗視頻中隨機選取10段視頻分解為序列幀,隨機選取2 000幅(逆光269幅,陰天961幅,正常光照770幅)圖像,分辨率為1 920像素(水平)×1 080像素(垂直)。使用LabelImg標注工具對圖像中的果樹與噴霧器目標進行人工標注,確保噴霧器的箱體部分與果樹的主干部分均在邊界框范圍內,標注信息包括目標的類別、位置和長寬信息。為實現果樹與噴霧器目標的識別與分類,本研究將這些標簽圖像按照8∶1∶1的比例分別輸入YOLO v5目標檢測網絡進行訓練、驗證和測試。

(2)對人體關鍵關節點的識別:噴施行為識別模型所需的人體姿態數據是人體關鍵關節角度?;诖瞬捎没赑yTorch的OpenPose模型對92段視頻進行測試。以ZHE等[22]的關節點標注結果為參考,分別保存視頻中每幀圖像的18個關節點坐標識別結果和人體檢測框數據(位置和長寬信息)。包括18個關節點坐標的數據集將在預處理后作為果園噴施行為識別模型的訓練集和測試集,用于檢測果園噴施行為模型的相關性能。人體檢測框數據作為后續可視化測試結果的參數保存。

本研究使用的開發平臺配置如下:CPU處理器為AMD Ryzen 7 4800H with Radeon Graphics;GPU顯卡為NVIDIA GeForce GTX 1650 Ti顯卡;采用Python語言編程;操作系統為Windows 10。

2 基于人體姿態估計和場景交互的果園噴施行為檢測模型構建

本研究采用基于人體姿態估計和場景交互模型的果園噴施行為檢測模型,對果園監控視頻中管理人員的噴施行為進行識別分類。如圖5所示,該模型首先利用圖像數據集訓練YOLO v5模型,將測試視頻中的噴霧箱和果樹檢測框的位置信息存儲,并計算噴霧器和果樹檢測框中心值的最短距離作為場景交互特征向量輸出。同時利用OpenPose模型存儲測試視頻的18個人體關節點像素值坐標,并計算人體關鍵關節點角度,完成人體姿態特征向量的提取。之后采用場景交互和人體姿態特征向量訓練SVM分類模型,從而實現果園噴施行為的識別。

圖5 總體技術路線圖

2.1 基于YOLO v5的噴霧器和果樹目標檢測

果樹、噴藥器械及作業人員等場景交互信息的準確識別是噴施行為檢測的基礎。為了避免光照、遮擋等復雜因素的影響,本研究中的交互場景目標識別算法采用YOLO v5輕量級檢測模型[23]。YOLO v5使用跨階段局部網絡(Cross stage partial darknet53, CSPDarknet53)作為Backbone,從輸入圖像中提取豐富的信息特征;它基于Mask R-CNN和特征金字塔網絡(Feature pyramid network, FPN),采用路徑聚合網絡(Path aggregation network, PANet)和空間金字塔池化(Spatial pyramid pooling, SPP)作為Neck來聚合特征,加強了信息傳播;使用YOLO v3的Head實現目標檢測?;赮OLO v5實現噴霧器和果樹目標檢測的主要步驟如下:

(1)數據集準備:對原始視頻經過隨機截幀獲取圖像2 000幅,手動標注圖像中所有果樹和噴霧器目標以完成數據集準備,按照1.2節劃分比例進行處理。

(2)YOLO v5目標檢測模型的訓練。為實現噴霧器和果樹目標檢測,本研究使用YOLO v5模型訓練果園噴施行為數據集,模型內存占用量僅有14 MB。在本研究中使用以COCO數據集進行預訓練后的YOLO v5模型,參數設置如表2所示。

表2 參數設置

訓練集、驗證集和測試集用于訓練、驗證和測試 YOLO v5噴霧器和果樹目標檢測。圖6顯示了訓練期間邊界框回歸損失函數、目標檢測置信度損失函數和分類損失函數曲線,可以看出,噴霧器和果樹目標檢測模型訓練的初始階段模型學習效率較高,訓練曲線收斂速度較快,隨著訓練次數的增加,檢測框、目標檢測和分類的準確率逐漸增加,訓練的斜率曲線逐漸減小。

圖6 訓練結果相關曲線

采用精確率(Precision)、召回率(Recall)、F1值、交并比(Intersection over union,IoU)為0.5時求得的平均精度(Average precision)AP@0.5和平均精度均值(mAP)mAP@0.5、IoU以0.05為步長從0.5取到0.95時的AP和mAP求平均后得到的AP@0.5:0.95和mAP@0.5:0.95等指標來評價目標檢測模型的準確性和有效性。其中IoU是評價邊界框正確性的度量指標,表明檢測框與真實標簽的交集和并集的比值。各項指標數值如表3和圖7a、7b所示,結果表明噴霧箱類別的識別效果整體優于果樹類別,主要是因為果樹的形態多變,檢測框與真實框重合度較低和漏檢等問題比噴霧箱的識別更容易產生。部分算法訓練效果如圖7c所示,可以看出在復雜背景下該模型能夠識別噴霧器和果樹目標,其中嚴重遮擋的噴霧器依然可以準確檢測。同時如圖8所示,當噴霧器顏色與工作人員的服裝顏色近似時,在暗處和明處的識別效果都比較準確,未能識別的情況均為藥箱遮擋嚴重,而非因顏色相近。該模型的訓練結果滿足后期對噴施行為識別的要求。

表3 訓練結果

圖7 目標檢測結果

圖8 服裝與藥箱顏色相近時的噴霧器識別結果

(3)提取場景交互特征向量:將試驗視頻中每幀存儲的檢測框噴霧器和果樹類別與中心位置信息預處理后,提取噴霧器中心坐標(Xs,Ys)和與該向量距離最近的果樹中心值坐標(Xt,Yt)共同作為一組特征向量,并計算果園農事操作人員與果樹的距離Dst

(1)

為后續噴施行為的識別分類工作奠定基礎。

2.2 基于OpenPose模型的人體噴施行為檢測

即使實現了噴施人員、果樹及噴施器械的精確識別,若無相關噴施動作行為,也無法準確判別是否進行了噴施作業。本研究的人體噴施行為檢測算法采用OpenPose算法[22],OpenPose人體姿態識別算法是基于卷積神經網絡和監督學習的開源庫,可以實現人體動作、面部表情、手指運動等姿態估計。適用于單人和多人,具有良好的魯棒性。它的網絡結構后半部分為2個平行的卷積層分支:第1個分支實現對人體關鍵點坐標的預測;第2個分支采用關鍵點親和場算法實現人體關鍵點的連接。

基于OpenPose的人體噴施行為檢測步驟如下:

(1)對92個測試視頻采用基于PyTorch的OpenPose算法進行人體目標檢測,平均檢測速度為6.38 f/s,部分檢測結果如圖9所示。將每幀18個人體關節點坐標和人體檢測框數據(位置和長寬信息)存儲至文件中,為后續人體關鍵關節點坐標的角度計算奠定基礎。

圖9 OpenPose模型檢測效果

(2)提取人體姿態特征向量。將包括18個人體關節點的坐標信息進行預處理,通過觀察操作人員的噴施行為特點,提取18個關節點中的脖子(X1,Y1)、右肩(X2,Y2)和右肘(X3,Y3)作為關鍵關節點,人體姿態特征p計算式為

(2)

其中

(3)

從而完成果園農事操作人員的姿態區分。

2.3 基于SVM分類方法的果園噴施行為識別

本研究構建的果園噴施行為識別模型中的行為識別分類部分由SVM完成[24]。本文擬將視頻的每幀分為非噴施行為(Not Spraying)、噴施行為(Spraying)和無法識別(Unrecognized)3種結果,因此需要多分類的SVM,其實現是通過在任意兩類行為之間設計1個二分類模型,并組合多個二分類器實現多分類器的構造?;赟VM模型的果園噴施行為識別主要步驟如下:

(1)數據集準備。在92段視頻中共選取38段視頻,共11 244幀圖像,對每幀圖像的輸出結果進行預處理,將場景交互特征向量d和人體姿態特征p作為每幀圖像的特征向量,并完成對它們的標注分類,標簽為“0”(Not Spraying)、“1”(Spraying)、“2”(Unrecognized)。在進行標注時,對照試驗視頻的每幀圖像實際行為,將手臂上抬和下落完成噴施動作在一定范圍,且滿足噴霧器與果樹距離相近的標注為“1”;將p缺失情況標注為“2”,其他情況均標注為“0”。數據集被劃分訓練集(8 995組特征)和測試集(2 249組特征)的比例為8∶2。

(2)果園噴施行為識別模型訓練。采用PyCharm環境,scikit-learn庫中的OneVsRestClassifier實現多分類。由于每個類別僅由1個分類器表示,因此可以通過檢查其對應的分類器獲取有關該類別的信息[25]。

(3)識別分類結果輸出。試驗視頻采用本研究訓練完成的OneVsRestClassifier模型,將檢測結果的標簽以時間序列標記在該視頻中的人體檢測框上并輸出視頻,完成果園噴施行為的識別分類工作。從圖10a可以看出,視頻5中人員行走姿勢被識別為“Not Spraying”,圖10b中人員噴施行為被識別為“Spraying”。結果表明,對于操作人員的不同姿勢,本研究可以根據對噴霧器和果樹的目標檢測和對人體姿態角度的計算,利用SVM分類器有效完成對果園噴施行為的識別分類。

圖10 識別結果截幀

2.4 模型評價指標

本研究使用的行為識別評價指標為準確度、平均絕對誤差、均方根誤差、預測標準偏差和性能偏差比,準確度越高表明該方法檢測噴施行為越準確,平均絕對誤差、均方根誤差和預測標準偏差越低則表明該方法在不同光線、不同距離、不同人數和不同遮擋程度等條件下的檢測噴施行為穩定性越好,性能偏差比在1.5以上的范圍內越大表明模型越好。

3 試驗結果與分析

采用表1中的92段試驗視頻進行了測試。檢測結果如圖11所示,92段視頻的準確度為85.66%。平均絕對誤差為42.53%,均方根誤差為44.59%,預測標準偏差為44.34%,性能偏差比為1.56。圖12a為第11號試驗視頻的301幀按時間序列排列的行為真實結果,圖12b為采用本模型的第11號試驗視頻的301幀按時間序列排列的行為識別結果,其中藍色部分表示非噴施行為,黃色部分表示存在噴施行為,紅色部分表示無法識別該行為,可以看出圖中兩種色帶基本重合,最終計算可得第11號視頻的準確度為96.68%。

圖11 試驗視頻的準確度變化曲線

存在果樹噴施行為的83段視頻準確度為85.60%,僅有噴霧器的2段視頻檢測準確度為85.10%,僅有果樹的7段視頻檢測平均準確度為86.48%,表明該模型能夠較好完成針對果園操作人員日常行為和噴施行為的區分,動作和農事器具的改變對模型檢測結果的影響不大。

在室外環境下,光照的變化會使果樹、噴霧器和人體的識別變得更加困難,因為光線變化會改變拍攝視頻的色調和明暗,對于識別造成一定干擾,因此需考慮光照變化對識別結果的影響。本研究中分別拍攝了正常光照、陰天和逆光照條件下的45、34、13段視頻。3種條件下噴施行為識別分類的準確度分別為86.43%、88.50%和74.70%。試驗結果表明,果園噴施行為的識別準確度在正常光照和陰天條件下均表現優秀,但在逆光照條件下準確度較低。

有光線變化條件的正常光照(45段)和逆光照(13段)試驗視頻共計58段。人體噴施行為識別結果部分檢測幀如圖13所示,可以看出在不同光線變化下的識別效果均比較準確。在4種光線變化下的識別結果對比如表4所示,行為識別準確率基本在80%以上。在日出后1 h和日落前1 h,光線較為柔和的條件下識別效果更好,而在光線較強時受光斑和陰影干擾,識別效果相對較差。

圖13 不同光線條件下的部分識別結果

表4 不同光線條件下人體噴施行為識別結果對比

4 討論

果園噴施行為的識別檢測通常在復雜的室外環境進行,干擾因素較多,同時人體姿態的識別涉及到多個關鍵關節點,計算難度增加,行為識別困難,因此為驗證該模型的魯棒性,分析對比了影響果園噴施行為識別檢測的主要因素。

4.1 本文算法與現有研究結果比較

目前尚未發現對于果園操作人員行為監控識別的相關研究,雖然結合物體特征的人體行為識別類算法取得了一定的效果,但是難以適用于果園環境下人員行為的識別監測。因此本研究采用人體姿態識別和場景交互結合的模型,完成對于果園噴施行為的識別。測試結果表明,平均準確度為85.66%,可為果品溯源體系中果園農藥施用等噴施行為的監管提供技術參考。

4.2 距離因素對果園噴施行為識別結果的影響

攝像頭與人體的遠近變化可能會給果園噴施行為的識別帶來一定負面影響。因此,為探索該模型對攝像頭距離變化干擾的魯棒性,本研究需要分析和討論在具有4類常見距離變化干擾的試驗視頻中的相關性能。圖14顯示在不同距離時,采用訓練后的YOLO v5模型對于噴霧器和果樹的識別結果??梢钥闯?,訓練后的YOLO v5模型可以在果園環境中識別到不同距離時的果樹及噴霧器目標,為人員行為的識別檢測奠定了基礎。圖15分別顯示了在近、中等和較遠距離情況下本模型的果園噴施行為識別結果。

圖14 不同距離時目標的識別結果

圖15 不同距離時行為的識別分類結果

圖16為第5號試驗視頻的3種行為真實結果和采用本模型檢測的3種行為識別結果的時間序列可視化對比結果??梢钥闯?,以第5號視頻為例,在人體和攝像頭的距離快速變化的干擾下,對于人體姿態的捕捉和行為分類結果并未產生影響。結果表明該模型能夠適應姿態變化和目標距離變化的兩種影響,完成果園內人員噴施行為的識別。

圖16 第5號視頻行為識別結果對照

如表5所示,該模型在不同距離時的行為分類結果,準確度最低為79.57%,而果園架設攝像頭的真實場景中最多出現的中等距離和遠距離條件下,噴施行為識別分類結果準確度為91.25%,表明該模型對果園噴施行為識別的距離因素干擾具有良好的魯棒性。

表5 不同距離時的行為分類結果對比

4.3 遮擋因素對果園噴施行為識別結果的影響

在果園環境中,常見的遮擋干擾因素為噴霧器和人體關節點的遮擋,圖17a為第1號試驗視頻中存在嚴重遮擋的某幀噴霧箱識別結果,圖17b為存在遮擋的某幀人體識別結果。即使在背景復雜的果園室外環境中,該模型的前期訓練結果仍可有效識別人體和噴霧箱。

圖17 第1號視頻中目標檢測結果

圖18為第2號視頻中部分幀的果園噴施行為識別結果??梢园l現,該模型成功分類了302幀中94.24%的果園操作人員的行為。

圖18 第2號視頻中行為分類結果

圖19呈現了在時間序列中,第3號試驗視頻的行為真實結果和采用本模型檢測的行為識別結果的可視化對比結果。結果表明,在人體上肢或噴霧器發生嚴重遮擋時,本研究提出的模型易發生漏檢和誤檢情況,這是因為噴霧器目標或人體上肢關鍵關節點數據讀取不全,發生誤判導致的。

圖19 第3號視頻行為識別結果對照

92個測試視頻中,針對有嚴重遮擋情況的視頻模型,模型識別準確度為86.71%,表明該模型可以有效識別在果園發生復雜遮擋時的人員噴施行為。

4.4 人員因素對果園噴施行為識別結果的影響

在果園環境中,人員流動復雜,因此含有多人且單人噴施行為的識別也是模型識別結果的重要考量因素。

該模型主要針對測試視頻中單人背負噴霧器的情況進行識別,對于視頻中含有多人的情況,將噴霧器與離其最近的人體識別結果相對應存儲,再進行后續識別工作。在2段包含3人的試驗視頻中,模型識別準確度為72.33%,其中第43號試驗視頻的識別準確度為63.25%,主要原因為該視頻中的果樹目標識別率較低,影響了噴施行為的識別。測試結果表明,若處在噴施行為中的單人能夠在視頻初始幀中被首先識別完成并在視頻中被持續跟蹤,則該模型能夠有效識別多人情況中的單人噴施行為。

5 結論

(1)該方法對于試驗視頻中3類行為的識別平均準確率為85.66%。在光照、遮擋、多人情況下僅一人背負噴霧器和距離變化等4種情況下該方法的魯棒性較好,能夠用于識別果園中的噴施行為。同時該方法在視頻環境的光線較弱時更適合,當光線過強時會因光斑和陰影使識別結果產生較大誤差。

(2)該方法可以通過視頻監控對攝像范圍內的果園噴施行為進行識別,擺脫了人為記錄噴霧次數導致的疲勞和低信任度。同時,噴施行為的有效識別對于后期判斷農藥是否科學噴施、是否農藥過量、檢測農藥殘留和檢測農藥有效沉積等均能提供重要參考,進一步幫助果園的智能化和自動化發展,完善果品溯源體系。

(3)在多人情況下,由于方法中尚未涉及目標跟蹤和目標重新分配的相關問題,只能對背負噴霧器的一人完成識別,不能識別多人均背負噴霧器時的行為。當逆光嚴重或人與攝像頭的距離過近時,會由于噴霧器和果樹距離的距離像素值過高而增加產生誤識別的幾率,因此攝像頭的安裝位置會在一定程度上影響行為識別結果。

(4)本研究未針對噴霧器的霧液進行檢測與交互,即若監控中果園操作人員僅舉著噴霧桿擺動手臂但沒有噴施藥液的情況下會誤判,但該情況發生概率在實際生產中較低,因此未納入考慮范圍。同時,雖然人體可能在鏡頭下發生一定時間的畸變和消失,但在實際生產生活中,果樹的葉面肥料和農藥施用僅在鏡頭死角發生的情況較少,后續通過捕捉視頻幀即可判斷是否發生噴施行為。因此本研究后續將改進網絡,完成分類的實時性、增加對噴施次數的記錄、捕捉關鍵幀和實現多人同時檢測的功能,實現對果園噴施行為的實時監測和信息記錄。

猜你喜歡
關節點噴霧器果樹
果樹冬季要休眠 易受凍害要注意
基于深度學習和視覺檢測的地鐵違規行為預警系統研究與應用
不同噴霧器噴藥對草地貪夜蛾幼蟲的防控效果
關節點連接歷史圖與卷積神經網絡結合的雙人交互動作識別
天漸冷果樹防凍要抓緊
噴霧器新傳
搞好新形勢下軍營美術活動需把握的關節點
RGBD人體行為識別中的自適應特征選擇方法
設置加固扣帶的背式噴霧器
怎么解決施肥引起的果樹爛根
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合