?

基于DDPG的爬塔機器人越障決策控制方法研究

2023-12-22 13:15寧涵雪張偉軍
傳動技術 2023年4期
關鍵詞:鐵塔機體障礙

寧涵雪 張偉軍

(上海交通大學機械與動力工程學院,上海 200240)

1 爬塔機器人研究現狀

隨著我國經濟的快速發展,電力系統已成為國家高效發展的動脈線和社會繁榮的生命線。目前我國電力資源與電力消耗的地理分布極不平衡,國家電網建立了眾多輸電鐵塔來協調各地區的用電與發電。這些鐵塔工作環境惡劣,長時間裸露在空氣中,可能會出現安全隱患,因此需要維修人員定期對輸電鐵塔進行巡檢和維護。傳統的鐵塔檢修工作通過人工完成,維修人員采用雙安全帶交替綁定鐵塔的方式攀爬鐵塔,工作強度高且安全風險極大。使用機器人代替人工執行任務可以降低維修人員勞動強度和安全隱患,并且能夠提升巡檢效率和覆蓋率。目前爬塔機器人大都機械結構復雜,攀爬步態復雜[1-6],不同鐵塔的障礙環境又有很大差異,這給機器人的使用和使用帶來了一定困難。因此要求機器人具有適應不同障礙環境的自動攀爬能力,從而降低機器人的操作難度,提高機器人工作效率和適用廣泛性。

目前對于爬塔機器人的自動控制方法主要分為兩類,一類是根據機械結構和任務需求,設計機器人狀態機或行為樹,在實際工作中結合環境感知數據和機器人狀態,按照預設邏輯執行任務[7-10];另一類則是使用強化學習等智能算法來確定機器人運動策略[11-14]。前者便于完成機器人底層控制,但應用場景單一,一般一種狀態機或行為樹策略只能對應一種障礙環境;后者可以根據不同環境來調整運動策略,但是許多任務實際不需要通過訓練就可以直接決策,這些任務增加了學習的負擔,在實際控制中計算效率過低。

本論文根據層次化控制理論對輸電鐵塔攀爬機器人的自動攀爬進行研究,利用深度確定性策略梯度算法(Deep Deterministic Policy Gradient)得出的越障策略作為高層決策,輸出任務序列,并將其映射到行為樹上具體節點,通過執行行為樹節點實現具體動作。論文首先介紹了爬塔機器人的工作環境和機械結構,分析了機器人攀爬時的越障步態,并介紹了環境感知系統以及底層硬件系統,分析了可獲取到的機器人狀態信息與鐵塔障礙信息。接著根據機器人建立馬爾可夫決策模型,利用DDPG算法訓練機器人越障策略。最后,對該方法在不同障礙環境下進行仿真,并結合行為樹集成到爬塔機器人控制系統中進行實地試驗,驗證其有效性和適應能力。

2 爬塔機器人系統

2.1 工作環境

本文中機器人的工作環境是高壓輸電鐵塔,按照結構可分為羊角塔、貓頭塔、干字塔、酒杯塔等,如圖1所示。鐵塔主材上有角鐵、鉚釘、螺栓、連接板等障礙,如圖2所示,其長度和位置在不同鐵塔上有很大差異。本課題的機器人需要在這些常規鐵塔的主材上實現自主攀爬功能,因此需要針對不同鐵塔的障礙環境調整越障策略,提高爬塔機器人的適應性。

a.羊角塔 b. 貓頭塔 c. “干”字塔 d. 酒杯塔

圖2 鐵塔障礙

2.2 機械與硬件系統

爬塔機器人機械結構如圖3所示,由一個導軌式機體和兩個結構相同的攀附足構成。

a. 升降機構 b. 伸縮機構 c.旋轉機構

機體由鋁方管搭建,形成一個矩形框架,機體尾部放置電池、控制器、路由器等電氣元件和控制設備;機體頭部設置激光雷達、工業相機等傳感設備;機體導軌上有固定齒條,可供攀附足沿導軌方向移動。攀附足包含升降、伸縮和旋轉三個自由度,足底為一個電磁鐵,可通電實現強磁和消磁。升降機構通過齒輪齒條結構實現,伸縮機構通過電推杠實現,旋轉機構通過伺服電機實現。機器人總長l1=2.1 m,導軌行程l3=1.6 m,足長l2=0.3 m。

機器人在攀爬過程中可以選擇三種動作策略:整體升降、上足升降、下足升降。整體升降需要兩足同時吸附在鐵塔上,讓兩足以同方向同速度加速度升降,使機器人機體實現升降。上足升降需要首先讓下足電磁鐵強磁,上足電磁鐵消磁,保證機器人在只有一個攀附足吸附在鐵塔上的情況下不會掉落;上足縮到底,判斷上足的落足點,將上足移動到指定位置再伸出,從而越過鐵塔上障礙;最終讓上下足電磁鐵去電,恢復兩足同時吸附在鐵塔的狀態。下足升降過程同上足升降。機器人通過升降機構讓機體和上下足交替運動,實現機器人相對于鐵塔的位移,通過伸縮機構使攀附足避開鐵塔環境中的斜拉角鋼、螺栓、鉚釘等障礙區,在無障礙位置落足,實現攀爬過程中的越障功能,如圖4所示。

圖4 主材攀爬運動

機器人硬件系統框圖如圖5所示,可分為運動控制系統和環境感知系統。

圖5 硬件系統框圖

(1)運動控制系統:本機器人采用EtherCAT工業總線,主站控制器倍??刂破鞣胖糜跈C體尾部,從站ELMO驅動器放置于足部,實現組的升降、伸縮和旋轉功能,控制器的IO模塊控制電磁鐵的強磁、消磁和去電。

(2)環境感知系統:上下足和機體頭尾都裝有工業相機和激光測距,機體頭部裝有激光雷達。相機用于檢測鐵塔主材與足相對位置,判斷足落點是否在鐵塔主材范圍內,同時供使用者實時監控機器人環境;激光測距用于獲取障礙與足之間距離,激光雷達用于獲取鐵塔上障礙的點云數據,兩者結合可獲取機器人當前的環境障礙信息,包括障礙相對于機器人的位置和障礙大小,作為后續越障決策的輸入參數。

3 基于DDPG算法越障決策

機器人越障過程是一個在基于連續狀態空間和連續動作空間的決策過程,因此我們選擇DDPG算法,它是基于DQN算法引入了確定性策略梯度,從而解決連續動作問題。

3.1 馬爾可夫決策模型

對于一個智能體,如果它t+1時刻的狀態只和t時刻的狀態有關,那么該狀態轉換就具有馬爾可夫性,當一個隨機過程的任意時刻狀態都具有馬爾可夫性,則被稱為馬爾可夫過程,即:

P(Xt+1=sj+1│X0=s0,X1=s1,,Xt=st)=P(Xt+1=sj+1|Xt=st)

(1)

爬塔機器人越障過程可看作機器人在一維網格上運動,上下足可以交替向前移動,機器人的當前狀態只與前一步的狀態和前一步動作相關,因此可建立越障過程的馬爾可夫決策模型。

設機體長度為Lrobot,上下足長度為Lfoot,世界坐標下機體頂端位置Ytop,上足頂端位置Yup,下足頂端位置Ydown, 本次越障的目標位置Ytarget。越障目標位置由單次環境感知能獲取的范圍決定,通過可獲取范圍內每個障礙起始位置和結束位置的世界坐標,將所有障礙的信息放入隊列中,每次進行越障決策前對障礙信息隊列更新,若機器人已越障成功,則將隊列中該障礙信息彈出,若當前感知到的障礙還未放入隊列,則將障礙信息放入隊列如圖6所示。

圖6 障礙信息更新邏輯

圖7 DDPG算法框架

3.1.1 連續狀態空間

通過分析越障過程中的決策因素,可知上下足相對于機體的位置以及上下足是否與障礙有碰撞會影響決策結果。根據機器人狀態信息和障礙信息,定義狀態空間如下:S=[uppos,downpos,upoverlap,downvoerlap],其中uppos表示上足相對機體的位置;downpos表示下足相對機體位置;upoverlap和downvoerlap分別表示上下足當前位置與障礙是否有重疊。

上下足相對機體的位置取值范圍為(0,1),分別如式(2)~(3)所示。

(2)

(3)

上下足與障礙的重疊情況判斷邏輯如式(4)~式(5)所示。

3.1.2 連續動作空間

機器人越障過程中可選擇的動作有上足升、下足升和整體升,因此可以定義動作空間A=[upmove,downmove,bothmove],每個動作的取值范圍都是[0,Lrobot]:

機器人位置更新需要受到機械約束,更新公式如式(6)~式(8)所示。

3.1.3 獎勵函數

為了加速訓練速度,除了跟障礙有重合的情況,我們考慮給接近目標位置的狀態更高的獎勵,這樣在動作選擇時策略會更傾向連續運動更遠的距離,這也符合實際中我們希望機器人攀爬速度更快的目標如式(9)~式(10)所示。

(4)

(5)

(6)

(7)

(8)

(9)

(10)

機器人按照策略執行動作獲取獎勵,得到累計獎勵如式(11)所示。

(11)

式中:R(s,t)表示當前軌跡下的累計獎勵,γ表示折扣系數,反映了獎勵隨時間重要性下降。

按照一定策略π可獲得在狀態st下采取動作at的獎勵期望Rt,可以評估策略π的價值,用Bellman等式來定義:

Q(st,at)=E[r(st,at)+γQ(st+1,π(st+1))]

(12)

其中最大的價值對應的策略即最優策略π*:

(13)

3.2 深度確定性策略梯度算法

深度確定性策略梯度方法(Deep Deterministic Policy Gradient, DDPG)將Actor-Critic算法作為其基本框架,通過深度學習網絡對策略和動作值函數近似,并使用隨機梯度法來訓練策略網絡和價值網絡模型中的參數。對于策略函數和價值函數都使用了實時網絡和目標網絡的雙重神經網絡模型。同時該算法借鑒了DQN算法中的經驗回放機制,Actor與環境交互產生的經驗數據將存儲到經驗池中,再抽取其中一批數據樣本訓練,使算法更容易收斂。

根據DDPG算法框架,可得DDPG算法執行過程如下。

表1 DDPG算法流程

3.3 仿真結果

仿真運行環境:(1)硬件環境:Intel i7-11800H ,16 G內存,NVIDIA 3060;(2)軟件環境:Python 3.7,Paddle 2.5.2。選取不同位置和不同長度的障礙作為訓練集和測試集,共進行了160000次訓練以學習最佳的越障策略,訓練過程的獎勵回報如圖8所示。

圖8 仿真迭代圖

圖9 測試環境

從圖中可看出訓練開始階段由于智能體沒有相關經驗,從較低的獎勵值開始探索,通過不斷從經驗中學習來提高獎勵回報,Test reward提高到-80左右時可以穩定完成越障。

設置五種障礙環境:一個短障礙、一個長障礙、兩個短障礙、一長一短障礙以及三個障礙,每種環境下取10個不同的障礙長度和障礙間隔的數據,將其作為測試集檢驗訓練效果。

最終可以獲得不同障礙環境下測試效果如下表,所有測試集均可完成越障,證明了算法的可靠性。

表2 測試結果

4 實驗驗證

為驗證該越障算法實用性,將DDPG算法集成在機器人控制系統中,在實際場景進行越障試驗。機器人自動控制由行為樹作為基本框架,其中越障決策由強化學習計算得到,將越障策略映射到行為樹對應節點來執行底層控制。機器人控制框架圖如圖10所示。

圖10 機器人控制框架

實驗工況包括羊角塔、干字塔、酒杯塔、鋼管塔、10 kV鐵塔,機器人針對工況對應輸出了越障策略如圖11~圖12所示。

圖11 不同實驗工況

如下頁圖13所示,在五種工況下,機器人都基于環境感知和強化學習做出了合適的越障決策,并能結合行為樹完成越障,表明機器人具備針對不同障礙環境的自主攀爬鐵塔能力。

5 總 結

本文針對爬塔機器人在不同障礙環境下都需要具備自主攀爬能力的問題,提出了將傳統基于預設控制邏輯的行為樹和能針對環境靈活調整決策的強化學習結合的層次化控制方法。建立了爬塔機器人的馬爾可夫決策模型,并利用可應用在連續動作空間的DDPG算法進行訓練;同時設計了機器人行為樹,并將強化學習得到的策略映射到行為樹具體節點,實現底層控制動作。室外不同工況下的攀爬實驗表明該控制方法能夠有效地指導機器人自動攀爬鐵塔。

猜你喜歡
鐵塔機體障礙
東方鐵塔:氯化鉀產品供應緊張
Ω-3補充劑或能有效減緩機體衰老
睡眠障礙,遠不是失眠那么簡單
磁與鐵的故事
某柴油機機體的設計開發及驗證
大型臥澆機體下芯研箱定位工藝探討
跨越障礙
多導睡眠圖在睡眠障礙診斷中的應用
基于QT的跨平臺輸電鐵塔監控終端軟件設計與實現
“換頭術”存在四大障礙
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合