?

基于改進PPO算法的雙足機器人自適應行走控制

2024-01-11 13:06吳萬毅劉芳華郭文龍
關鍵詞:雙足步態網絡結構

吳萬毅, 劉芳華, 郭文龍

(江蘇科技大學機械工程學院, 江蘇 鎮江 212000)

雙足機器人為仿人類外形設計, 具有多種行走模式,經控制可實現在樓梯、崎嶇地面等復雜地形環境中智能行走.為保證機器人的穩定運行, 國內外學者開展了大量研究.葛一敏[1], Kim[2], Chen[3]等將離線步態規劃作為主要控制手段, 結合其他在線步態修正算法, 實現了雙足機器人的持續穩定行走, 但對算法解算的快速性與實時性要求較高, 雙足機器人行走至復雜地形時無法迅速適應環境變化, 故該方法對雙足機器人的實際控制效果不理想.深度強化學習(deep reinforcement learning, DRL)算法具有深層網絡結構, 可處理高維狀態信息[3-5].近端策略優化(proximal policy optimization, PPO)作為一種DRL算法, 可重復使用樣本, 減少采樣次數, 縮短學習時間, 在串聯剛性體的軌跡規劃控制中得到了廣泛應用[6-10].Hou等[7]將PPO算法與單剛體的模型預測控制算法相結合, 準確預測雙足機器人擺動下肢的運動狀態, 同時抵抗行走干擾, 實現了雙足機器人的穩定行走, 但該控制方法的模型訓練收斂速度較慢, 并且機器人自重可能會影響行走的穩定性; Zhang等[8]采用PPO算法結合卷積神經網絡處理拍攝的圖像, 提高了狀態處理效率, 使智能體具有穩定的控制效果, 但該方法僅適用于視覺領域的圖像處理, 對于非視覺領域的應用存在局限性.針對上述問題, 本文擬提出一種基于改進近端策略優化算法的雙足機器人控制方法, 將長短時記憶(long short-term memory, LSTM)與近端策略優化算法相結合, 并在非視覺領域引入注意力機制[11], 以期提高算法的學習效率和實現雙足機器人在復雜環境下的自適應穩定行走.

1 近端策略優化算法

2 改進的近端策略優化算法

2.1 引入長短時記憶

圖1 LSTM結構圖Fig.1 Structure diagram of LSTM

2.2 引入多頭注意力機制

多頭注意力機制(multi-head attention mechanism, MHSA)是注意力機制的一種擴展形式, 結構如圖2所示.多頭注意力機制的頭數為h, 多個查詢向量Q和狀態信息輸入向量X經LSTM輸出后, 每個注意力關注LSTM輸出信息的不同部分, 并進行平行計算, 最后將輸出狀態信息的不同權重進行拼接att((K,V),Q)=att((K,V),q1)?…?att((K,V),qm), 從而獲得帶有不同權重的狀態信息, 提高神經網絡處理信息的能力.

圖2 多頭注意力機制Fig.2 Multi-head attention mechanism

2.3 改進后PPO算法網絡結構

改進后PPO算法網絡結構如圖3所示.在動作策略網絡中, 把速度、位姿、雷達信息等24個搜集到的狀態信息作為輸入, 轉化到具有256個隱藏單元的中間層, 通過LSTM映射及注意力機制計算, 輸出帶有權重差異的狀態信息高維表示, 得到連續空間的輸出動作概率分布.在價值網絡中, 輸入狀態經兩層全連接層, 由LSTM映射為一維的價值函數,得到輸出的預測值.

圖3 網絡結構Fig.3 Network structure

3 實驗結果與分析

為驗證所提算法的有效性, 在Open AI gym提供的BipedalWalker-v3環境中進行仿真測試, 利用MuJoCo物理仿真器模擬雙足機器人在崎嶇道路環境下運動時身體姿態和關節角度的自適應變化.機器人具有四自由度和24個維度的狀態信息, 前14個維度的狀態信息包括機器人的關節運動速度、質心角度、地面接觸力等, 后10個維度的狀態信息由雷達提供.機器人行走建模時,設置學習率為0.000 1,衰減率為0.99, 剪切函數的超參數為0.2, 批量大小為256, 梯度閾值為1.

3.1 收斂性

圖4為改進后PPO算法的損失函數曲線.由圖4可知, 隨著迭代次數的增加, 損失函數曲線逐漸趨于平穩, 表明該算法收斂到最優解.為進一步分析所提算法的性能, 采用本文改進算法與PPO算法和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[13]進行對比仿真實驗, 結果如圖5和表1所示.由圖5和表1可知, 本文算法的最終獎勵結果與PPO算法相近, 而收斂速度更快, 這是因為該算法善于利用復雜的狀態信息進行機器人動作預判.綜上, 本文改進的PPO算法較其他算法具有更好的綜合性能.

表1 3種算法的實驗結果對比

圖4 改進后PPO算法的損失函數曲線Fig.4 Loss function curve of enhanced PPO algorithm

圖5 不同算法的平均獎勵對比曲線Fig.5 Average reward graph of each algorithm

利用雙足機器人膝關節和髖關節的彎曲角度數據創建可視化窗口, 分析雙足機器人在仿真環境中的表現, 得到如圖6~7所示的雙足機器人自適應行走和四維動作的輸出結果.由圖6可知, 雙足機器人能夠根據輸入狀態信息, 不斷調整并輸出4個關節的角度, 最終形成穩定步態, 實現自適應行走.由圖7可知, 雙足機器人的4個關節能夠交替進行周期性運動, 進一步證明了算法收斂后雙足機器人運動過程的穩定性.

圖6 雙足機器人自適應性行走示意圖Fig.6 Adaptive walking diagram of biped robot

圖7 機器人四維動作輸出值Fig.7 Output value of robot four-dimensional action

3.2 實物驗證

為驗證本文所提算法對雙足機器人在不同行走環境下的控制效果, 搭建四自由度雙足機器人實物模型, 模型照片及各部分具體參數如圖8和表2所示.

表2 各段參數和關節幅度

圖8 雙足機器人實物模型Fig.8 Physical model of biped robot

在Gazebo物理仿真平臺上, 利用本文所提算法對雙足機器人在平坦地面和高度變化地面分別進行行走訓練, 具體行走過程如圖9所示.訓練完畢后, 遷移近端策略的網絡數據, 進行實物模型驗證, 并通過超聲波距離傳感器測試雙足機器人在平坦地面和高度變化地面行走時水平方向和豎直方向的位移變化情況, 結果如圖10所示.由圖10(a)可知, 雙足機器人在平坦地面行走時的步態周期為2.5 s, 一個步態周期內的水平位移為60 mm, 豎直位移為10 mm以內, 行走過程中雙足機器人始終保持穩定前行.由圖10(b)可知, 雙足機器人在高度變化地面行走時, 能夠根據地面突起高度調節步態,進而實現自適應行走.綜上, 改進后的PPO算法能夠控制雙足機器人在平坦地面及高度變化地面實現自適應行走.

圖9 雙足機器人在不同行走環境下的行走示意圖Fig.9 Illustrations of bipedal robot walking in various environments

猜你喜歡
雙足步態網絡結構
步態異常,老年人應警惕這些疾病
Anti-N-methyl-D-aspartate-receptor antibody encephalitis combined with syphilis:A case report
基于面部和步態識別的兒童走失尋回系統
基于Kinect的學步期幼兒自然步態提取
冰凍的夢
基于互信息的貝葉斯網絡結構學習
知識網絡結構維對于創新績效的作用機制——遠程創新搜尋的中介作用
滬港通下A+ H股票網絡結構演化的實證分析
復雜網絡結構比對算法研究進展
便宜假肢能模仿正常步態
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合