Abstract:
具备学习能力是高等动物智能的典型表现特征,为探明四足动物运动技能学习机理,本文对四足机器人步态学习任务进行研究,复现了四足动物的节律步态学习过程.近年来,近端策略优化(PPO)算法作为深度强化学习的典型代表,普遍被用于四足机器人步态学习任务,实验效果较好且仅需较少的超参数.然而,在多维输入输出场景下,其容易收敛到局部最优点,表现为四足机器人学习到步态节律信号杂乱且重心震荡严重.为解决上述问题,在元学习启发下,基于元学习具有刻画学习过程高维抽象表征优势,本文提出了一种融合元学习和PPO思想的元近端策略优化(MPPO)算法,该算法可以让四足机器人进化学习到更优步态.在PyBullet仿真平台上的仿真实验结果表明,本文提出的算法可以使四足机器人学会行走运动技能,且与柔性行动者评价器(SAC)和PPO算法的对比实验显示,本文提出的MPPO算法具有步态节律信号更规律、行走速度更快等优势.
Keyword:
Reprint Author's Address:
Email:
Source :
控制理论与应用
Year: 2024
Issue: 01
Volume: 41
Page: 155-162
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 20
Affiliated Colleges: