• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

朱晓庆 (朱晓庆.) | 陈江涛 (陈江涛.) | 张思远 (张思远.) | 刘鑫源 (刘鑫源.) | 阮晓钢 (阮晓钢.)

Abstract:

复现高等生物的学习过程是机器人研究的一个重要研究方向,研究人员已探索出一些常用的基于行动者评价器(actor critic,AC)网络的强化学习算法可以完成此任务,但是还存在一些不足. 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)存在着Q值过估计导致恶化学习效果的问题,受到大脑前额叶皮质层仲裁机制的启发,提出了一种深度仲裁行动者评价器(deep arbitration actor critic,DAAC)算法,其中包含两套评价网络,通过仲裁机制进行择优选取评价网络去更新策略参数,有效解决了Q值过估计的问题,该算法使得四足机器人成功复现了仿生的步态学习过程. 通过仿真实验,将DAAC算法与DDPG、软行动者评价器(soft actor critic,SAC)、近端策略优化(proximal policy optimization,PPO)三种算法进行了对比实验,实验证明经DAAC训练的四足机器人步态在奖励值、机体稳定性和速度三个方面都有更好的表现,有效验证了算法的优越性.

Keyword:

仲裁机制 步态学习 强化学习 四足机器人

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

北京理工大学学报

Year: 2023

Issue: 11

Volume: 43

Page: 1197-1204

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 12

Online/Total:264/10626116
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.