基于策略蒸馏的四足机器人步态学习方法 - Details

Author：

Abstract：

以柔性动作评价(SAC)为代表的强化学习算法在机器人复现高等动物的运动技能中已取得成功,该框架将策略搜索和状态动作价值函数相结合.但智能体使用策略探索是贪婪的,评价网络估算的Q值函数却使用低估值.为使智能体采取更好的策略,将策略蒸馏(PD)与SAC算法相融合,提出一种PD柔性动作评价(PDSAC)算法,该算法让智能体使用混合策略进行探索,使强化学习得到的奖励函数收敛速度加快.为验证PDSAC算法的有效性,理论证明该算法能提升策略的探索效率,并在四足机器人步态学习任务中进行了验证.仿真实验结果表明:相比SAC算法,PDSAC算法在步态学习任务中可以使奖励函数值提高26.7％,同时收敛速度提升40％.

Keyword：

策略蒸馏强化学习混合策略好奇心探索策略步态学习

Author Community：

[ 1 ] [朱晓庆]北京工业大学
[ 2 ] [王涛]北京工业大学
[ 3 ] [南博睿]北京工业大学
[ 4 ] [毕兰越]北京工业大学
[ 5 ] [陈江涛]北京工业大学
[ 6 ] [阮晓钢]北京工业大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

北京航空航天大学学报

ISSN： 1001-5965

Year： 2025

Issue： 2

Volume： 51

Page： 428-439

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 15

Affiliated Colleges：

学院待认领

Get Fulltext

Library Discovery Baidu Scholar Search WF WF

Type
Departments

All Years Choose Year From to