Abstract:
以柔性动作评价(SAC)为代表的强化学习算法在机器人复现高等动物的运动技能中已取得成功,该框架将策略搜索和状态动作价值函数相结合.但智能体使用策略探索是贪婪的,评价网络估算的Q值函数却使用低估值.为使智能体采取更好的策略,将策略蒸馏(PD)与SAC算法相融合,提出一种PD柔性动作评价(PDSAC)算法,该算法让智能体使用混合策略进行探索,使强化学习得到的奖励函数收敛速度加快.为验证PDSAC算法的有效性,理论证明该算法能提升策略的探索效率,并在四足机器人步态学习任务中进行了验证.仿真实验结果表明:相比SAC算法,PDSAC算法在步态学习任务中可以使奖励函数值提高26.7%,同时收敛速度提升40%.
Keyword:
Reprint Author's Address:
Email:
Source :
北京航空航天大学学报
ISSN: 1001-5965
Year: 2025
Issue: 2
Volume: 51
Page: 428-439
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 15
Affiliated Colleges: