部分可观测下基于RGMAAC算法的多智能体协同 - Details

Author：

王子豪 (王子豪.) | 张严心 (张严心.) | 黄志清 (黄志清.) | 殷辰堃 (殷辰堃.)

Abstract：

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent　gated　multi-agent　Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性方面优于基线算法.

Keyword：

智能体间通信部分可观测多智能体深度确定性策略梯度多智能体深度强化学习

Author Community：

[ 1 ] 北京交通大学电子信息工程学院
[ 2 ] 北京工业大学信息学部

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

控制与决策

Year： 2023

Issue： 05

Volume： 38

Page： 1267-1277

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 7

Affiliated Colleges：

信息科学技术学院本学院/部未明确归属的数据

Get Fulltext

Library Discovery Baidu Scholar Search CNKI CNKI CNKI CNKI

Type
Departments

All Years Choose Year From to