Indexed by:
Abstract:
为实现海战场环境下多智能体路径规划及目标追踪,以智能体(潜艇或者舰艇)为研究对象,提出一种基于强化学习的深度Q网络算法.通过设计两个结构相同但参数不同的神经网络,分别对其Q实际值和估计值的更新来实现价值函数的收敛.运用ε-贪婪算法设计动作选择机制和基于应用环境设计奖励函数,显著提高LER算法的更新速度和泛化能力等.仿真结果表明,与现有的路径规划算法和多智能体路径规划算法相比,每个智能体能够在陌生环境中有效躲避障碍物,并且通过一定步数的学习实现更加高效的智能规划路线及追踪目标.
Keyword:
Reprint Author's Address:
Email:
Source :
系统仿真学报
ISSN: 1004-731X
Year: 2021
Issue: 10
Volume: 33
Page: 2440-2448
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count: 8
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 3
Affiliated Colleges: