一、概念
1、MADDPG(Multi-Agent Deep Deterministic Policy Gradient)是一种基于单智能体的DDPG算法扩展,解决多智能体交互场景下的训练不稳定性、环境非平稳性问题,于2017年提出
2、适用于合作、竞争或者混合互动的多智能体任务,例如机器人协作、多智能体游戏、自动驾驶调度
二、算法核心思想
1、集中式训练+分布式执行
2、每个智能体是一个Actor-Critic,Actor输出动作,Critic评估动作的价值
3、Critic是全局的,不仅依赖于单个智能体的状态和动作,还使用所有智能体的状态和动作