当前位置: 首页 > news >正文

2.5 分布式学习(Distributed Learning)

分布式学习(Distributed Learning)


分布式 DQN(GORILA)

深度强化学习的主要瓶颈是学习速度慢,主要由以下两点决定:

  1. 样本复杂度(sample complexity):获得令人满意的策略所需的状态转移数量;
  2. 在线交互限制(online interaction):智能体必须逐步与环境交互才能收集样本。

第二点在现实任务(如机器人)中尤为关键:物理机器人以实时速度运行,因此交互样本获取速率受限。
即使在仿真(如游戏、模拟器)中,环境的运行速度也可能比神经网络训练慢得多。

在常见的单机结构中:

  • 神经网络(值网络与目标网络)运行在 GPU;
  • 环境仿真与经验回放(ERM)运行在 CPU;
  • 由于 CPU–GPU 间通信速度慢,GPU 经常处于空闲状态

gorila1


GORILA 框架

Google DeepMind 提出了 GORILA(General Reinforcement Learning Architecture) 框架 [@Nair2015],用于通过分布式执行者(actors)与学习者(learners)加速 DQN 训练。

gorila-global

主要思想:

  • 多个执行者各自运行环境副本,能并行收集 \(N\) 倍的样本;
  • 各执行者将转移 \((s,a,r,s')\) 发送到经验回放池(可分布式存储);
  • 多个学习者从回放池中采样小批量,计算损失梯度 \(\frac{\partial \mathcal{L}(\theta)}{\partial \theta}\)
  • 参数服务器(主网络)汇总梯度并更新权重;
  • 定期同步执行者与学习者的参数。

这种分布式架构可显著提高样本采集与训练速度,但也需要在执行者数量、学习者数量、同步频率之间权衡。
过多学习者可能降低稳定性,更新频率太低会导致梯度不准确。

GORILA 的最终性能与单 GPU DQN 相近,但训练时间从 12–14 天缩短至 2 天(2015 年的结果)。

gorila-results1

gorila-results2


Ape-X

Ape-X [@Horgan2018] 在分布式 DQN 的基础上进一步改进,提出:

  • 使用单个学习者 + 多个执行者的结构;
  • 结合优先经验回放(PER)
  • 使用 n-step 回报双重对偶 DQN

这种结构下,数百个并行执行者能极大提高样本采集速度。
在相同的训练时间下,性能与收敛速度都远超 DQN。

仅用 360 个 CPU 核 + 1 个 GPU,在 20 小时内达到人类 3 倍表现。

apex-results

apex-results2


R2D2(Recurrent Replay Distributed DQN)

R2D2 [@Kapturowski2019] 结合了 Ape-XDRQN 的思想,具有以下特点:

  • 双重对偶 DQN + n-step 回报(\(n=5\));
  • 优先经验回放;
  • 分布式结构:256 个 CPU 执行者 + 1 个 GPU 学习者;
  • 在卷积层后加入 LSTM 层,以解决部分可观测问题(POMDP)。

此外,R2D2 还解决了 LSTM 的工程性问题(如初始状态选择),
一度成为 Atari-57 基准 的最新最优算法。

r2d2-results

分布式多执行者学习已成为现代深度强化学习的标准做法,只需增加计算核心(或多台机器人),即可大幅提升性能与效率。

http://www.hskmm.com/?act=detail&tid=29567

相关文章:

  • 心得:刷算法的痛点-只根据题目的case思考,不考虑边界情况,写出一坨shit
  • OI 数论 1
  • 2.4 DQN 变体(Rainbow)
  • Emacs折腾日记(三十二)——org mode的基本美化
  • 2025 工业风机十大品牌全景解析报告:覆盖离心风机,防爆风机,矿用风机的最新推荐
  • 2.3 深度 Q 网络(Deep Q-Network, DQN)
  • Linux存储媒介devmount
  • Linux系统目录(文件)结构
  • 实用指南:如何读懂Mach-O:构建macOS和iOS应用安全的第一道认知防线
  • vim配置使用
  • shell高级
  • shell流程控制
  • shell展开shell数组
  • shell排错
  • 原木
  • 格式化输出与文本处理
  • 2025年10月镀锌卷板厂家最新推荐排行榜,有花镀锌卷板,无花镀锌卷板,高锌层镀锌卷板,批发镀锌卷板公司推荐
  • React 19.2 重磅更新!这几个新特性终于来了
  • Akka.NET高性能分布式Actor框架完全指南
  • 基于Docker搭建MySQL Cluster
  • 2025 年抗氧剂厂家最新推荐排行榜,聚酯防黄变抗氧剂,透明膜防晶点抗氧剂,PC聚碳防黄变抗氧剂公司推荐!
  • PaddleX服务化部署精度低于命令行调用的原因及解决方案 - 指南
  • 某中心与华盛顿大学公布机器人研究奖项与学者名单
  • 会话跟踪方案
  • 阻塞、非阻塞、同步、异步的区别是什么?
  • 如何防范员工泄露数据给 AI?2025年选型与落地实战版
  • Linux文本编辑三剑客之grep
  • Linux文本编辑三剑客之sed
  • 做了项目经理才发现:上台发言,其实都有套路
  • 占位符