当前位置：首页 > news >正文

2.5 分布式学习（Distributed Learning）

news 2025/10/12 20:40:16

分布式学习（Distributed Learning）

分布式 DQN（GORILA）

深度强化学习的主要瓶颈是学习速度慢，主要由以下两点决定：

样本复杂度（sample complexity）：获得令人满意的策略所需的状态转移数量；
在线交互限制（online interaction）：智能体必须逐步与环境交互才能收集样本。

第二点在现实任务（如机器人）中尤为关键：物理机器人以实时速度运行，因此交互样本获取速率受限。
即使在仿真（如游戏、模拟器）中，环境的运行速度也可能比神经网络训练慢得多。

在常见的单机结构中：

神经网络（值网络与目标网络）运行在 GPU；
环境仿真与经验回放（ERM）运行在 CPU；
由于 CPU–GPU 间通信速度慢，GPU 经常处于空闲状态。

GORILA 框架

Google DeepMind 提出了 GORILA（General Reinforcement Learning Architecture） 框架 [@Nair2015]，用于通过分布式执行者（actors）与学习者（learners）加速 DQN 训练。

主要思想：

多个执行者各自运行环境副本，能并行收集 \(N\) 倍的样本；
各执行者将转移 \((s,a,r,s')\) 发送到经验回放池（可分布式存储）；
多个学习者从回放池中采样小批量，计算损失梯度 \(\frac{\partial \mathcal{L}(\theta)}{\partial \theta}\)；
参数服务器（主网络）汇总梯度并更新权重；
定期同步执行者与学习者的参数。

这种分布式架构可显著提高样本采集与训练速度，但也需要在执行者数量、学习者数量、同步频率之间权衡。
过多学习者可能降低稳定性，更新频率太低会导致梯度不准确。

GORILA 的最终性能与单 GPU DQN 相近，但训练时间从 12–14 天缩短至 2 天（2015 年的结果）。

Ape-X

Ape-X [@Horgan2018] 在分布式 DQN 的基础上进一步改进，提出：

使用单个学习者 + 多个执行者的结构；
结合优先经验回放（PER）；
使用 n-step 回报 与 双重对偶 DQN。

这种结构下，数百个并行执行者能极大提高样本采集速度。
在相同的训练时间下，性能与收敛速度都远超 DQN。

仅用 360 个 CPU 核 + 1 个 GPU，在 20 小时内达到人类 3 倍表现。

R2D2（Recurrent Replay Distributed DQN）

R2D2 [@Kapturowski2019] 结合了 Ape-X 与 DRQN 的思想，具有以下特点：

双重对偶 DQN + n-step 回报（\(n=5\)）；
优先经验回放；
分布式结构：256 个 CPU 执行者 + 1 个 GPU 学习者；
在卷积层后加入 LSTM 层，以解决部分可观测问题（POMDP）。

此外，R2D2 还解决了 LSTM 的工程性问题（如初始状态选择），
一度成为 Atari-57 基准 的最新最优算法。

分布式多执行者学习已成为现代深度强化学习的标准做法，只需增加计算核心（或多台机器人），即可大幅提升性能与效率。

http://www.hskmm.com/?act=detail&tid=29567

相关文章：

心得：刷算法的痛点-只根据题目的case思考，不考虑边界情况，写出一坨shit

2.4 DQN 变体（Rainbow）

Emacs折腾日记(三十二)——org mode的基本美化

2025 工业风机十大品牌全景解析报告：覆盖离心风机，防爆风机，矿用风机的最新推荐

2.3 深度 Q 网络（Deep Q-Network, DQN）

Linux存储媒介devmount

Linux系统目录（文件）结构

实用指南：如何读懂Mach-O：构建macOS和iOS应用安全的第一道认知防线

vim配置使用

shell流程控制

shell展开shell数组

格式化输出与文本处理

2025年10月镀锌卷板厂家最新推荐排行榜，有花镀锌卷板，无花镀锌卷板，高锌层镀锌卷板，批发镀锌卷板公司推荐

React 19.2 重磅更新！这几个新特性终于来了

Akka.NET高性能分布式Actor框架完全指南

基于Docker搭建MySQL Cluster

2025 年抗氧剂厂家最新推荐排行榜，聚酯防黄变抗氧剂，透明膜防晶点抗氧剂，PC聚碳防黄变抗氧剂公司推荐！

PaddleX服务化部署精度低于命令行调用的原因及解决方案 - 指南

某中心与华盛顿大学公布机器人研究奖项与学者名单

会话跟踪方案

阻塞、非阻塞、同步、异步的区别是什么？

如何防范员工泄露数据给 AI？2025年选型与落地实战版

Linux文本编辑三剑客之grep

Linux文本编辑三剑客之sed

做了项目经理才发现：上台发言，其实都有套路