当前位置: 首页 > news >正文

GRPO

参考视频

GRPO 指的是 Group Relative Policy Optimization(组相对策略优化),最早由 DeepSeek 在 DeepSeekMath 里提出,用来做 LLM 的 RL(尤其是推理/Chain-of-Thought 任务)的高效替代 PPO 的算法。

PPO 需要一个价值网络/critic来算优势函数(advantage)。在 LLM 里这个东西不好学、还很占显存。GRPO 直接绕开价值网络:同一个提示(prompt)下,采样出一小组(group)答案,用组内相对名次当作优势——谁比“组平均”好就往谁的方向推,谁比“组平均”差就降权。这既利用了偏好/奖励的“相对性”,也节省了大半内存。

采样

给大模型问题Query,让大模型回答,得到Completion,这个过程叫做采样。

关于回答的多样性

1+1?,第一种“2”,第二种“等于2”. 这可以通过top K实现,并非每次预测都选择概率最大的token,而是概率前K个可以随机选。

http://www.hskmm.com/?act=detail&tid=33688

相关文章:

  • 2025年10月项目管理工具推荐榜:覆盖敏捷瀑布混合模式的中立评析与避坑要点
  • QQ音乐v19.51下载
  • 2025年10月止痒控油洗发水推荐榜:十款热门单品多维对比与中性选购指南
  • 2025年10月止痒控油洗发水推荐榜单:十款热门单品深度对比与中立评测
  • 关于小程序开发的事(需要找团队开发的,请看)
  • 2025年10月止痒控油洗发水评测推荐:聚焦头皮屏障修复与临床验证的排名解析
  • 2025年10月激光切割机品牌推荐榜:五强对比评测与选购决策指南
  • 2025年10月激光切割机品牌推荐排名:以透明数据为基础的实用选择指南
  • contour
  • 2025年10月石墨电极厂家推荐排名:晶碳科技产品矩阵与合规资质透视
  • 2025年10月领先品牌认证机构推荐榜:尚普与华信人深度对比评测
  • 2025年10月领先品牌认证机构推荐榜:聚焦尚普与华信人的权威数据与落地价值
  • 做题笔记20
  • 博客园地址
  • RM500U-EA
  • 重磅!JBoltAI 框架:Java 企业级 AI 应用开发首选,终身授权 + 专属 VIP 服务
  • 242. 有效的字母异位词
  • 2025年10月槲皮素产品推荐榜:五款热门单品深度对比与中立评测
  • 面试算法题
  • 芯片集成
  • System.Windows.Forms.DataVisualization.Charting 完全指南
  • 自指辛苦而精彩,自洽酸涩而浪漫;好事多磨,良性循环
  • 什么是 Agentic ?
  • Index of /virtualbox
  • 物联网平台选择之思辨
  • 区间压缩dp(poj3254)
  • 命令行构建失败,但idea上右侧maven构建可以?
  • 完整教程:C++STL之list
  • DS:一个处理php前端数据的实用类
  • rk3399 安卓7 添加 exfat 格式U 盘支持