当前位置: 首页 > news >正文

大模型后训练

预训练(基础知识广泛学)------微调(具体实操岗前学)------后训练(RLHF专业领域深入学)

策略模型、参考模型、价值模型、奖励模型

 

策略模型:待后训练的大模型

参考模型:初始的策略模型。

奖励模型(RM):目标是刻画模型的输出是否在人类看来表现不错。即,输入 [提示(prompt),模型生成的文本] ,输出一个刻画文本质量的标量数字。

奖励模型可以看做一个判别式的语言模型,因此我们可以用一个预训练语言模型热启,而后在 [x=[prompt,模型回答], y=人类满意度] 构成的标注语料上去微调,也可以直接随机初始化,在语料上直接训练。

奖励模型的大小最好是跟生成模型的大小相近,这样效果会比较好。理解能力所需要的模型参数规模就得恰好是跟生成模型相近。

 

基于 RL 进行语言模型优化:

将初始语言模型的微调任务建模为强化学习(RL)问题,因此需要定义策略(policy)、动作空间(action space)和奖励函数(reward function)等基本要素。

  • 策略就是基于该语言模型,接收prompt作为输入,然后输出一系列文本(或文本的概率分布);
  • 动作空间就是词表所有token在所有输出位置的排列组合(单个位置通常有50k左右的token候选);
  • 观察空间则是可能的输入token序列(即prompt),显然也相当大,为词表所有token在所有输入位置的排列组合;
  • 奖励函数(reward)则是基于训好的RM模型计算得到初始reward,再叠加上一个约束项来。

基于前面提到的预先富集的数据,从里面采样prompt输入,同时丢给初始的语言模型和我们当前训练中的语言模型(policy),得到俩模型的输出文本y1,y2

然后用奖励模型RM对y1、y2打分,判断谁更优秀。 显然,打分的差值便可以作为训练策略模型参数的信号,这个信号一般通过KL散度来计算“奖励/惩罚”的大小。y2文本的打分比y1高的越多,奖励就越大,反之惩罚则越大。这个信号就反映了当前模型有没有在围着初始模型“绕圈”,避免模型通过一些“取巧”的方式骗过RM模型获取高额reward。

最后,便是根据 Proximal Policy Optimization (PPO) 算法来更新模型参数了。

 

PPO 算法确定的奖励函数具体计算如下:

将提示 x 输入初始 LM 和当前微调的 LM,分别得到了输出文本 ,将来自当前策略的文本传递给 RM 得到一个标量的奖励 。

将两个模型的生成文本进行比较计算差异的惩罚项,在来自 OpenAI、Anthropic 和 DeepMind 的多篇论文中设计为输出词分布序列之间的 Kullback–Leibler (KL) divergence 散度的缩放,即,这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值。

 

GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。

群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。

image

GRPO 训练流程(简化版):

  • 生成一组响应:对于每个提示,从 LLM 中生成多个响应的一组。
  • 对组进行打分(奖励模型):获取组内所有响应的奖励分数。
  • 计算组内相对优势(GRAE —— 组内比较):通过比较每个响应的奖励与组内平均奖励来计算优势。在组内对奖励进行归一化以得到优势。
  • 优化策略(使用 GRAE 的 PPO 风格目标函数):使用一个 PPO 风格的目标函数更新 LLM 的策略,但使用这些组内相对优势。
http://www.hskmm.com/?act=detail&tid=36377

相关文章:

  • 2025年低烟无卤辐照线厂家推荐排行榜,UL3302低烟无卤,UL3767低烟无卤,UL4413低烟无卤,专业认证与优质性能保障
  • 2025年10月长白山度假酒店推荐:性价比与景观体验排行
  • 2025 年最新推荐!景观石厂家推荐排行榜,涵盖千层石 / 泰山石 / 鹅卵石等多品类,全方位解析优质品牌助您精准选择
  • 2025 年注浆管厂家最新推荐榜:聚焦桩基 / 钢花 / 管棚 / 隧道 / 预埋等多场景需求,精选优质厂家助力工程高效采购
  • CRM沦为摆设?纷享销客系统运营分析功能助力企业提升数字化效能
  • 2025年10月GEO优化服务商推荐:全平台同步优化排行榜
  • 2025年10月中国AI关键词排名优化公司推荐榜:五家对比与实测排名
  • 2025年太阳能板品牌综合排名TOP10:深圳精益太阳能板领跑行业
  • 2025年太阳能板品牌综合实力排行榜TOP10:深圳精益太阳能板领跑行业
  • 2025年中国国际健康营养博览会(NHNE):深度解析亚洲旗舰展的供需对接机制
  • 2025年中国国际健康营养博览会(NHNE):深度解析亚洲旗舰展的供需匹配机制
  • 2025年10月geo优化服务商推荐:主流口碑榜全对比
  • 2025年中国国际健康营养博览会(NHNE):权威深度解析亚洲旗舰展的供需新秩序
  • 2025 年铝板厂家最新推荐榜:聚焦优质铝板企业,为工业与建筑采购提供专业参考1100/3003/3004/5052/5083/ 6061铝板厂家推荐
  • 2025年包装机厂家权威推荐榜:全自动包装机/生产线/非标定制机器,技术实力与市场口碑深度解析
  • 2025 年防撞桥梁护栏厂家最新推荐排行榜:铝合金 / 景观 / 灯光 / 不锈钢复合管等类型护栏及立柱厂家精选
  • 2025 年轻质抹灰石膏厂家最新推荐排行榜:实力企业全方位评测,含砂浆 / 耐水 / 高强耐水 / 底层 / 找平 / 抗裂 / 隔音类型产品优质厂家
  • 2025 年石膏基自流平厂家最新推荐排行榜:涵盖水泥 / 无机 / 高强 / 快干 / 无收缩 / 环保型等类型,权威解析优质厂家创新实力与市场口碑
  • 2025年润滑油厂家权威推荐榜单:工业齿轮油、液压油、发动机润滑油优质供应商深度解析
  • 2025.10.22——1紫
  • ptz2023Winter Day7 tourist Contest 7
  • 2025年北京市盈科律所:全球规模蝉联第一深度解析
  • 2025 铅板源头厂家最新推荐排行榜:聚焦防辐射铅门 / 高纯度铅板 / 多场景适配,深挖性价比与品牌实力
  • 2025 年褐藻寡糖厂家最新推荐排行榜:农业级 / 食品级 / 化妆品级等多品类覆盖,从技术到服务全维度精选
  • 2025年烘干机厂家权威推荐榜:印染烘干机专业制造商,高效节能与稳定性能深度解析
  • 2025 年通风天窗厂家最新推荐排行榜:聚焦一字型 / 圆拱形 / 电动排烟 / 薄型 / 消防电动类型,精选实力企业
  • 2025年市面上碳晶板品牌口碑排行榜前十名推荐
  • 2025 年防撞护栏生产厂家最新推荐排行榜:聚焦铝合金 / Q235/Q355B 桥梁 / 景观 / 灯光 / 河道 / 公路 / 喷塑 / 道路护栏,精选优质企业
  • 2025 年最新推荐!国内冷库厂家实力排行榜揭晓,含冷冻 / 保鲜 / 超低温等多类型冷库优质企业
  • 想做测开,是学Java还是Python?