当前位置: 首页 > news >正文

强化学习人类反馈训练新方法解析

一种改进的强化学习人类反馈训练方法

在今年的国际学习表征会议(ICLR)上,我们提出了一种限制伪相关性的方法,称为SeRA(自审查与对齐)。首先,在人类标注数据上进行第一轮RLHF后,我们使用大语言模型本身生成额外的训练示例。然后利用大语言模型的输出概率评估训练对的偏好强度,仅保留那些偏好响应被强烈偏好的对。

直接偏好优化

强化学习是一种试错方法,智能体与世界交互,根据其采取的行动获得或多或少的奖励。随着时间的推移,智能体尝试学习一种最大化累积奖励的策略。

在传统RLHF中,奖励由另一个在人类标注数据上训练的模型计算。但这种方法耗时且扩展性差。使用DPO时,不需要第二个模型:如果大语言模型选择人类偏好的输出,就会获得奖励,否则不会。

DPO的缺点是将所有训练对平等对待:无论偏好输出是被强烈偏好还是轻微偏好,奖励都相同。这增加了模型学习伪相关性的可能性。

SeRA方法

使用SeRA,我们首先使用人类标注的示例对数据集执行传统的DPO。在第一次通过数据后,大语言模型已经了解了人类偏好的输出类型。

然后,我们使用更新后的模型生成一组新的训练示例。对于每个生成的响应对,我们为每个响应分配一个偏好分数,该分数基于更新后模型生成该响应的概率。然后我们仅保留那些偏好响应得分显著高于非偏好响应的对。

接下来,我们使用相同的指标过滤原始人类标注数据集中的数据。然后将原始数据集中过滤的样本与我们新生成的数据集中过滤的样本合并,并再次执行DPO。这个过程重复进行,生成样本在数据集中构成的比例越来越大,直到模型性能收敛。

这里的直觉是,如果数据集旨在表示某种对比,但也包含伪相关性,那么预期对比(如有毒和无毒数据之间)将显著大于非预期对比(如长响应和短响应之间)。

实验评估

为了评估我们的方法,我们在四个基准数据集上比较了使用SeRA训练的模型与三个基线模型。对于每个测试输入,我们将模型的输出与每个基线的输出进行比较,并使用现成的大语言模型选择更好的响应。在这些成对比较中,经过SeRA训练的模型的胜率全面高于所有三个基线,有时高达20%至40%。

虽然我们在实验中使用了DPO,但在论文中,我们还演示了如何将我们的方法推广到其他直接对齐算法。最后,存在一定风险,当使用模型生成的数据训练模型时,我们可能会陷入反馈循环,其中模型过度放大了初始数据集的某些方面。因此,在每次通过数据时,模型的奖励不仅基于当前迭代,还基于过去的迭代,以确保训练数据特征特性的连续性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=24876

相关文章:

  • 在MyBatis中collection属性的命名规则主要取决于传入参数的类型
  • 20250919_QQ_ICMP
  • 2025CSP-S模拟赛59 比赛总结
  • MCP协议重构AI Agent生态:万能插槽如何终结器具孤岛?
  • 文件的物理结构II
  • zju博士资格考试考前复习(微分方程方向)pde 部分
  • 完整教程:OS9.【Linux】基本权限(下)
  • arEPRP and arEHS
  • 图论
  • 价值原语博弈:AI元人文的伦理架构探索
  • 文件的物理结构I
  • VR/AR 显示瓶颈将破!铁电液晶技巧迎来关键突破
  • 博客园-awescnb插件-geek皮肤异常问题修复
  • 国庆 Day1 强基化学
  • 2025 年 AI 应用数据泄露防范:以“流式网关”为中枢的链路化治理与合规映射
  • Alexa进入自主时代:AI技术新突破
  • 入门AJAX——XMLHttpRequest(Get) - 教程
  • ROM和RAM
  • 深入解析:C#学习26天:内存优化的几种方法
  • 整理数据制作 直方图,箱须图,概率密度估计(KDE)图
  • UCosIII 在 Tang Nano 20K 的 SparrowRV 软核移植
  • SIP抓包工具 SIP抓包 SIP抓包
  • 2025声级计厂家最新权威推荐排行榜单! 数字声级计,精密声级计,防爆声级计,手持式声级计,剂量声级计公司推荐!
  • python中使用高并发分布式队列库celery的那些坑 - 指南
  • 在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名计算机控制AI框架需求洞察
  • Codeforces Round 1040 (Div. 1)
  • 2025十一集训——Day3做题
  • 目标检测任务的评估指标P-R曲线 - 指南
  • abc426 题解
  • 运行npp并打开实时双向同步的今日日记纯文本文档 2025年10月5日