当前位置：首页 > news >正文

强化学习人类反馈训练新方法解析

news 2025/10/5 14:10:36

一种改进的强化学习人类反馈训练方法

在今年的国际学习表征会议（ICLR）上，我们提出了一种限制伪相关性的方法，称为SeRA（自审查与对齐）。首先，在人类标注数据上进行第一轮RLHF后，我们使用大语言模型本身生成额外的训练示例。然后利用大语言模型的输出概率评估训练对的偏好强度，仅保留那些偏好响应被强烈偏好的对。

直接偏好优化

强化学习是一种试错方法，智能体与世界交互，根据其采取的行动获得或多或少的奖励。随着时间的推移，智能体尝试学习一种最大化累积奖励的策略。

在传统RLHF中，奖励由另一个在人类标注数据上训练的模型计算。但这种方法耗时且扩展性差。使用DPO时，不需要第二个模型：如果大语言模型选择人类偏好的输出，就会获得奖励，否则不会。

DPO的缺点是将所有训练对平等对待：无论偏好输出是被强烈偏好还是轻微偏好，奖励都相同。这增加了模型学习伪相关性的可能性。

SeRA方法

使用SeRA，我们首先使用人类标注的示例对数据集执行传统的DPO。在第一次通过数据后，大语言模型已经了解了人类偏好的输出类型。

然后，我们使用更新后的模型生成一组新的训练示例。对于每个生成的响应对，我们为每个响应分配一个偏好分数，该分数基于更新后模型生成该响应的概率。然后我们仅保留那些偏好响应得分显著高于非偏好响应的对。

接下来，我们使用相同的指标过滤原始人类标注数据集中的数据。然后将原始数据集中过滤的样本与我们新生成的数据集中过滤的样本合并，并再次执行DPO。这个过程重复进行，生成样本在数据集中构成的比例越来越大，直到模型性能收敛。

这里的直觉是，如果数据集旨在表示某种对比，但也包含伪相关性，那么预期对比（如有毒和无毒数据之间）将显著大于非预期对比（如长响应和短响应之间）。

实验评估

为了评估我们的方法，我们在四个基准数据集上比较了使用SeRA训练的模型与三个基线模型。对于每个测试输入，我们将模型的输出与每个基线的输出进行比较，并使用现成的大语言模型选择更好的响应。在这些成对比较中，经过SeRA训练的模型的胜率全面高于所有三个基线，有时高达20%至40%。

虽然我们在实验中使用了DPO，但在论文中，我们还演示了如何将我们的方法推广到其他直接对齐算法。最后，存在一定风险，当使用模型生成的数据训练模型时，我们可能会陷入反馈循环，其中模型过度放大了初始数据集的某些方面。因此，在每次通过数据时，模型的奖励不仅基于当前迭代，还基于过去的迭代，以确保训练数据特征特性的连续性。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码