当前位置: 首页 > news >正文

防止语言模型性能倒退的新方法

确保新版语言处理模型不会出现性能倒退

机器学习服务背后的模型不断更新,新版模型通常比旧版更准确。但整体准确率的提升仍可能伴随着特定情况下的性能回归——即准确率下降。这对用户来说可能令人沮丧,特别是当特定回归产生下游影响时。

在计算语言学协会年会上发表的一篇论文中,我们提出了一种自然语言处理中回归自由模型更新的新方法,使我们能够构建不仅准确率更高、而且能持续保持旧模型正确分类的新深度神经网络模型。

该论文包含两部分:模型更新回归研究和缓解方案提议。研究中,我们使用基于BERT语言模型的公共基准模型,并在通用语言理解评估框架的七项不同NLP任务上训练它们。然后使用不同模型参数或更强大的BERT模型训练更新模型。我们发现即使重新训练后整体性能有所提升,仍有1.9%到7.6%的输入案例出现回归。

为缓解回归问题,我们将匹配过去性能的问题表述为约束优化问题,然后通过知识蒸馏放松该问题,促使新模型在适当情境下模仿旧模型。

NLP模型中的回归缺陷

研究中,我们通过负翻转率衡量模型更新回归,即旧分类器预测正确但新分类器预测错误的案例百分比。对于拥有数千万用户的服务,我们测量的NFR类型将转化为数十万用户的糟糕体验。

研究显示,在更新模型中,NFR通常远高于总准确率增益,高出两到八倍。这意味着仅追求更新模型更高的准确率改进并不能确保减少回归。

如何缓解回归

回归自由模型更新要求模型既要学习目标任务,又要符合旧模型提出的条件,使其成为约束优化问题。我们将硬约束放松为软不等式条件,并提出了替代NFR的代理指标:使用Kullback-Leibler散度(标准相似性度量)来度量预测logits的连续度量。

在评估我们的方法时,我们使用了两个基线:传统方式更新的模型和包含原始模型与更新模型的集成模型。结果显示,当更新涉及改变语言模型时,我们的知识蒸馏方法最有效,将平均NFR降至2.91%,而集成模型为3.63%,传统更新为4.57%。

使用CheckList协议评估模型发现,蒸馏能有效减少几乎所有类型行为测试中的回归,表明我们的蒸馏方法实际上是在将新模型行为与旧模型对齐。

当更新涉及不同随机种子而不改变语言模型时,集成方法表现优于我们的方法。这可能是因为集成天然减少输出方差,使其不易过拟合。

基于初步研究结果,我们设计了一个简单模型选择程序:使用20个随机种子训练20个不同模型,挑选出能提供最大NFR减少的模型。发现在保持相同语言模型的更新情况下,这种方法减少回归的效果与集成方法相当,且无需并行运行两个模型的操作开销。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=24913

相关文章:

  • Delphi 解决IniFiles中文乱码
  • Tarjan详解
  • RAG入门 - Retriever(1) - 指南
  • 分布式微服务系统架构第142集:全栈构建
  • 2025 年电永磁吊具制造厂家 TOP 企业品牌推荐排行榜全新发布,含大型电永磁吊具,全覆盖,起重,小型,钢板,钢板电永磁吊具公司推荐!
  • QBXT2025S刷题 Day4题
  • 实用指南:云原生时代 Kafka 深度实践:03进阶特性与最佳实践
  • 【VM虚拟机】VM新版本,虚拟机中键盘输入延迟卡顿
  • 2025石灰源头厂家最新推荐榜单:深度解析生石灰,熟石灰物流效率与综合实力
  • AtCoder Beginner Contest 426 游记
  • 如何把MCP服务集成到智能体?手把手教学(含视频教程)
  • bootimg.exe检查验证备份导出的img镜像文件是否正常
  • 华为云Flexus+DeepSeek征文|华为云Flexus服务器dify高效的平台通过自然语言转sql并执行搭建电商数据分析
  • 《独立开发者精选工具》第 019 期
  • 活着,就像明天就要死去一样
  • vue漏洞
  • 网站第一开在浏览器中打开慢的原因
  • [JVM] JVM内存调优 - 教程
  • 全面解析DoS攻击防护与应对策略
  • day16 课程(面向对象三大特性:继承 多态 属性)
  • C++ Vector算法精讲与底层探秘:从经典例题到性能优化全解析 - 指南
  • 大数据分析基础及应用案例:第二周学习报告 —— 初探 NumPy 与 Pandas
  • 强化学习人类反馈训练新方法解析
  • 在MyBatis中collection属性的命名规则主要取决于传入参数的类型
  • 20250919_QQ_ICMP
  • 2025CSP-S模拟赛59 比赛总结
  • MCP协议重构AI Agent生态:万能插槽如何终结器具孤岛?
  • 文件的物理结构II
  • zju博士资格考试考前复习(微分方程方向)pde 部分
  • 完整教程:OS9.【Linux】基本权限(下)