当前位置: 首页 > news >正文

BERT模型简化技术提升效率与容量

简化基于BERT的模型以提高效率和容量

新方法使基于BERT的自然语言处理模型能够处理更长的文本字符串,在资源受限的环境中运行——或有时同时实现这两个目标。

近年来,自然语言处理领域许多性能最佳的模型都建立在BERT语言模型之上。BERT模型在大型公共文本语料库上进行预训练,能够编码词序列的概率。由于BERT模型开始时就具备对整个语言的广泛知识,因此可以用相对较少的标注数据针对更具体的任务进行微调。

然而,BERT模型非常庞大,基于BERT的自然语言处理模型可能运行缓慢——对于计算资源有限的用户来说甚至慢得无法接受。其复杂性也限制了可接受的输入长度,因为其内存占用随输入长度的平方而增加。

在今年的计算语言学协会会议上,我们提出了一种名为Pyramid-BERT的新方法,可在不牺牲太多准确性的情况下减少基于BERT模型的训练时间、推理时间和内存占用。减少的内存占用还使BERT模型能够处理更长的文本序列。

基于BERT的模型将句子序列作为输入,并输出整个句子及其组成词的向量表示。然而,下游应用仅使用完整句子的嵌入。为了使基于BERT的模型更高效,我们在网络中间层逐步消除冗余的单个词嵌入,同时尽量减少对完整句子嵌入的影响。

我们将Pyramid-BERT与几种最先进的BERT模型效率提升技术进行比较,结果显示在仅损失1.5%准确性的情况下,可将推理速度提高3到3.5倍,而在相同速度下,现有最佳方法的准确性损失为2.5%。

此外,当我们将此方法应用于专为长文本设计的BERT模型变体Performers时,可将模型内存占用减少70%,同时实际上提高了准确性。在此压缩率下,现有最佳方法的准确性下降4%。

标记的处理过程

输入BERT模型的每个句子被分解为称为标记的单元。大多数标记是单词,但有些是多词短语,有些是子词部分,有些是首字母缩略词的单个字母等。每个句子的开头由一个特殊标记分隔。

每个标记通过一系列编码器,每个编码器为每个输入标记生成新的嵌入。每个编码器都有一个注意力机制,决定每个标记的嵌入应反映其他标记携带的信息量。

随着标记通过一系列编码器,它们的嵌入会包含关于序列中其他标记的越来越多信息。当标记通过最终编码器时,CLS标记的嵌入最终代表整个句子。但其嵌入也与句子中所有其他标记的嵌入非常相似。这就是我们试图消除的冗余。

基本思想是,在网络的每个编码器中,我们保留CLS标记的嵌入,但选择其他标记嵌入的代表性子集。

嵌入是向量,因此可以解释为多维空间中的点。为了构建核心集,理想情况下,我们将嵌入分类为等直径的簇,并选择每个簇的中心点。

不幸的是,构建跨越神经网络层的核心集的问题是NP难的,意味着耗时过长。

作为替代方案,我们的论文提出了一种贪心算法,每次选择n个核心集成员。在每一层,我们取CLS标记的嵌入,然后在表示空间中找到距离它最远的n个嵌入。我们将这些与CLS嵌入一起添加到核心集中。然后我们找到与核心集中任何点的最小距离最大的n个嵌入,并将它们添加到核心集中。

我们重复此过程,直到核心集达到所需大小。这被证明是优化核心集的充分近似。

最后,在我们的论文中,我们考虑了每层核心集应该有多大的问题。我们使用指数延迟函数来确定从一层到下一层的衰减程度,并研究选择不同衰减率时准确性与加速或内存减少之间的权衡。

致谢:Ashish Khetan, Rene Bidart, Zohar Karnin
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=27933

相关文章:

  • 251010
  • Redis 64字节分界线与跳表实现原理 - 实践
  • 新手报道
  • VUE---await的运用
  • 供应链业务架构设计概览
  • VS Code保存.vue文件自动格式化标签的问题
  • 基于最小二乘(LS)信道估计的MATLAB实现
  • 让老弟做个数据同步,结果踩了 7 个大坑!
  • 2025焊接件加工制造厂家口碑最新推荐榜:实力工艺与市场口碑
  • 2025机械加工厂家实力排行榜:技术精度与供货效率权威测评
  • 2025 年最新推荐!依托优质运输网络的国际搬家海运公司排行榜:覆盖澳洲多地家具海运需求澳洲/悉尼/墨尔本/大型家具海运公司推荐
  • 完整教程:计算机环境、用户与系统变量
  • 2025耐磨轮胎厂家TOP5推荐:超强抓地力与持久耐用性深度
  • CF做题记录
  • 2025 年中国搬家服务公司最新推荐榜:聚焦海运移民家具运输等需求,精选优质企业实测解析国际/国际海运/国际移民/家具海运/回国搬家海运公司推荐
  • NVIDIA CUDA 镜像 Docker 容器化部署全流程
  • AI时代,程序员的核心竞争力:从“编码工匠”到“元问题架构师”的终极进化
  • 小雅
  • 易基因:JEM(IF10.6):单细胞转录组测序(scRNA-seq)揭示过敏性肺部疾病的调控网络|项目文章
  • Services.AddRazorPages解释
  • 2025 年金属线槽厂家最新推荐排行榜:涵盖不锈钢、铝合金、防火等多类型产品,助您精准挑选优质厂家企业
  • 02_通讯录实现
  • 2025 空气离合器生产厂家最新推荐榜:电网冲击缓解技术测评与可靠性排行,含单片多片机型及核心部件企业
  • 2025 气动离合器厂家最新推荐榜权威发布:聚焦博得 PLC 技术与新兴品牌降本优势多片式气动离合器/气动离合器电磁阀/气动离合器气缸/气动离合器摩擦片/单片式气动离合器厂家推荐
  • Unicode 编码解码工具类
  • 2025 木粉源头厂家最新推荐榜:全品类适配 / 稳定供应 / 技术赋能品牌权威解析,采购必看杂/刨花/木塑/化工/造纸/香/猫砂木粉厂家推荐
  • mergeGDS
  • 读书笔记
  • 有奖话题:Data Agent for Meta 能否成为企业级 “数据大脑”?
  • 汉印打印机N41BT驱动 安装后无法打印