当前位置: 首页 > news >正文

ICASSP 2022语音识别技术突破与创新

ICASSP 2022语音识别研究进展

本周,IEEE国际声学、语音与信号处理会议(ICASSP)以虚拟形式拉开帷幕,两周后(5月22-27日)将在新加坡举行线下会议。ICASSP是IEEE信号处理学会的旗舰会议,也是发布自动语音识别(ASR)及其他语音处理和语音相关领域最新进展的主要场所,产业界和学术界参与度都很高。

今年,某智能助手ASR组织共有21篇论文入选,超过以往任何一年,反映了语音相关科学研究的增长。以下重点介绍其中几篇论文,以展示其广度。

端到端ASR的多模态预训练

深度学习方法已成为语音识别和分类任务的首选方法,自监督表示学习越来越多地用于在大型未标记数据集上预训练模型,然后在任务标记数据上进行"微调"。

在论文《自动语音识别的多模态预训练》中,研究人员为这种方法赋予了新思路,通过在视听数据上预训练语音表示。作为两种模态的自监督任务,他们采用了掩码语言模型,其中训练句子的单词被随机掩码,模型学习预测它们。但在他们的研究中,掩码应用于从视频和音频流中提取的特征。

预训练后,学习表示的仅音频部分与更标准的前端表示融合,馈入端到端语音识别系统。研究表明,这种方法比仅基于音频自监督的预训练产生更准确的ASR结果,表明声学和视觉信号之间的相关性有助于提取与语音编码相关的高级结构。

多模态嵌入的信号到解释转换

多模态的优势不仅限于无监督学习设置。在《固定你的嵌入:端到端口语理解的多模态潜在空间》中,研究人员研究了信号到解释(S2I)识别器,它将顺序声学输入映射到嵌入,从中直接推断话语的意图。

这绕过了显式语音转录的需要,但仍使用话语意图的监督。由于其紧凑性,S2I模型对于设备端部署很有吸引力。例如,某智能助手已使用设备端语音处理使其响应更快且带宽更低。

研究表明,当声学嵌入被约束接近预训练语言模型(BERT)产生的相应文本输入的嵌入时,S2I识别器能给出更好的结果。与上一篇论文一样,这种跨模态信号仅在学习期间使用,推理时(即运行时)不需要。这是一种巧妙的方法,将语言结构重新引入S2I系统,同时注入从更庞大的语言模型训练数据中收集的知识。

匹配来自音频的嵌入与相应文本字符串(即转录本)的嵌入思想也有其他应用。在论文《TinyS2I:支持上下文理解的设备端小型话语分类模型》中,研究人员展示了可以为最常用于控制某些应用(如媒体播放)的话语获得极其紧凑、低延迟的语音理解模型。

最频繁的控制命令("暂停"、"音量增大"等)可以直接从声学嵌入分类。对于涉及上下文菜单中项目的命令("播放[标题]"),声学嵌入与媒体标题的文本嵌入匹配。与上一篇论文不同,本文中的文本嵌入与声学嵌入联合训练。但相同的三元组损失函数可用于在共享空间中对齐跨模态嵌入。

使用BERT进行ASR重评分

使用掩码语言模型(MLM)范式训练的深度文本编码器,如BERT,已被广泛用作各种自然语言任务的基础。如前所述,它们可以通过自监督预训练融入大量语言数据,然后进行特定任务的监督微调。

然而,到目前为止,MLM对ASR本身的实际影响有限,部分原因是计算开销(延迟)和可实现的精度提升之间不令人满意的权衡。随着研究人员在《RescoreBERT:使用BERT的判别性语音识别重评分》中描述的工作,这种情况正在改变。

研究人员展示了如何将BERT生成的句子编码纳入重评分ASR模型输出的文本字符串的模型中。由于BERT在大型(仅文本)公共数据语料库上训练,它比ASR模型更能理解不同ASR假设的相对概率。

研究人员使用基于句子伪似然(一种更易于计算的句子似然估计)和词错误预测的组合损失函数获得了最佳结果。由此产生的重评分模型与标准LSTM(长短期记忆)语言模型相比非常有效,同时表现出更低的延迟,以至于RescoreBERT方法在不到一年的时间内从实习项目进入了某智能助手生产环境。

声学事件检测的本体偏置

我们以一篇ASR相邻领域的论文结束这次简短的选择。在《使用树结构本体的声学事件分类改进表示学习》中,研究人员研究了声学事件检测(AED)任务中自监督训练的替代方案。(AED是某智能助手检测破碎玻璃、烟雾报警器和家中其他值得注意事件的能力背后的技术。)

他们表明,通过强制生成的表示不仅识别目标事件标签(如"狗叫"),还识别从本体论(概念间关系的层次表示)中提取的超类别(如"家养动物"和"动物声音"),可以增强AED分类器训练。该方法可以通过强制分类在输入失真下保持不变来进一步增强。研究人员发现,他们的方法比纯粹的自监督预训练更有效,并且仅用一小部分标记数据就接近完全监督训练。

结论与展望

正如我们所看到的,某智能助手依赖一系列使用深度学习架构的基于音频的技术。需要稳健、公平地训练这些模型,并在有限监督下进行,以及运行时的计算约束,继续推动着相关科学研究。我们重点介绍了这项工作的部分成果,这些成果即将向更广泛的科学界展示,我们很高兴看到整个领域提出创造性解决方案,并推动基于语音的AI应用能力不断提升。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=33451

相关文章:

  • 140亿元!曝芯片巨头拟出售通信类业务
  • 2025多校冲刺 CSP 模拟赛 6
  • Cisco ASR 9000 Router IOS XR Release 7.11.2 MD - 思科 ASR 9000 路由器系统软件
  • 2025年瑕疵检测设备厂家推荐排行榜,表面瑕疵检测,薄膜瑕疵检测,铝箔瑕疵在线检测,外观瑕疵检测机公司精选!
  • 开机自启动
  • 10.16 闲话-k 短路
  • 初次扫描设计
  • 关于虚数单位与复数
  • AI深度学习平台快速诊断肌张力障碍
  • 2025年多功能防水篷布厂家推荐排行榜,聚乙烯/帐篷/汽车/宴会/盖草布/泳池布/微喷水带/日用盖/农林用/重型机器用篷布公司精选
  • 2025年干燥机厂家推荐排行榜,小型喷雾/实验室离心喷雾/双锥回转真空/搪瓷双锥/旋转闪蒸/振动流化床/真空耙式/单层带式/多层带式/立式沸腾/卧式沸腾/滚筒刮板干燥机!
  • 2025年润滑油厂家推荐排行榜,工业/汽车/发动机/甲醇发动机润滑油,全合成/长效润滑油公司精选
  • 2025年数粒机厂家推荐排行榜,防爆/新型/高速/高精度/智能/大容量/多通道/电子/视觉/全自动/低噪音/制药/农业/食品/电子元件/光电/定制化/鹌鹑蛋/糖果/坚果/药品/片剂数粒机公司推荐
  • 2025年码垛机厂家推荐排行榜,多样板材/倒板/分拣/上料/下料码垛机,全自动/半自动/龙门/桁架/双工位/单工位/单立柱码垛机械手公司推荐!
  • 2025年CNC高压清洗机厂家推荐排行榜,CNC全自动高压清洗机,CNC去毛刺清洗机,工业CNC高压清洗机公司推荐!
  • 数字化ERP“一图四清单”战略执行体系 - 智慧园区
  • 因果分布变化解释方法解析
  • OAuth/OpenID Connect 渗透测试完整指南
  • 2025年塑料托盘厂家推荐排行榜,网格川字/九脚/田字/双面/平板/吹塑/注塑/焊接/印刷/组装款/高矮脚/反川字/立体库托盘公司精选
  • 2025年信息流代运营服务商权威推荐榜:精准投放与高效转化的首选!
  • 2025年铝单板厂家推荐排行榜,氟碳/木纹/冲孔/外墙/雕花/异形/双曲/弧形/雕刻铝单板公司精选
  • 2025年轻钢龙骨厂家,铝方通厂家,铝单板厂家,石膏板厂家权威推荐榜单:专业品质与市场口碑深度解析
  • 2025年解冻设备厂家推荐排行榜,低温高湿/静电解冻/射频解冻/速冻螺旋/缓化柜/复醒柜设备公司精选!
  • 2025年数控滚齿机厂家推荐排行榜,高速/高效/立式/卧式/直齿/斜齿/圆柱齿轮/锥形齿轮/涡轮蜗杆/花键轴/链轮/多联齿/小模数/大模数/高精度滚齿机公司推荐!
  • 2025年防腐木加工厂权威推荐榜:环保耐用,品质卓越的厂家精选!
  • 2025年防水连接器/航空插头/工业网线厂家推荐排行榜,专业品质与耐用性能的首选!
  • 2025年无锡公考/考编培训机构推荐榜单,事业单位/央企国企考编培训优选机构!
  • 2025年储罐源头厂家权威推荐榜单:钢衬塑/钢塑复合/化工/防腐/PE/盐酸/硫酸/聚丙烯/不锈钢/次氯酸钠储罐公司精选
  • 2025年铣刀厂家推荐排行榜,雕刻机/金刚石/木工/绝缘材料/碳纤维/亚克力/金属加工/铝合金/石墨/不锈钢/电木/塑胶/PC铣刀公司精选!
  • 2025年危险品运输公司权威推荐榜:安全高效与专业服务的首选!