ICASSP 2022语音识别研究进展
本周,IEEE国际声学、语音与信号处理会议(ICASSP)以虚拟形式拉开帷幕,两周后(5月22-27日)将在新加坡举行线下会议。ICASSP是IEEE信号处理学会的旗舰会议,也是发布自动语音识别(ASR)及其他语音处理和语音相关领域最新进展的主要场所,产业界和学术界参与度都很高。
今年,某智能助手ASR组织共有21篇论文入选,超过以往任何一年,反映了语音相关科学研究的增长。以下重点介绍其中几篇论文,以展示其广度。
端到端ASR的多模态预训练
深度学习方法已成为语音识别和分类任务的首选方法,自监督表示学习越来越多地用于在大型未标记数据集上预训练模型,然后在任务标记数据上进行"微调"。
在论文《自动语音识别的多模态预训练》中,研究人员为这种方法赋予了新思路,通过在视听数据上预训练语音表示。作为两种模态的自监督任务,他们采用了掩码语言模型,其中训练句子的单词被随机掩码,模型学习预测它们。但在他们的研究中,掩码应用于从视频和音频流中提取的特征。
预训练后,学习表示的仅音频部分与更标准的前端表示融合,馈入端到端语音识别系统。研究表明,这种方法比仅基于音频自监督的预训练产生更准确的ASR结果,表明声学和视觉信号之间的相关性有助于提取与语音编码相关的高级结构。
多模态嵌入的信号到解释转换
多模态的优势不仅限于无监督学习设置。在《固定你的嵌入:端到端口语理解的多模态潜在空间》中,研究人员研究了信号到解释(S2I)识别器,它将顺序声学输入映射到嵌入,从中直接推断话语的意图。
这绕过了显式语音转录的需要,但仍使用话语意图的监督。由于其紧凑性,S2I模型对于设备端部署很有吸引力。例如,某智能助手已使用设备端语音处理使其响应更快且带宽更低。
研究表明,当声学嵌入被约束接近预训练语言模型(BERT)产生的相应文本输入的嵌入时,S2I识别器能给出更好的结果。与上一篇论文一样,这种跨模态信号仅在学习期间使用,推理时(即运行时)不需要。这是一种巧妙的方法,将语言结构重新引入S2I系统,同时注入从更庞大的语言模型训练数据中收集的知识。
匹配来自音频的嵌入与相应文本字符串(即转录本)的嵌入思想也有其他应用。在论文《TinyS2I:支持上下文理解的设备端小型话语分类模型》中,研究人员展示了可以为最常用于控制某些应用(如媒体播放)的话语获得极其紧凑、低延迟的语音理解模型。
最频繁的控制命令("暂停"、"音量增大"等)可以直接从声学嵌入分类。对于涉及上下文菜单中项目的命令("播放[标题]"),声学嵌入与媒体标题的文本嵌入匹配。与上一篇论文不同,本文中的文本嵌入与声学嵌入联合训练。但相同的三元组损失函数可用于在共享空间中对齐跨模态嵌入。
使用BERT进行ASR重评分
使用掩码语言模型(MLM)范式训练的深度文本编码器,如BERT,已被广泛用作各种自然语言任务的基础。如前所述,它们可以通过自监督预训练融入大量语言数据,然后进行特定任务的监督微调。
然而,到目前为止,MLM对ASR本身的实际影响有限,部分原因是计算开销(延迟)和可实现的精度提升之间不令人满意的权衡。随着研究人员在《RescoreBERT:使用BERT的判别性语音识别重评分》中描述的工作,这种情况正在改变。
研究人员展示了如何将BERT生成的句子编码纳入重评分ASR模型输出的文本字符串的模型中。由于BERT在大型(仅文本)公共数据语料库上训练,它比ASR模型更能理解不同ASR假设的相对概率。
研究人员使用基于句子伪似然(一种更易于计算的句子似然估计)和词错误预测的组合损失函数获得了最佳结果。由此产生的重评分模型与标准LSTM(长短期记忆)语言模型相比非常有效,同时表现出更低的延迟,以至于RescoreBERT方法在不到一年的时间内从实习项目进入了某智能助手生产环境。
声学事件检测的本体偏置
我们以一篇ASR相邻领域的论文结束这次简短的选择。在《使用树结构本体的声学事件分类改进表示学习》中,研究人员研究了声学事件检测(AED)任务中自监督训练的替代方案。(AED是某智能助手检测破碎玻璃、烟雾报警器和家中其他值得注意事件的能力背后的技术。)
他们表明,通过强制生成的表示不仅识别目标事件标签(如"狗叫"),还识别从本体论(概念间关系的层次表示)中提取的超类别(如"家养动物"和"动物声音"),可以增强AED分类器训练。该方法可以通过强制分类在输入失真下保持不变来进一步增强。研究人员发现,他们的方法比纯粹的自监督预训练更有效,并且仅用一小部分标记数据就接近完全监督训练。
结论与展望
正如我们所看到的,某智能助手依赖一系列使用深度学习架构的基于音频的技术。需要稳健、公平地训练这些模型,并在有限监督下进行,以及运行时的计算约束,继续推动着相关科学研究。我们重点介绍了这项工作的部分成果,这些成果即将向更广泛的科学界展示,我们很高兴看到整个领域提出创造性解决方案,并推动基于语音的AI应用能力不断提升。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码