无需重新训练即可为语音识别器添加新词
近年来,自动语音识别已转向全神经网络模型。连接时序分类损失函数因其无需依赖先前上下文即可进行预测而成为ASR(特别是端到端ASR)的有吸引力的选择,从而产生具有低推理延迟的简单模型。
与早期使用词典将音素与候选词匹配的混合ASR模型不同,全神经网络模型难以适应罕见或不熟悉的词汇。由于缺乏上下文,对CTC模型进行新词偏置特别困难:模型在任何给定时间步的预测都独立于先前时间步的输出,这种相同的预测方案使得解码具有低推理延迟。
这对于操作词汇不断变化的ASR应用来说是一个问题,例如当新名称(比如"Zelenskyy")进入对话时,或用户将新名称添加到通讯录时。在包含新词的新数据集上重新训练ASR模型是更新大型模型的一种极其耗时且计算密集的方法。
在我们在今年口语语言技术研讨会上发表的一篇论文中,我们描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。该方法包括多种技术,用于将模型偏向列表中的名称。这些技术适用于模型的编码器(将输入转换为向量表示)和其波束搜索解码器(评估候选输出序列)。这些技术可以组合应用,以最大化准确转录的可能性。
架构
连接时序分类自动语音识别模型的架构,其输出可以偏向可更新实体列表中的名称。
在包含困难医学术语(如疾病和药物名称)的数据集上,我们的方法将ASR模型在这些实体上的F1分数(同时考虑假阴性和假阳性)从无偏置模型的39%提高到62%。同样,在包含欧洲议会录音的公开Vox Populi基准测试中,我们的方法将罕见实体(城市名称、人名等)的F1识别分数从49%提高到80%,而无需对基础ASR模型进行任何重新训练。
偏置技术
我们的基线CTC模型是一个全神经网络,它将音频帧(信号频谱在小持续时间内的快照)作为输入,并将其转换为子词单元上的概率分布序列。这些概率分布由可能的子词序列的加权图表示。为了对候选词序列进行排名,模型解码器使用波束搜索与外部语言模型相结合,该模型对词序列的概率进行编码。
编码器偏置
为了偏置CTC模型的编码器,我们使用上下文适配器,这是一个在冻结基础CTC模型权重后训练的独立模块。适配器将训练示例中的罕见词集合作为输入,并学习词的子词单元序列与其音频表示之间的映射。
在我们的基础网络中,我们使用额外的CTC损失来训练编码器中间层(第6层和第12层)的表示以产生子词序列。这使得模型可以使用先前时间步的输出来影响当前帧的预测。我们的适配器使用这些中间层表示的加权和作为音频表示,从而对抗CTC模型的条件独立性假设。
在推理时,我们使用上下文适配器嵌入罕见或词汇表外实体名称列表,在音频的每个时间帧,注意力模块尝试将名称嵌入与音频表示进行匹配。注意力模块也可以通过关注特殊的
解码器偏置
我们在以下解码器偏置技术中获得了积极结果。所有这些技术都在推理时直接应用:
- 波束搜索解码中的自适应子词提升:如果top-k子词序列以出现在自定义实体列表中的子词开头,我们动态提升其概率
- 单字提升:通过OOV/BOOST类将实体名称列表中的词添加到外部LM来提升其概率,以在推理期间保持LM不变
- 基于音素距离的重评分:获取中间层网络的输出(即音素,或短语音的音素表示),并在它们与CTC模型的输出之间执行强制对齐
- 基于发音的词典查找:对于罕见和OOV词,我们的音素预测假设比子词预测更准确
- 字素到字素技术:使用将单个字素映射到其多个可能发音的表来解决列表中实体名称的替代发音
联合模型
最后,我们提出了一个结合上述编码器和解码器偏置技术的联合模型,正如预期的那样,这些技术相互补充并产生累加收益。从概念上讲,编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数,这有助于防止罕见子词在子词图的波束搜索解码期间被剪枝。罕见和OOV词通过解码器偏置技术获得进一步提升,这些技术通过图将罕见词候选路径提升到最高排名。
我们希望我们的方法能够推动语音社区朝着CTC模型的零样本个性化ASR方向发展,CTC模型正成为ASR系统中日益普遍的选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码