无需重新训练即可教语音识别器学习新词汇
近年来,自动语音识别已全面转向全神经网络模型。连接时序分类损失函数因其无需依赖上文语境即可进行预测的特性,成为端到端语音识别的理想选择,这种预测机制可构建推理延迟较低的简易模型。
与早期使用词典匹配音素与候选词的混合语音识别模型不同,全神经网络模型难以适配罕见词或生僻词。由于缺乏上下文依赖关系,对CTC模型进行新词偏置尤为困难——模型在每个时间步的预测都独立于前序输出,这种特性虽然实现了低延迟解码,但也增加了适应性挑战。
应用场景与解决方案
当操作词汇表持续变化时(例如新增"泽连斯基"等人名,或用户通讯录新增联系人),这一问题尤为突出。通过包含新词汇的数据集重新训练模型,对于大型模型更新而言耗时过长且计算成本高昂。
在某中心举办的SLT研讨会上,我们提出了一种无需重新训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种技术,可同时作用于模型的编码器(将输入转换为向量表示)和波束搜索解码器(评估候选输出序列),通过组合应用最大化准确转录的可能性。
技术实现
编码器偏置
通过上下文适配器模块,在冻结基础CTC模型权重后进行训练。该适配器以训练样本中的罕见词集合作为输入,学习词语子词单元序列与其音频表征之间的映射关系。
基础网络中使用额外CTC损失训练编码器中间层(第6层和第12层)的表征,使其能生成子词序列。这使得模型可利用前序时间步的近似输出影响当前帧预测。适配器通过对这些中间层表征进行加权求和作为音频表征,从而抵消CTC模型的条件独立性假设。
推理时,上下文适配器嵌入罕见词或未登录词实体列表,在音频的每个时间帧,注意力模块尝试将名称嵌入与音频表征进行匹配。该模块也可通过关注特殊<无偏置>标记忽略所有名称。若音频确实包含提供列表中的实体,则相应子词单元序列的概率将得到提升。
解码器偏置
在推理时直接应用以下技术获得显著效果:
- 自适应子词增强:若子词序列以定制实体列表中的子词开头,则动态提升其概率
- 单元增强:通过未登录词/增强类别将实体列表中的词语添加到外部语言模型
- 基于音素距离的重排序:利用中间层网络的音素输出与CTC模型输出进行强制对齐
- 基于发音的词典查询:对罕见词使用音素预测假设进行精确匹配
- 字素到字素技术:通过字素与多种可能发音的映射表解析替代发音
联合模型与性能提升
通过组合上述编码器和解码器偏置技术构建的联合模型,各项技术相互补充产生叠加增益。编码器偏置方法有助于为复制的罕见子词生成更高概率分数,防止其在波束搜索解码过程中被剪枝,而解码器偏置技术则进一步促进罕见词候选路径获得更高排名。
在包含复杂医学术语的数据集上,该方法将实体识别F1分数从无偏置模型的39%提升至62%。在包含欧洲议会录音的公开基准测试中,罕见实体识别F1分数从49%提升至80%,且无需重新训练基础语音识别模型。
该方法推动了CTC模型零样本个性化语音识别的发展方向,这类模型正日益成为语音识别系统的普遍选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码