设备端语音处理技术解析
创新训练方法与模型压缩技术结合巧妙工程设计,使语音处理保持本地化运行。
系统架构
设备端自动语音识别(ASR)模型接收语音信号,输出按概率排序的识别假设集合。这些假设以网格形式表示——一个包含识别单词及单词间转移概率的图结构。
与传统云端ASR传输加密音频帧不同,设备端ASR仅向云端发送假设网格,由强大的神经语言模型重新排序假设。网格需在用户结束说话后才能发送,因为序列后续单词可能显著改变假设的整体概率。
端点检测模型决定用户何时结束说话,需要在准确性和延迟间取得平衡。设备端实际运行两个端点检测器:推测性端点检测器比最终端点检测器快约200毫秒,可提前启动下游处理任务;最终端点检测器决策更慢但更准确,在多数情况下推测性端点检测器正确运作,从而降低用户感知延迟。
上下文感知
设备端ASR还需实现上下文感知功能。在计算网格概率时,系统需优先考虑用户通讯录联系人或智能设备名称等特定词汇。初期采用浅融合模型在构建网格时提升相关词汇概率,后续开发了基于多头注意力的上下文偏置机制,与ASR子网络联合训练实现更好效果。
模型训练
设备端ASR需要全新构建的端到端循环神经网络传感器(RNN-T)模型,直接将输入语音映射为单词序列。采用单一神经网络显著减少内存占用,但需要开发新的推理和训练技术。
通过师生训练方法,让小模型学习大模型的输出行为,开发了基于百万小时未标注语音的高效训练方法。还开发了允许神经网络学习利用音频上下文的技术,以及直接最小化词错误率的判别性损失训练算法。
模型压缩
量化技术将权重值域划分为小区间,用单个值代表每个区间的所有权重。开发量化感知训练方法,在训练期间对网络权重施加概率分布,便于量化且不影响性能。
稀疏化方法在训练期间逐步减少低权重值,使网络学习适合权重剪枝的模型。经过多个训练周期后,固定数量的权重 effectively 变为零,可安全丢弃。
分支编码器网络使用两个不同复杂度的神经网络转换语音输入,ASR模型动态决定是否可将输入帧传递给简单模型,节省计算成本和时间。
硬件软件协同设计
量化与稀疏化需要底层硬件支持才能发挥优势。专门设计的神经边缘处理器家族针对压缩方法进行优化,对核心操作使用8位或更低比特表示,内置解码压缩表示的电路设计,能识别零值并丢弃相关计算。
设备端语音识别还涉及模型更新带宽减少、自然语言理解模型压缩等创新,确保在间歇性网络连接设备上的基本功能。多语言设备端ASR模型支持动态语言切换的工作也在积极推进中。
设备端语音处理的推出是实现"边缘处理"优势的重要里程碑,相关技术研发将持续推进。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码