减少语音助手不必要澄清问题的新方法
当两个人在嘈杂环境中交谈时,如果一方没有听清或理解对方的意思,自然反应是请求澄清。语音助手也是如此。为了避免基于不准确或不完整理解采取潜在错误行动,语音助手会提出后续问题,例如询问定时器应设置为15分钟还是50分钟。
传统上,决定是否提出此类问题基于机器学习模型的置信度。如果模型预测出多个具有高置信度的竞争假设,澄清问题可以帮助从中选择。
然而,对语音助手数据的分析表明,77%的情况下,即使替代假设也获得高置信度分数,模型排名最高的预测仍然是正确的。在这些情况下,我们希望减少提出的澄清问题数量。
在IEEE自动语音识别与理解研讨会(ASRU)上,我们提出了一项工作,通过训练机器学习模型来确定何时真正需要澄清,从而减少不必要的后续问题。
HypRank模型
在大多数语音助手中,客户语音的声学信号首先传递给自动语音识别(ASR)模型,该模型生成关于客户所说内容的多个假设。排名靠前的假设然后传递给自然语言理解(NLU)模型,该模型识别客户的意图(客户希望执行的操作,如播放视频)和话语槽位(意图应操作的实体,如视频标题,其值可能是"哈利·波特")。
在我们的论文中考虑的场景中,ASR和NLU模型生成的假设传递给第三个模型,称为HypRank(假设排序器)。HypRank结合ASR、意图分类和槽位填充的预测和置信度分数与上下文信号(例如特定客户启用了哪些技能),以生成不同假设的整体排名。
澄清与否的决策
在我们的方法中,我们训练另一个机器学习模型来决定是否提出澄清问题。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑另外两个歧义来源:信噪比(SNR)和截断话语。截断话语是指以冠词("an"、"the"等)、几个所有格(如"my")或介词结尾的话语。
作为输入,模型接收排名最高的HypRank假设;任何在其他三个度量上具有足够相似分数的其他假设;SNR;指示请求是否为重复的二进制值;以及指示五种歧义来源中哪些适用的二进制值。
输入假设的数量可能因适用的歧义类型数量而异。因此,所有非排名最高假设的向量表示被组合形成摘要向量,然后与其他输入的向量表示连接。连接后的向量传递给分类器,该分类器决定是否发出澄清问题。
实验
据我们所知,目前没有现有的数据集具有根据准确性标记的多个ASR和NLU假设。为了训练我们的模型,我们使用了由某中心同事去年在NeurIPS人机对话系统研讨会上提出的模型自动注释的数据。
由于数据集中的所有样本都至少具有一种歧义类型,我们的基线是在每种情况下都提出澄清问题。该方法具有零假阴性率(从不会在必要时未能提出澄清问题),但可能具有高假阳性率。我们的方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码