自动评估与语音助手的对话质量
随着与语音助手的交互越来越多地涉及多轮对话,这些对话被用来完善请求细节或协调多个技能。与所有已部署的AI模型一样,对话模型需要定期评估以确保满足用户需求。但评估对话交互是一项挑战;传统上需要人工判断,这使得评估缓慢且成本高昂。
在自然语言处理实证方法会议(EMNLP)上,我们提出了一种基于神经网络的新模型,旨在估计用户对对话交互的满意度。
技术创新
新模型采用双向长短期记忆网络(bi-LSTM)正反向分析交互序列,配合注意力层确定哪些对话轮次对整体满意度贡献最大。在涉及28个领域(如音乐、天气、电影和餐厅预订)的三组用户测试中,该模型比先前基于神经网络的模型准确率提高27%,比团队早期模型准确率提高7%。
模型优势
早期模型利用了特定对话管理器的功能,而新模型无需依赖这些特定功能,这意味着它能够泛化到新的对话管理系统或替代方案。研究人员通常使用逐轮评分的训练数据,因为人们在逐轮评估上更容易达成一致。
在新工作中,我们同时使用逐轮数据和整体用户评估来训练模型,通过注意力机制加权各轮次评分对最终分数的贡献。这些权重从数据中学习,并能跨多个技能和任务泛化。
特征优化
在先前工作中,我们确定了48个不同特征用于预测用户满意度。在新工作中,我们仅保留原特征集中最通用的12个特征,并基于通用句子编码器(USE)新增5个特征。USE通过将输入文本表示为多维空间中的点,使相关文本聚集在一起。新特征包括用户和系统话语的USE嵌入及它们之间的相似性度量。
这一特征集比早期工作使用的更具通用性,适用于各种对话管理器和领域。使用该特征集训练的模型表现优于早期模型——即使测试数据包含早期模型训练所用的特定对话行为。
架构细节
论文中首先考虑使用LSTM网络预测逐轮评分的模型。LSTM按顺序处理输入序列,使每个输出都考虑先前输入和输出。随后提出的模型版本用双向LSTM替代LSTM,正向和反向处理相同数据,联合预测逐轮评分和整体对话评分。
双向LSTM的输出通过注意力层,该层赋予某些对话轮次更高权重,然后传递到网络的最终分类层。训练期间用于评估模型的损失函数是轮次级别评分和整体对话评分的加权组合。
在持续工作中,我们计划扩展模型以考虑个体用户偏好。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码