自动评估与语音助手的对话交互
随着与语音助手的交互越来越多地涉及多轮对话,评估这些对话模型的质量变得至关重要。传统方法依赖人工评估,既缓慢又昂贵。
在自然语言处理实证方法会议上,我们提出了一种基于神经网络的新模型,用于估计用户对对话交互的满意度。
技术架构
新模型采用双向长短期记忆网络分析交互序列,结合注意力层确定哪些对话轮次对整体满意度贡献最大。该模型仅使用12个通用特征和5个基于通用句子编码器的新特征,包括用户和系统话语的嵌入表示及其相似度度量。
性能表现
在涵盖28个领域的用户测试中,新模型的客户满意度估计准确率比先前神经网络模型提高27%,比团队早期模型提高7%。值得注意的是,新模型不依赖特定对话管理器的功能,因此能够泛化到新的对话管理系统。
训练方法
与传统方法不同,新模型联合训练逐轮评分和整体用户评估数据,通过注意力机制加权各轮次评分对最终得分的贡献。这些权重从数据中学习,能够跨多个技能和任务泛化应用。
技术细节
模型首先使用LSTM网络预测逐轮评分,然后升级为双向LSTM,同时处理逐轮评分和整体对话评分。双向LSTM的输出经过注意力层加权后传递到网络最终分类层。训练期间使用加权损失函数结合轮级评分和整体对话评分。
当前工作正致力于扩展模型以考虑个体用户偏好,进一步提升个性化评估能力。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码