当前位置：首页 > news >正文

自动评估对话质量的AI技术突破

news 2025/10/13 6:05:17

自动评估与语音助手的对话质量

随着与语音助手的交互越来越多地涉及多轮对话，这些对话被用来完善请求细节或协调多个技能。与所有已部署的AI模型一样，对话模型需要定期评估以确保满足用户需求。但评估对话交互是一项挑战；传统上需要人工判断，这使得评估缓慢且成本高昂。

在自然语言处理实证方法会议（EMNLP）上，我们提出了一种基于神经网络的新模型，旨在估计用户对对话交互的满意度。

技术创新

新模型采用双向长短期记忆网络（bi-LSTM）正反向分析交互序列，配合注意力层确定哪些对话轮次对整体满意度贡献最大。在涉及28个领域（如音乐、天气、电影和餐厅预订）的三组用户测试中，该模型比先前基于神经网络的模型准确率提高27%，比团队早期模型准确率提高7%。

模型优势

早期模型利用了特定对话管理器的功能，而新模型无需依赖这些特定功能，这意味着它能够泛化到新的对话管理系统或替代方案。研究人员通常使用逐轮评分的训练数据，因为人们在逐轮评估上更容易达成一致。

在新工作中，我们同时使用逐轮数据和整体用户评估来训练模型，通过注意力机制加权各轮次评分对最终分数的贡献。这些权重从数据中学习，并能跨多个技能和任务泛化。

特征优化

在先前工作中，我们确定了48个不同特征用于预测用户满意度。在新工作中，我们仅保留原特征集中最通用的12个特征，并基于通用句子编码器（USE）新增5个特征。USE通过将输入文本表示为多维空间中的点，使相关文本聚集在一起。新特征包括用户和系统话语的USE嵌入及它们之间的相似性度量。

这一特征集比早期工作使用的更具通用性，适用于各种对话管理器和领域。使用该特征集训练的模型表现优于早期模型——即使测试数据包含早期模型训练所用的特定对话行为。

架构细节

论文中首先考虑使用LSTM网络预测逐轮评分的模型。LSTM按顺序处理输入序列，使每个输出都考虑先前输入和输出。随后提出的模型版本用双向LSTM替代LSTM，正向和反向处理相同数据，联合预测逐轮评分和整体对话评分。

双向LSTM的输出通过注意力层，该层赋予某些对话轮次更高权重，然后传递到网络的最终分类层。训练期间用于评估模型的损失函数是轮次级别评分和整体对话评分的加权组合。

在持续工作中，我们计划扩展模型以考虑个体用户偏好。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

查看全文

http://www.hskmm.com/?act=detail&tid=29801

4.2 基于模型增强的无模型强化学习（Model-based Augmented Model-free RL）

乐理 -07 和弦，和声

4.1 基于模型的强化学习（Model-based RL）

3.8 最大熵强化学习（Maximum Entropy RL, SAC）

乐理 -06 和弦，和声

3.7 带经验回放的演员–评论家算法（Actor-Critic with Experience Replay, ACER）

3.6 策略优化（TRPO 与 PPO）

3.5 自然梯度（Natural Gradients）

3.3 离策略演员–评论家（Off-policy Actor–Critic）

3.4 深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）

20232325 2025-2026-1 《网络与系统攻防技术》实验一实验报告

乐理 -06 相对音感绝对音感

【光照】UnityURP[天空盒]原理与[动态天空盒]实现

Presto

[DAX/数据分析表达式/Power BI] DAX 查询视图语言 = `Data Analysis eXpressions`(数据分析表达式) = 编程式数据分析语言

20232308 2025-2026-1 《网络与系统攻防技术》实验一实验报告

Redis知识点汇总

乐理 -05 乐音乐级

自动评估与语音助手的对话质量

技术创新

模型优势

特征优化

架构细节

相关文章：