某中心启动在线挑战赛推动对话智能体泛化研究
为促进任务型对话智能体在新场景中的泛化能力研究,某中心语音助手团队在EvalAI平台推出了对话人工智能挑战赛。作为基准参考,我们还发布了一套在七项挑战任务中五项达到领先水平的模型。
这项名为DialoGLUE的挑战旨在推动基于表示的迁移、领域自适应和样本高效任务学习技术发展。这些技术的进步将实现对话泛化能力,即训练完成某个任务的对话智能体能够轻松适应新任务。
当前扩展对话智能体功能所需的工作量通常与新增领域数量呈线性增长。我们认为部分原因在于对话研究社区缺乏标准化的数据集和评估方法。为支持DialoGLUE,我们发布了聚合七个公开对话数据集的标准数据集,统一了数据表示格式,可用于训练和评估单一对话模型。
数据集涵盖四大自然语言理解任务
数据集的标注涵盖四大自然语言理解任务:
- 意图预测:确定用户希望语音助手提供的服务类型
- 槽位填充:识别用户提及的实体及其类型
- 语义解析:确定单个语句中意图和槽值的层次结构
- 对话状态跟踪:追踪用户在对话过程中意图及所需槽值的变化
两种评估设置
DialoGLUE挑战提供两种评估设置:
- 全数据设置:使用完整数据集训练能完成七项任务的对话模型
- 少样本设置:仅使用约10%可用数据训练对话模型
该挑战采用滚动参与机制,参与者可随时提交模型,排行榜将实时更新。我们的基线模型在七项任务中的五项取得了领先结果,既证明了聚合数据集的价值,也为参与者设立了明确的基准目标。基线系统已公开提供。
图示:对话智能体的职责包括槽位追踪和状态跟踪,需确定用户在对话过程中的意图变化
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码