当前位置: 首页 > news >正文

虚拟机器人学习自然语言指令技术解析

虚拟机器人学习自然语言指令技术解析

研究背景

具身人工智能(EAI)旨在训练具身代理在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类具身代理需要长时程规划、视觉与语言基础理解,以及开发高样本效率算法。

DialFRED:对话增强的具身指令跟随

基准数据集

DialFRED是一个具身指令跟随基准,包含53,000个人工标注的对话,使代理能够:

  1. 与用户进行主动对话
  2. 利用对话信息更好地完成任务

该数据集的源代码和数据集已公开,鼓励研究人员提出和评估对话增强的具身代理。

数据收集方法

采用新颖、低成本、可扩展的数据收集方法,通过某众包平台实现:

  • 向标注者展示任务视频演示
  • 视频在每个子任务开始时暂停
  • 标注者接收子任务指令并生成澄清问题
  • 标注者观看下一段视频并提出问题答案

对话生成框架

DialFRED采用提问者-执行者框架构建具身对话代理:

提问者模型

  • 使用人工标注对话会话进行预训练
  • 预测何时询问澄清问题
  • 生成与给定情境相关的问题
  • 通过强化学习微调,在适当时机提出合适问题

执行者模型

  • 利用问答信息(除原始任务指令外)
  • 生成完成任务的动作序列

该框架在未见验证集上达到33.6%的成功率,相比被动跟随指令模型的18.3%有显著提升。

感知可用性多模态神经SLAM

技术突破

首次提出同时使用视觉和语言进行探索的感知可用性神经SLAM模型,解决了具身任务中的规划和导航瓶颈。

方法架构

对于给定任务T,方法分为两个阶段:

探索阶段

  • 代理在给定低级语言指令下探索环境
  • 考虑先前探索动作和已访问观察区域
  • 多模态模块选择三种动作之一:前进、左转、右转

执行阶段

  • 使用在探索期间获取的语义地图
  • 规划模块处理导航子目标
  • 对象交互变换器处理其他子目标

性能表现

在ALFRED基准测试中,相比先前工作实现超过20%的绝对改进,达到19.95%的最新泛化性能。

技术影响

这些创新方法显著降低了样本复杂度,实现了高效的长时程规划,并促进了视觉与语言的基础理解,为具身人工智能的发展提供了重要技术支撑。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=26279

相关文章:

  • 题解:换乘旅行
  • 2025企业级AI数据防泄漏指南:精准选型与核心指标全景透视
  • 感觉你是那种
  • 鲜花:不会说明你有抑郁症1
  • 【比赛记录】2025CSP-S模拟赛59
  • 使用 C 语言实现英文数字验证码识别系统
  • APlayer的配置方法和相关资料整理(已完成)
  • 详细介绍:目标检测任务的评估指标mAP50和mAP50-95
  • 一些有一定趣味性的杂题
  • 用 Haskell 实现英文数字验证码识别
  • 深入解析:Day43 Python打卡训练营
  • 用 Perl 实现验证码图像识别
  • 实用指南:【结构型模式】代理模式
  • cnblog Test
  • 云数据仓库十年架构演进与技术突破
  • 20251007 模拟测 总结
  • 2025国庆Day6
  • Claude 封杀中国后,我终于找到了平替!
  • [退役感言]You are my only one.
  • Mortal
  • python,shell,linux,bash概念的不同和对比联系 - 指南
  • 制作局域网连接打印机exe文件
  • 深入解析:linux——账号和权限的管理
  • pandoc使用
  • c#造个轮子--GIF录制工具
  • netdata
  • 关于Elment-plus的el-table组件无法通过原生JS监听scroll事件
  • arc3.2语言sort的时候报错:(sort < `(2 9 3 7 5 1)) 得写成此种:(sort > (pair (list 3 2)))
  • 噬菌体展示技术:从诺奖成果到疫苗研发,这一 “表型 - 基因型统一” 工具如何颠覆生物研究?
  • 从零开始学Flink:实时流处理实战