当前位置: 首页 > news >正文

CVPR-2025 | 具身导航指令高效生成!MAPInstructor:基于场景图的导航指令生成Prompt调整策略 - 详解

  • 作者: Sheng Fan, Rui Liu, Wenguan Wang, Yi Yang
  • 单位:浙江大学
  • 论文标题: Scene Map-based Prompt Tuning for Navigation Instruction Generation
  • 论文链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Fan_Scene_Map-based_Prompt_Tuning_for_Navigation_Instruction_Generation_CVPR_2025_paper.pdf
  • 代码链接:https://github.com/FanScy/MAPInstructor (Coming soon)

主要贡献

  • 提出了基于场景图提示调整的导航指令生成框架 MAPINSTRUCTOR,通过将地图上下文纳入大语言模型(LLM)中,以参数高效的方式更新 LLM,从而提高了导航指令生成的质量。
  • 设计了三个关键组件:场景表示编码地图提示调整地标不确定性评估,分别用于细粒度场景理解、整合全局地图信息以及减少地标预测中的幻觉现象,增强了指令生成的可靠性和连贯性。
  • 在 R2R、REVERIE、RxR 三个导航信息集上的广泛实验表明,该算法具有良好的泛化能力和有效性,与现有方法相比取得了显著的性能提升。

研究背景

方法

问题定义

场景表示编码

  • 视角-动作嵌入

    • 从全景视图中提取密集的语义表示,结合视角嵌入和动作嵌入。
    • 视角嵌入计算公式为:
      pt,k=Ep(F2dt,k)+Eδ(rt,k)+Et+Eo p_{t,k} = E_p(F_{2d}^{t,k}) + E_{\delta}(r_{t,k}) + E_t + E_opt,k=Ep(F2dt,k)+Eδ(rt,k)+Et+Eo
      其中,EpE_pEpEδE_{\delta}Eδ是线性嵌入层,EtE_tEtEoE_oEo是可学习的步长嵌入和全景观察标记类型嵌入。
    • 动作嵌入与视角嵌入类似,计算公式为:
      at=Ea(F2dt,a)+Eδ(rt,a)+Et+Ea a_t = E_a(F_{2d}^{t,a}) + E_{\delta}(r_{t,a}) + E_t + E_aat=Ea(F2dt,a)+Eδ(rt,a)+Et+Ea
      其中,EaE_aEa 是线性层,EaE_aEa是可学习的动作标记类型嵌入。
  • 视角-3D变换

    • 使用 CrossView Attention(CVA)将视角特征融合到统一的 3D 表示中,通过一组可学习的 3D 查询QQQ 从周围 KKK个视角特征中采样信息。
    • 3D 特征计算公式为:
      F3d=1K∑k=1KFcva(Q,Pk,F2dk) F_{3d} = \frac{1}{K} \sum_{k=1}^K F_{cva}(Q, P_k, F_{2d}^k)F3d=K1k=1KFcva(Q,Pk,F2dk)
      其中,FcvaF_{cva}Fcva使用可变形注意力(deformable attention)聚合信息。
  • 多尺度场景预测

    • 将视角-3D变换分解为多个尺度,使用不同层次的 3D 可变形注意力层提取多尺度 3D 特征。
    • 通过上采样函数F↑F_{\uparrow}F将低尺度特征上采样到高尺度,得到最终的 3D 特征。
  • 场景表示

    • 将视角-3D特征对连接起来,映射到统一的表示vtv_tvt 中:
      vt=Fs([F3dt⊕pt⊕at]) v_t = F_s([F_{3d}^t \oplus p_t \oplus a_t])vt=Fs([F3dtptat])
      其中,⊕\oplus表示广播和加法操作,FsF_sFs是由多个线性层组成的嵌入模块。

地图提示调整

地标不确定性评估

  • 地标预测和指令完毕

    • 将指令生成过程分解为地标预测和指令搞定两个阶段。
    • 在地标预测阶段,生成MMM个关键地标序列{s1,…,sM}\{s_1, \ldots, s_M\}{s1,,sM}
      sml=FLLM(v^;sml−1),m=1,…,M s_m^l = F_{LLM}(\hat{v}; s_m^{l-1}), \quad m = 1, \ldots, Msml=FLLM(v^;sml1),m=1,,M
  • 地标语义熵

    • 采用地标语义熵来评估地标预测的语义一致性,通过 Deberta-large 模型评估地标列表的语义相似性。
    • 计算地标语义熵公式为:
      LE(v)=−∑cp(c∣v^)log⁡p(c∣v^) LE(v) = -\sum_{c} p(c | \hat{v}) \log p(c | \hat{v})LE(v)=cp(cv^)logp(cv^)
      其中,ccc表示地标列表的语义聚类。
    • 如果 LE(v)≤τLE(v) \leq \tauLE(v)τ,则认为地标预测是语义确定的,否则需要重新采样地标。

实现细节

实验

实验设置

定量结果

  • R2R数据集上的性能:MAPINSTRUCTOR在val seen和unseen分割上的大多数评估指标上均优于其他方法,特别是在CIDEr指标上,分别比其他方法高出2.7%和4.0%,这表明了MAPINSTRUCTOR在指令生成质量和泛化能力上的优势。

  • REVERIE信息集上的性能:尽管REVERIE数据集更注重物体检测能力,MAPINSTRUCTOR仍然表现出色,在大多数评估指标上领先于其他方法。与BEVInstructor相比,MAPINSTRUCTOR在seen和unseen分割上的CIDEr指标分别高出1.8%和3.8%,这进一步证明了MAPINSTRUCTOR在场景理解方面的优势。

  • RxR信息集上的性能:MAPINSTRUCTOR在所有评估指标上均取得了最佳性能,尤其是在val unseen分割上,分别比其他方法高出4.5%、3.5%、0.4%、1.0%和2.2%。这表明MAPINSTRUCTOR在处理更灵活的指令形式时具有更高的有效性。

定性结果

诊断实验

  • 关键组件分析:上表展示了MAPINSTRUCTOR中三个核心组件(场景表示编码、地图提示调整和地标不确定性评估)的消融研究结果。实验表明,每个组件都对性能提升有显著贡献。结合所有组件后,MAPINSTRUCTOR在R2R数据集的val unseen分割上取得了最佳性能。

  • 场景构建方法比较:上表比较了不同的场景构建方法,包括BEV特征和MAPINSTRUCTOR中使用的3D表示。结果表明,3D表示在目标级检测方面更有优势,基于它能够给予更细粒度的场景理解。

  • 映射架构比较:上表比较了不同的图神经网络方法,如GraphSAGE、GCN和GAT。这些方法在指令生成性能上表现出相似的效果,表明在静态几何地图导航中,基于消息传递的方法能够实现可比的性能。

  • 地标不确定性评估轮次分析:上表分析了不同轮次的地标不确定性评估对性能的影响。结果表明,与单轮地标预测相比,多轮评估能够提升性能,但随着轮次增加,性能提升逐渐趋于平稳。

指令质量分析

结论与未来工作

  • 结论
    • MAPINSTRUCTOR 通过将拓扑地图连接作为提示特征整合到 LLM 中,有效地消除了 NIG 中的空间场景理解疑问,在复杂室内环境中取得了令人满意的性能。
    • 该框架在局部场景表示上采用了 3D 体素表示,以实现更细粒度的对象级检测,并引入了地标不确定性评估流程,以减少地标预测中的幻觉现象。
    • 在多个导航资料集上的实验结果验证了其优于现有方法的性能。
  • 未来工作
    • 将探索更多基于 LLM 的 NIG 框架,以增强空间智能。

http://www.hskmm.com/?act=detail&tid=22468

相关文章:

  • 2025 年无锡西门子产品供应商 TOP 企业品牌排行榜,PLC,高低压变频器,高低压电机代理分销商推荐
  • 2025 年树脂排水沟厂家 TOP 品牌权威排行榜单,U 形、线性、成品、混凝土、园林、市政、玻璃钢树脂排水沟公司推荐
  • 2025 年石墨烯厂家推荐 TOP 品牌排行榜单最新发布,氧化 / 羧基化 / 巯基化 / 羟基化 / 氨基化 / 氮掺杂氧化 / 氮掺杂石墨烯公司推荐
  • AtCoder Grand Contest 015 - E - Mr.Aoki Incubator
  • 9.30 CSP-S模拟25 改题记录
  • 全球抗体药表达系统:CHO 细胞主导下,未来十年将迎哪些突破?
  • 完整教程:[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation
  • 绕过Cloudflare IP白名单限制的技术解析
  • 撕裂的乡土:在人性荒原上寻找微光
  • 2025蔬菜配送服务公司 TOP 企业推荐排行榜,深圳、宝安、光明、松岗、东莞、长安、虎门、沙田、厚街、大岭山蔬菜配送推荐
  • 2025液压缸TOP企业品牌推荐排行榜!抓斗、伺服、大吨位、车辆、工程、拉杆、冶金、重载、港机液压缸推荐
  • 2025 年破胶机厂家品牌推荐榜单白皮书,多规格型号 610/710/810、大型、自动型、低温环保、节能省电、自动打块、轮胎破胶机公司推荐
  • 乱七八糟的国庆做题记录
  • 2025 年健身器材品牌 TOP 推荐排行榜,室内 / 健身房 / 体育 / 运动 / 家用 / 商用 / 单位 / 家庭 / 有氧 / 力量健身器材推荐
  • 详细介绍:给贾维斯加“手势控制”:从原理到落地,打造多模态交互的本地智能助
  • 完整教程:学术论文 Word 样式规范
  • 取印度孟买指数(SENSEX)实时行情API对接指南
  • 2025青海视频号运营优质公司推荐榜:专业服务与创新策略口碑
  • 2025 年发泡陶瓷厂家 TOP 企业品牌推荐排行榜,发泡陶瓷线条 / 构件 / 装饰构件 / 空心砖 / 窗套线 / 浮雕 / 装饰线条推荐这十家公司
  • Future相关并发类使用
  • 2025 年传感器厂家 TOP 企业品牌推荐排行榜,磁致伸缩 / 防爆 / 防水 / 隔爆 / 线性 / 矿用 / 直线 / 油缸位移传感器 / 液位传感器公司推荐!
  • 2025 年热转印花膜厂家 TOP 企业品牌推荐排行榜,硅胶 / 五金 / 塑胶 / ABS / 涂料桶 / PP / 水杯 / 温变 / 冰变热转印花膜加工厂推荐
  • 2025 年生物除臭设备厂家 TOP 品牌企业推荐排行榜揭晓:印染厂污水 / 食品厂污水 / 污水处理厂 / 污水泵站 / 污水站 / 餐厨垃圾 / 屠宰场 / 厨余垃圾生物除臭设备公司推荐
  • JUC:读写锁
  • 2025 年舞台厂家 TOP 品牌企业权威推荐榜单,铝合金舞台、活动舞台、快装舞台、舞台架、折叠舞台、演出舞台、演唱会舞台桁架、舞台设计公司推荐
  • 2025 年点胶机厂家 TOP 企业推荐排行榜,自动 / 果冻胶 / 无痕内衣 / 烫钻 / 珠宝热熔胶 / 水钻热熔胶 / 亮片热熔胶 / 金葱粉热熔胶点胶机推荐这十家公司!
  • 2025 年知识库应用工具系统平台推荐排行榜,企业 / 行业 / 专家 / 问答 / 智能 / 培训 / 协同 / 办公 / 内部 / 外部 / 个人 / 客服 / 营销知识库应用软件推荐!
  • 2025 年移民服务公司性价比排行:美国、加拿大等国 TOP 机构,综合费用与服务质量的考量!
  • 2025 年水泥墩公司推荐最新榜单白皮书发布,圆形 / 方形 / 光伏水泥墩 / 围挡水泥墩 / 护栏水泥墩 / 交通水泥墩 / 防撞水泥墩源头厂家推荐
  • 2025 年乡墅平台 TOP 服务机构平台推荐排行榜 ,乡墅设计 / 品牌 / 加盟 / 农村自建房 / 建别墅 / 一站式建 / 湖南 / 长沙乡墅服务商推荐这十家公司!