当前位置: 首页 > news >正文

视觉和语言 国防科大清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航 - MKT

image

 

image

 

arXiv-2024 | 具身智能体要上天!CITYNAV:基于地理信息的无人机视觉语言导航数据集

原文链接:CITYNAV: LANGUAGE-GOAL AERIAL NAVIGATION DATASET WITH GEOGRAPHIC INFORMATION (https://arxiv.org/pdf/2406.14240)

代码链接:https://water-cookie.github.io/city-nav-proj/

 

主要贡献
开发了一个基于浏览器的在线3D飞行模拟器,并与Amazon Mechanical Turk(MTurk)集成,用于收集大规模的人类标注的飞行轨迹。

引入了CityNav数据集,最新的无人机空中导航数据集,包含32,637个语言目标描述和人类演示轨迹,利用了真实城市的3D扫描及其地理信息。

提供了一个MGP(Map-based Goal Predictor)基线方法,用于城市规模的空中导航,该方法利用语义地图解释文本和地理地标的语义类别。

证明了无论是在正常还是在具有挑战性的条件下,在结合人类驱动策略和地理信息时,可以显著提高城市规模空中导航的性能,。
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/weixin_37990186/article/details/144474816

 

 

 

 

 

 

 

image

 基于地图的目标预测器 (MGP) 是我们提出的模型,它结合了最先进的现成模型来执行基于地图的目标预测。它利用每个时间步生成的导航地图,通过以下三个步骤进行:

(i) 使用 GPT-3.5 Turbo 提取目标、地标和周围环境的名称;

(ii) 使用 GroundingDINO 和 Mobile-SAM 进行物体检测和分割;

(iii) 使用 LLaVA-1.6-34b 进行可选的坐标细化(使用标记集提示)。

地图编码器使用包含地标地图、视野和探索区域地图以及目标和周围环境地图的导航地图,并与跨模态注意力机制的 RGB 和深度编码器一起进行训练。

http://www.hskmm.com/?act=detail&tid=35397

相关文章:

  • mysql数据库查询参考
  • Python理论题目集
  • 基于yakit的dvwa靶场暴力破解和代码执行漏洞
  • 视觉和语言-港科大 NMPC 控制下的高效自主导航!SkyVLN:城市环境无人机视觉语言导航与非线性模型预测控制 - MKT
  • 北航高低无人机协同导航方案:高空掌全局+低空查细节 - MKT
  • sourcetree 克隆项目仓库地址,输入账号密码后提示:这是一个无效的源路径/URL
  • 软工第三次作业-结对作业
  • 20251020 之所思 - 人生如梦
  • Conda、pip以及虚拟环境在Jupyter中的打开方法
  • 以太坊账⼾模型的理解,合约账⼾、EOA账⼾认识
  • Luogu P12376「LAOI-12」Calculate 题解 [ 蓝 ] [ 贪心 ] [ 线性 DP ] [ 前缀和优化 ] [ 范德蒙德卷积 ]
  • 方格图路径计数 dp 的反射路径优化
  • 每日反思(2025_10_20)
  • java基础9-面向对象进阶
  • 企业信息化建设的钱都花在哪儿了?
  • 身份运算符
  • 位运算符
  • 关系运算符
  • 赋值运算符
  • 算术运算符
  • Inno Setup 打包脚本模板
  • LCR 155. 将二叉搜索树转化为排序的双向链表
  • 解释这些区块链核⼼概念:区块、交易、Merkle Tree、共识机制(PoW、PoS)、Gas Fee 原理1
  • Claude code cli 的think mode到底是啥?
  • 【VM虚拟机共享主机代理】2025年10月20日可以pass的一些配置
  • 玄机——Linux后门应急
  • 2025/10/20
  • UI弹窗遮罩屏蔽触发事件的处理
  • newDay13
  • 小整数的地址