当前位置: 首页 > news >正文

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

VGGT(CVPR'25):基于预训练模型抽取特征,通过网络预测3D场景的多种信息。
代码仓库
注:笔者对3D场景重建相关领域工作并不熟悉,仅记录自己的理解。

动机

本文希望实现一个能够端到端从单图或多图预测多种3D场景信息的模型,输出结果包括相机参数、点云图、深度图和3D点轨迹。

方法

img

本文设定的场景为通过一个图片序列预测3D场景信息。该图片序列理论上是可以任意顺序输入,不过实际实现中是以第一帧为参考。

对于每帧图像,通过DINO提取特征,获得对应每帧图像的token序列。随后再在帧token序列上添加一个相机token和四个register token,作为可学习参数。

随后将组合的特征送入一个改装的自注意力模块,交替进行全局自注意力和帧内自注意力。输出的特征向量分解为相机token及图像特征,送入相应的后续网络完成后续任务。

训练方面似乎更多参照了已有工作,笔者对相关领域不太了解,详细内容请见原文。

实验

img

具有优秀的重建结果,在多种任务上达到了SOTA水平,详见原文。

总结

按照笔者的理解,本文的突出贡献主要在于完成了一个端到端的3D场景重建模型,能够输出多种信息。从技术角度理解,是利用自监督预训练模型提取的特征构建网络预测目标信息。

http://www.hskmm.com/?act=detail&tid=18082

相关文章:

  • 嵌入式入门,基于keil5用stm32寄存器和标准库实现LED流水灯
  • AI agent编程随记
  • 小人鱼的数学题 - Li
  • 再见 Claude Code!玩转 CodeX CLI 的 16 个实用小技巧,效率拉满!!
  • 【IEEE出版】第五届电气工程与机电一体化技术国际学术会议(ICEEMT 2025)
  • [新教程] Linux服务器使用fail2ban防止远程恶意连接
  • PowerMill 2026安装包下载与Autodesk Powermill2026安装教程
  • [新教程] Linux服务器修改ssh服务端口
  • 《嵌入式驱动(二):驱动编写基本概念》
  • 一站式电竞平台解决方案:数据、直播、源码,助力业务飞速启航 - 数据服务
  • nfs故障排查
  • 数字信封
  • 程序员的内容创作利器:深度解析小红书爆款笔记生成提示词
  • Unigine整合Myra UI Library全纪录(2):渲染
  • 元人文AI:为价值创新构筑“舞台”、订立“契约”、预演“未来”
  • 设计一个关于python的if 语句的练习题
  • 基于CSMA/CA协议的V2X通信MATLAB仿真
  • 【招聘专场】想斩获高含金量名企Offer?京东、微芯研究院等企业 软件测试开发岗,虚位以待!
  • 练习题:成绩评定系统
  • Day22方法重写
  • python调试方法:验证安装路径与路径配置
  • CentOS将软件源修改为国内源
  • 【C++进阶】C++11 的新特性 | lambda | 包装器 - 实践
  • orcad放置器件时器件不在预览框中心
  • 易路一站式智能招聘,开启人才管理新纪元
  • kingbase数据库SHELL端迁移工具访问及使用
  • 数据质量定胜负:Apple 如何破解双语大模型性能鸿沟
  • 从零开始:VirtualBox 虚拟机安装与 CentOS 7 部署 + 双网卡网络配置指南
  • 微信个人号api|搭建高效微信机器人系统
  • 【光照】[物理模型]中的[BRDF]是什么?