当前位置: 首页 > news >正文

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

目录
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
  • TL;DR
  • Method
    • Naive Dynamic Resolution
    • Multimodal Rotary Position Embedding (M-RoPE)
    • Unified Image and Video Understanding
    • Training
  • Experiment
  • Q&A
  • 总结与思考
  • 相关链接

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

link
时间:24.09
单位:Qween
作者:Peng Wang
相关领域:多模态理解
被引次数:1527
项目主页:
https://github.com/QwenLM/Qwen2.5-VL

TL;DR

Qween2-VL相对于上一代:

  • 支持原生动态图片分辨率输入
  • 使用M-RoPE更高效将位置信息融合至多模态输入中
  • 构建统一架构将图像、视频融入模型中
  • 多尺寸模型:2B、8B、72B

Method

image

Naive Dynamic Resolution

固定patch_size的分辨率,根据输入图像动态分辨率,动态计算出token sequence,再增加vision_start与vision_end的两个特殊token,例如,分辨率为224x224的图像对应66 tokens,计算方式如下:
\(224 / 14 = 16\)
\(16 / 2\) x \(16 / 2 + 2 = 66\)

Multimodal Rotary Position Embedding (M-RoPE)

将位置编码按照(temporal, height, width)三种ID来表示,若是text模态则三者一样,若是图像模态 temporal ID保持固定,height与width随图像不同位置变化,若是视频模态,则不同帧temporal ID也随之变化。
image

Unified Image and Video Understanding

  • 采样​​:以2FPS的速率从视频中抽取帧序列。
  • 统一表示​​:将每张静态图像视为一个只有2帧的“微视频”​​,这两帧是​​完全相同​​的图像。
  • 3D建模​​:使用轻量级3D卷积ViT处理立方体,生成融合了时空信息的视觉token序列。
  • 令牌长度限制:将每个视频输入的总token数上限设置为 ​​16,384。

Training

与Qween的三阶段训练策略一致,只不过使用的数据量不一样:

  • Vision Encoder训练
  • 全参数微调
  • 指令微调

Experiment

能力展示
image
全家桶
image
与SOTA对比
image
分辨率
归功于“Naive Dynamic Resolution”训练,Qween2-VL受分辨率影响不大
image
M-RoPE
优势:

  • 对于长度外推有好处
  • Image/Video Benchmarks上比1D-RoPE更好
    image

Q&A

Q:相对于上一代QweenVL有多大提升?
未对比
Q:相对于上一代模型尺寸、训练数据量变化?
image
Q:为什么M-RoPE会对长度外推有好处?

长度外推是指模型在​​推理时​​处理比​​训练时​​见过的​​更长的序列​​的能力。这是一个极具挑战性的任务,因为模型必须理解训练数据中未曾出现过的位置关系。

  • ​​维度解耦​​:将不同模态的位置信息分离到时间、高、宽三个独立维度,避免了单一序列中外推时不同模态位置信息的冲突与混淆,这是其​​最核心的贡献​​。
  • 相对位置感知​​:继承了RoPE的优良特性,使模型专注于学习相对位置关系而非绝对位置,从而能更好地泛化到更长的序列。
  • 数值平滑稳定​​:基于旋转正弦余弦函数的编码方式确保了外推时数值计算的稳定性和可预测性,避免了数值异常。

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/1944799681357017732

http://www.hskmm.com/?act=detail&tid=14902

相关文章:

  • [PaperReading] MemGPT: Towards LLMs as Operating Systems
  • 总线的性能指标
  • VoxCPM:新一代高拟真语音生成模型
  • Day20封装的初步认识
  • 完整教程:数据结构与算法-树和二叉树-二叉树的存储结构(Binary Tree)
  • 工业相机与镜头靶面尺寸的关系:从原理到选型的避坑指南 - 教程
  • Security Onion Solution
  • 时序数据库 TimechoDB V2.0.6 发布 | 新增查询写回、黑白名单等功能
  • Python精品任务-基于python的个性化音乐推荐架构的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 第二篇
  • 实用指南:网站抓包怎么做?(网站抓包教程 HTTPS 抓包 浏览器抓包 服务器端流量分析 网站安全与调试)
  • EasyDSS “进度条预览”黑科技,如何重塑视频点播的交互体验?
  • 2025 年在线 Excel 协作工具:纯前端架构引领协作范式革新
  • AI重塑招聘:从筛简历到做决策,HR如何借技术提效35%?
  • 大屏适配不同分辨率
  • 直播点播之外,EasyDSS如何开辟“实时协作”第三极?它的会议功能,远比你想象的强大
  • 抖音视频关键词批量下载工具分享|分享痛点|
  • HarmonyOS动态照片,简易环境助力高效开发
  • 二叉树专题
  • IT项目管理主要做什么?-ManageEngine卓豪
  • 9.22学习笔记
  • Django 视图层
  • Kettle: pentaho-server-9.4登录问题
  • Win11/Win10/Office 永久激活
  • 列表
  • springboot~获取原注解的方法findMergedAnnotation使用场景
  • Catalan数(卡特兰数)
  • IvorySQL文档共建计划第一期!提 PR,提 Issue,赢取 Beats 耳机、机械键盘、书籍等多重好礼!
  • ubuntu22.04 安装xrdp
  • 题解:P14058 【MX-X21-T3】[IAMOI R5] 两个人的演唱会