当前位置: 首页 > news >正文

[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

目录
  • VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
  • TL;DR
  • Method
    • Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?
  • Benchmark
  • Q&A
    • Q:CLS, QA, RET, GD, Overall这些指标是什么含义?
    • Q:训练使用了多少训练集?
  • Experiment
  • 参考链接
  • 总结与思考
  • 相关链接

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

link
时间:2025.07
单位:Salesforce Research等
相关领域:多模态表征学习
作者相关工作:Rui Meng、Ziyan Jiang
被引次数:1705
项目主页:https://tiger-ai-lab.github.io/VLM2Vec/

TL;DR

之前的方法主要关注image与text,模态种类太少,未使用到视频与视觉文档模态信息,VLM2VecV2解决了该问题。同时,扩充了MMEB Benchmark,也设计了新的统一模型架构VLM2VecV2。

Method

Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?

  1. VLM2Vec仅支持文本与图像两种模态,而V2支持了更多,包括:视频、PDF、网页截图、语音(预留接口);
  2. Data Sampling Strategies:
  • on-the-fly batch mixing: 为每个数据集分配特定采样概率;
  • Interleaved Sub-batching: 将大批次划分为更小的​​子批次,每个子批次独立从单一数据源采样;
  1. multi-modal data formatting
    \(q_{inst}\)=inst+[VISUAL_TOKEN]+q
    inst: 构造出来的指令,例如,"Find a video that contains this image
    VISUAL_TOKEN:用来声明后续q的类型,具体值可以是 image_pad声明“图像”、video_pad声明“视频” 以及 无 声明“文本”

Benchmark

MMEB-V2 Benchmark与MMEB有什么区别? => 蓝色为V1的,红色为V2相对于V1扩充的。
image

Q&A

Q:CLS, QA, RET, GD, Overall这些指标是什么含义?

  • CLS指标​​指导特征学习优化
  • RET指标​​指导嵌入空间对齐
  • ​QA指标​​指导语义理解深化
  • GD指标​​指导细粒度感知提升

Q:训练使用了多少训练集?

Experiment

image

Ablation Study: 增加更多视觉模态是能继续涨点的
image

sub-size超参数的Ablation,最佳值为64
image

image

参考链接

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/1932043359238726091

http://www.hskmm.com/?act=detail&tid=33227

相关文章:

  • ShandongCCPC2024
  • 标悬浮展开多级菜单
  • Nimble:让SwiftObjective-C测试变得更优雅的匹配库 - 指南
  • 2025.10.17总结 - A
  • Ubuntu创建python桌面图标
  • 深入解析Pure恶意软件家族:从RAT到构建器再到开发者
  • Ubuntu上配置Flask应用程序的Nginx和uWSGI
  • 实验一 现代c++基础课程
  • 平均融资利率求法及ORACLE语法解析
  • [Linux]如何列出被软链接的文件,列出被链接位置
  • 10.13课后作业
  • 【Linux】基础 I/O - 指南
  • 不情愿算法学概论
  • DIVCNT
  • 3. JVM 运行时数据区
  • 软工学习日志
  • Pixelium Design:Vue3 的像素风 UI 组件库
  • 修电脑不求人:AI智能修复电脑工具的体验分享
  • 效率与安全双升:AI许可证识别重塑医药行业合规流程
  • Spring BeanPostProcessor 前置处理 afterPropertiesSet BeanPostProcessor 后置处理区别
  • Xcode上编译调试ffmpeg - 详解
  • 最新版Origin 2025b安装包下载及详细安装教程,附永久免费中文汉化破解版Origin安装包
  • 第十七篇
  • 《程序员修炼之道》阅读笔记1
  • Unity3D中定义全局宏(不同于在unity设置中的)
  • AtCoder arc208 总结
  • OOP - 实验一
  • 题解:qoj8329 Excuse
  • `uv run pytest` does not work
  • VMware17.6图文安装教程(附安装包)VMware17.6