当前位置：首页 > news >正文

[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

news 2025/10/17 19:55:38

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
TL;DR
Method
- Q：VLM2Vec-V2与原始VLM2Vec算法有什么区别？
Benchmark
Q&A
- Q：CLS, QA, RET, GD, Overall这些指标是什么含义？
- Q：训练使用了多少训练集？
Experiment
参考链接
总结与思考
相关链接

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

link
时间：2025.07
单位：Salesforce Research等
相关领域：多模态表征学习
作者相关工作：Rui Meng、Ziyan Jiang
被引次数：1705
项目主页：https://tiger-ai-lab.github.io/VLM2Vec/

TL;DR

之前的方法主要关注image与text，模态种类太少，未使用到视频与视觉文档模态信息，VLM2VecV2解决了该问题。同时，扩充了MMEB Benchmark，也设计了新的统一模型架构VLM2VecV2。

Method

Q：VLM2Vec-V2与原始VLM2Vec算法有什么区别？

VLM2Vec仅支持文本与图像两种模态，而V2支持了更多，包括：视频、PDF、网页截图、语音(预留接口)；
Data Sampling Strategies：

on-the-fly batch mixing: 为每个数据集分配特定采样概率；
Interleaved Sub-batching: 将大批次划分为更小的子批次，每个子批次独立从单一数据源采样；

multi-modal data formatting
\(q_{inst}\)=inst+[VISUAL_TOKEN]+q
inst: 构造出来的指令，例如，"Find a video that contains this image
VISUAL_TOKEN：用来声明后续q的类型，具体值可以是 image_pad声明“图像”、video_pad声明“视频” 以及无声明“文本”

Benchmark

MMEB-V2 Benchmark与MMEB有什么区别？ => 蓝色为V1的，红色为V2相对于V1扩充的。

Q&A

Q：CLS, QA, RET, GD, Overall这些指标是什么含义？

CLS指标指导特征学习优化
RET指标指导嵌入空间对齐
QA指标指导语义理解深化
GD指标指导细粒度感知提升

Q：训练使用了多少训练集？

Experiment

Ablation Study: 增加更多视觉模态是能继续涨点的

sub-size超参数的Ablation，最佳值为64

参考链接

总结与思考

无

相关链接

https://zhuanlan.zhihu.com/p/1932043359238726091

http://www.hskmm.com/?act=detail&tid=33227

相关文章：

ShandongCCPC2024

标悬浮展开多级菜单

Nimble：让SwiftObjective-C测试变得更优雅的匹配库 - 指南

2025.10.17总结 - A

Ubuntu创建python桌面图标

深入解析Pure恶意软件家族：从RAT到构建器再到开发者

Ubuntu上配置Flask应用程序的Nginx和uWSGI

实验一现代c++基础课程

平均融资利率求法及ORACLE语法解析

[Linux]如何列出被软链接的文件,列出被链接位置

10.13课后作业

【Linux】基础 I/O - 指南

不情愿算法学概论

3. JVM 运行时数据区

软工学习日志

Pixelium Design：Vue3 的像素风 UI 组件库

修电脑不求人：AI智能修复电脑工具的体验分享

效率与安全双升：AI许可证识别重塑医药行业合规流程

Spring BeanPostProcessor 前置处理 afterPropertiesSet BeanPostProcessor 后置处理区别

Xcode上编译调试ffmpeg - 详解

最新版Origin 2025b安装包下载及详细安装教程，附永久免费中文汉化破解版Origin安装包

《程序员修炼之道》阅读笔记1

Unity3D中定义全局宏(不同于在unity设置中的)

AtCoder arc208 总结

OOP - 实验一

题解：qoj8329 Excuse

`uv run pytest` does not work

VMware17.6图文安装教程（附安装包）VMware17.6