SAM系列演进:从通用分割工具到视觉概念理解模型的进化之路
摘要
SAM(Segment Anything Model)系列代表了计算机视觉基础模型从"专用工具"向"通用感知系统"的演进。本文从视觉语言模型的角度深入分析SAM系列三代模型的技术演进,重点剖析SAM3如何通过引入可提示概念分割任务,实现从视觉提示到概念提示的范式转变,标志着视觉分割模型向真正具备语义理解能力的视觉语言模型迈进。
1. SAM系列演进:从视觉提示到概念理解
1.1 SAM 1(2023年):可提示分割的奠基者
SAM1的核心贡献在于建立了可提示分割(Promptable Segmentation)的基础范式。它采用图像编码器-提示编码器-掩码解码器的三段式架构,其中图像编码器基于预训练的ViT-H,提示编码器处理各种提示类型,轻量级掩码解码器将图像和提示嵌入组合预测输出掩码。
从视觉语言模型角度来看,SAM1虽然在理论上支持文本提示,但其文本处理能力非常有限。论文中明确指出该功能"未被完全开发",文本更多是被映射为一种视觉查询向量,而非真正的概念理解。本质上,SAM1是一个强大的开放词汇实例分割模型,但缺乏对抽象概念的真正理解能力,无法实现基于概念的实例检索与分割。
1.2 SAM 2(2024年):视频时空统一分割的拓展者
SAM2在SAM1基础上将能力扩展至视频领域,实现了统一框架下的图像与视频分割,并引入了记忆机制以保持对象在视频帧间的一致性。其引入的流式推理架构使其能够处理视频序列并保持对象身份的一致性。
从视觉语言模型视角分析,SAM2在概念理解方面并未取得实质性进展。其创新主要体现在时空维度的扩展,而非本质理解能力的提升。尽管引入了记忆机制来保持对象在视频帧间的一致性,但这种一致性是基于视觉特征而非语义概念的。SAM2为视频分割建立了强大的工程技术基础,但未能解决概念级理解这一核心挑战。
1.3 SAM 3(2025年):概念理解时代的开创者
SAM3的突破性在于实现了从"在哪里分割"(视觉提示)到"分割什么"(概念提示)的范式转变。它通过引入可提示概念分割(Promptable Concept Segmentation, PCS)这一新任务,将模型从被动的执行工具转变为具备初步视觉概念理解能力的主动感知系统。
从视觉语言模型角度看,SAM3实现了真正的视觉-语言融合。它不再是简单的视觉分割模型,而是一个具备初步视觉概念理解能力的主动感知系统。通过将视觉编码、语言理解和分割任务进行原生级深度融合,SAM3能够真正理解用户提供的概念提示,并在复杂场景中找出所有匹配该概念的实例。
2. SAM3核心创新:视觉语言模型的深度融合
2.1 可提示概念分割(PCS)任务定义
可提示概念分割(Promptable Concept Segmentation, PCS)是SAM3引入的核心任务,要求模型能够根据抽象概念(而非具体视觉提示)自动分割所有匹配实例。
PCS任务要求模型具备三重能力:
- 概念理解:将文本或示例图像映射到抽象的视觉概念
- 实例定位:在复杂场景中找出所有匹配该概念的实例
- 精准分割:为每个实例生成像素级精度的掩码
数学上,PCS任务可以形式化定义为:
给定图像I或视频序列V,模型接收概念提示C(短名词短语如"红色苹果"、图像范例或两者组合),输出所有满足C的实例掩码集合M,并保持视频中实例的身份一致性。
M = SAM3(I 或 V, C), C ∈ {文本短语, 图像范例, 混合提示}
与传统任务的本质区别:
- VS SAM1/SAM2的PVS任务:PVS需用户通过点、框明确"指哪里",PCS则允许用户直接定义"分什么"
- VS 指代分割:指代分割针对单个特定实例,PCS要求找出所有匹配实例,且支持开放词汇
2.2 对齐的感知编码器(Perception Encoder, PE)
SAM3的核心是一个强大的、经过54亿图像-文本对预训练的对齐感知编码器(PE),作为模型的视觉-语言对齐骨干。PE采用窗口注意力与全局注意力混合机制,在保证效率的同时捕获全局上下文信息。
文本编码支持最大32 token的短语,通过跨模态注意力与视觉特征严格对齐,使模型能将"红色"等抽象属性映射到具体像素。这种设计使SAM3不再是简单的分割模型,而成为一个以分割为核心任务的通用视觉语言模型。
2.3 Presence Token机制:识别与定位的解耦设计
SAM3引入了Presence Token(存在性标记),将物体的识别("是什么")与定位("在哪里")任务解耦。这种设计带来两大优势:
- 提升识别精度:Presence Token专注于全局上下文,避免局部定位干扰
- 减少假阳性:当概念不存在时,Presence Token得分接近0,直接抑制所有无关输出
具体实现上,引入可学习的全局Presence Token,专责预测概念存在的概率p(NP is present);目标查询仅负责在概念存在时定位实例,计算条件概率p(query_i is a match | NP is present);最终实例得分由两者乘积决定:
score_最终 = score_存在 × score_定位
2.4 多专家歧义处理机制
针对PCS任务固有的概念模糊性(如"小窗户"的"小"是主观判断),SAM3内置了多专家歧义处理机制。该机制训练多个并行的"专家",每个专家可以学习对同一名词短语的不同合理解释。推理时采用"赢家通吃"策略选择最优专家输出,有效解决概念歧义。
2.5 视频时空一致性增强
对于视频PCS任务,SAM3在SAM2的记忆机制基础上引入了时序去歧策略增强。针对视频中常见的遮挡、相似目标干扰等问题,SAM3引入了两种关键策略:
- 时间歧义消除:计算掩码在时间窗口内与检测结果的匹配一致性
- 记忆增强:通过内存库存储历史特征,确保目标即使被短暂遮挡也能恢复正确身份
3. 数据引擎与训练策略
3.1 人机协同数据引擎
SAM3的卓越性能离不开其精心设计的人机协同数据引擎。该系统通过四阶段迭代生成了前所未有的高质量训练数据:
- 阶段1:纯人工验证——生成基础数据集
- 阶段2:人机协同——引入AI验证器提升标注效率
- 阶段3:规模与领域扩展——覆盖多样化数据
- 阶段4:视频标注——生成高质量视频数据集
3.2 数据集规模
最终生成的数据集规模令人印象深刻:包含400万独特概念和5200万掩码的高质量数据集,以及包含3800万概念和14亿掩码的合成数据集。SA-Co数据集包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。
4. 性能表现与技术优势
4.1 图像PCS任务性能
在LVIS数据集上,SAM3的零样本掩码AP达到47.0,显著超越此前最佳模型的38.5。在新的SA-Co/Gold基准上,SAM3的CGF1分数达到65.0,是最强基线OWLv2(34.3)的1.9倍,且达到人类性能下限的88%。
4.2 视频PCS任务性能
在视频对象分割(VOS)任务上,SAM3相比SAM2有显著提升,能够高质量地完成视频中多目标的长期追踪。在SA-Co/VEval上pHOTA达53.9,接近人类水平(68.0)的79%。
4.3 推理效率
在H200 GPU上,处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。
5. 结论
从技术视角看,SAM3的成功在于将SAM系列的分割精度、DINOv2系列的视觉表征能力和CLIP/GLIP系列的视觉-语言对齐技术进行了深度的、原生的融合。这一融合创造了一个既能"听懂人话"又能"精准勾勒"的通用视觉感知系统,为AI在更广泛场景中理解和交互视觉世界奠定了坚实基础。