当前位置: 首页 > news >正文

【每日Arxiv热文】ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍!

图3.png

1.论文概述

论文标题:SAM3: Segment Anything with Concepts

作者团队:Anonymous authors
发布时间:ICLR2026
论文链接:https://openreview.net/pdf?id=r35clVtGzw

👉Lab4AI 大模型实验室链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=db767205533345c2ab013a7c31cbea7a

| 01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3 在图像和视频 PCS 任务上实现了 2 倍的性能提升,同时在交互式视觉分割任务中也改进了前代 SAM 的能力。

| 02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态 AI 的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然 SAM 系列引入了通过交互式提示分割图像视频中对象的概念,但 SAM1 和 SAM2 主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄:仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;
  • 提示类型受限:SAM1、SAM2 以视觉提示为主,对文本概念的泛化能力不足;
  • 开放性不足:难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。

为解决上述问题,SAM3 扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

| 03 可提示概念分割(PCS)

PCS 任务的核心目标是:给定一张图像或时长 ≤30 秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小 vs 大)且边界模糊(有百叶窗 vs 无百叶窗)。

SAM3 研究团队通过三大方式缓解:一是在 SA-Co 基准的 Gold 子集为每个数据点收集 3 名位专家的标注,允许“多有效解释”;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释。

| 04 架构设计

SAM3 基于 SAM2 与 DETR 架构扩展,SAM3 采用检测器与跟踪器共享视觉编码器的双路径架构。PE 是 SAM3 的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于 DETR 范式设计,核心创新是“解耦识别与定位”,解决传统 DETR 中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承 SAM2 的 Transformer 编解码器架构,核心是实现“检测器新目标检测 + 跟踪器掩码传播 + 实例匹配更新”的闭环流程,确保视频帧间实例 ID 的一致性与掩码精度。

简单来说就是,SAM3 能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。
封面.png

| 05 四阶段数据引擎

为解决 PCS 任务“数据稀缺且概念覆盖不足”的问题,研究团队构建了四阶段数据引擎,通过与 SAM3、人类标注员和 AI 标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加 AI 模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段 1:人类验证。该阶段的目标是建立“人工标注基准”,为后续 AI 标注器训练提供高质量数据。
  • 阶段 2:人类 +AI 验证。使用第一阶段收集的人工标注数据微调 Llama3.2,得到两个 AI 验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段 3:扩展与领域扩展。该阶段聚焦“长尾概念”与“多领域数据”,使用 AI 模型挖掘日益挑战性的案例,将领域覆盖扩展到 15 个数据集,通过从可用 alt-text 中提取 NP 扩展概念覆盖。
  • 阶段 4:视频标注。该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含 400 万个独特短语和 5200 万个掩码的高质量训练数据集,以及包含 3800 万个短语和 14 亿个掩码的合成数据集。

640[3].png

| 06 实验设计与结果分析应用

研究团队在图像/视频 PCS、少样本迁移、目标计数、复杂查询分割等任务上验证 SAM3 性能,详细结果可见论文原文。

2.论文原文阅读

您可以跳转到 Lab4AI 平台上去阅读论文原文。

👉Lab4AI 大模型实验室已经提供SAM3 论文,阅读链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=db767205533345c2ab013a7c31cbea7a

👉文末点击阅读原文,即可跳转至对应论文页面。

目前,SAM3 论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的 H800 算力作为奖励。
平台图1.png
Lab4AI 大模型实验室已经提供🔥SAM2 论文的一键复现 🔥,您无需准备代码、模型、数据、环境,即可一键快速体验,链接直达:

https://www.lab4ai.cn/paper/detail?utm_source=jssq_bky&id=7bdf649416384cbcbdf44d42c2f72641&type=paper
640[2].png

  • Lab4AI.cn 覆盖全周期科研支撑平台,提供论文速递、AI 翻译和 AI 导读工具辅助论文阅读;
  • 支持投稿论文复现和 Github 项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

640[1].jpg
Lab4AI.cn 来送礼啦~

✅ 注册有礼,注册即送 30 元代金券

https://www.lab4ai.cn/register?utm_source=jssq_bky立即体验

✅ 入群有礼,入群即送 20 元代金券

👇
群.jpg
本文由 AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!

http://www.hskmm.com/?act=detail&tid=33117

相关文章:

  • 探索 PHP-FPM 进程池的最佳配置方案:参数解析、场景适配与问题解决
  • 生活随感:和谐生活,你我共「营」 - tfel
  • 2025 河道护栏源头厂家最新推荐排行榜权威发布:聚焦全流程服务与高性价比,含新锐品牌优选指南河道绳索护栏/河道景观护栏厂家推荐
  • 10.17 NOIP 模拟赛 T1. 并非贪心
  • 基于 JuiceFS 构建 AI 推理:多模态复杂 I/O、跨云与多租户支持
  • G1 垃圾回收器详解 原理
  • 【转】[C#] GlobalUsing 的使用
  • Qoder 重磅升级,推出 Quest Remote 功能,像发邮件一样将任务委派到云端
  • 2025 年预制舱生产厂家最新推荐排行榜:深度剖析行业领军企业,助力客户精准选购优质产品光伏/电力/模块化/低压/高压/防爆预制舱厂家推荐
  • 2025国际冷链运输推荐腾翼搏时,专业温控医药物流供应商!
  • 2025连铸机设备推荐:瑞熠机械制造,专业生产优质厂家!
  • 2025机电安装优质厂家推荐:华芃机电,专业覆盖多领域安装服务!
  • 【SPIE出版 | ISSN已确定 | 连续4届稳定见刊检索】第五届计算机图形学、人工智能与数据处理国际学术会议 (ICCAID 2025)
  • 2025年低温高湿解冻设备厂家推荐排行榜,专业解冻技术与高效服务的行业首选!
  • 第一周算法设计作业
  • C++基本编程1——数位分离问题
  • 2025高精度流量计厂家推荐:弗罗迈测控系统,技术领先品质卓越!
  • 存储过程循环替代游标
  • 2025多功能防水篷布厂家推荐:成硕达塑业,品质卓越用途广泛!
  • 钉钉接入业务系统在windows系统下的web端无法加载图片
  • 2025危险品运输推荐盘锦畅奥,专业安全服务值得信赖!
  • 2025精密磨床及CNC加工推荐:东莞市品之豪金属制品专业定制!
  • AI元人文构想:一种负责任的文明演化框架研究报告
  • 少时诵诗书上说试试说试试
  • 2025 消防培训学校最新推荐榜:实训实力解析,附选择指南消防考证培训学校推荐
  • 2025年工作服厂家推荐排行榜,春夏秋冬季工作服,工人工作服,车间工作服,防静电工作服公司推荐!
  • JavaScript 中处理日期格式化
  • 2025年在线粘度计厂家推荐排行榜,实验室在线粘度计,工业在线粘度计,高精度在线粘度计公司推荐!
  • 找到M3U8直播源的方法
  • 2025年临床样本冷链运输服务商推荐榜单,专业冷链物流,生物样本运输公司精选!