当前位置: 首页 > news >正文

MM-SAM

image

SAM的局限性:

image

1、依赖用户手动提示,用户在输入一张图片后,还需要给予手动提示,模型才能分割。**

2、当用户未提供输入掩码时,则掩码嵌入将被随机初始化的嵌入替换,导致性能下降。

MM-SAM的结构:

image

(1)将BLIP用于图像caption任务,以自动为每个输入图像生成描述
(2)使用LLM或文本编码器(Mamba)从生成的描述中提取文本嵌入
(3)图像通过BLIP的图像编码器(VIT)得到视觉嵌入
(4)上面生成的文本嵌入和视觉嵌入相结合,作为SAM解码器的视觉语言提示;
(5)在SAM图像编码器中,来自每个transformer块的视觉嵌入来自BLIP的视觉嵌入相结合,用于训练用于微调SAM图像编码器的Adapter

下面分别讲一下每一块:

(1)生成caption

BLIP作为caption生成器,为图片生成一段文字描述(不提供模板指令)。

image

(2)得到文本嵌入

使用LLM-Mamba从上面生成的描述中提取文本嵌入。

image

(3)生成视觉嵌入

BLIP的图像编码器为输入图像生成对应的视觉嵌入。

image

(4)将上面生成的文本嵌入和视觉嵌入连接起来,作为SAM Decorder的输入token。

image

(5)多级特征Adapter

image

transformer层的输出视觉嵌入相结合作为Adapter的输入:

image

Adapter的输出transformer层的输出相结合作为下一层transformer块的输入(为了减少参数量,所有Adapter共享相同的权重系数):

image

最后一部分:

image

图像嵌入:来自原始SAM的图像编码器。

image

密集嵌入图像嵌入经过全连接层调整维度、GELU激活函数增强非线性得到。

image

image

稀疏嵌入:由视觉嵌入(BLIP的图像编码器得到)文本嵌入相结合得到。

图像嵌入包含全局图像特征密集嵌入由图像嵌入得到,是对图像嵌入中“目标相关特征”的强化(基于全局特征生成的纹理差异)。二者相加 = 全局上下文 + 目标细节

稀疏嵌入负责语义层面的目标指引,告诉解码器“我们要找的东西是什么”。

三者一起输入进SAM Decoder,用于预测最终的分割掩码。

也就是说,现在的视觉嵌入 + 文本嵌入代替了原来的稀疏嵌入(现在也叫稀疏嵌入)。

也就是说,现在的图像嵌入 + 密集嵌入代替了原来的密集嵌入(虚线方框内)。

image

实验:

数据集(3个):COD10K、CHAMELEON、CAMO

评估方式(4个):

image

与当前最优的伪装检测方法比较(9个)(table 1):SINet、RankNet、JCOD、PFNet、FBNet、SAM、SCOD、SAM-Adapter、GenSAM

image

image

总结一下:

原来的SAM是稀疏嵌入 + 密集嵌入,但两个嵌入都有问题:稀疏嵌入依赖用户手动提示(方框、点击等),密集嵌入缺失时会被随机初始化。

改进后,稀疏嵌入 = 文本嵌入(BLIP文本解码器 + Mamba) + 视觉嵌入(BLIP Encoder),不再依赖用户手动提示;密集嵌入 = 来自原始SAM的图像嵌入(全连接、GELU),然后将密集嵌入 + 图像嵌入实现全局 + 细节。最后密集嵌入 + 图像嵌入稀疏嵌入一起作为SAM Decoder的输入,结束。

http://www.hskmm.com/?act=detail&tid=39991

相关文章:

  • 2025 年 10 月 PE 管道、PE 管材、HDPE 管、PE 管材管件厂家最新推荐,产能、专利、环保三维数据透视
  • 2025 年给水用 pe 管,钢丝网骨架 pe 管,大口径 pe 管厂家最新推荐,实力品牌深度解析采购无忧之选!
  • java(1)-安装JDK-mac
  • 2025 年燃气用 pe 管,pe 管件,矿用 pe 管厂家最新推荐,聚焦资质、案例、售后的深度解析
  • 2025年半自动冲芯机生产厂家权威推荐榜单:半自动矽钢片冲芯机/半自动铁芯冲压机/半自动冲芯设备源头厂家精选
  • 1027 题解
  • 2025 年锅炉省煤器,锅炉风帽,锅炉炉排厂家最新推荐,产能、专利、环保三维数据透视
  • 小程序-下载文件的方式
  • 2025年风力发电机厂家权威推荐榜单:微风发电/垂直轴风机发电机/水平轴风机发电机源头厂家精选
  • 2025 年 10 月锅炉横梁炉排, 锅炉链条,锅炉配件,锅炉人孔厂家最新推荐,产能、专利、环保三维数据透视
  • 英语_阅读_Live on Mars_待读
  • 2025年10月移民美国机构评价指南:多维分析助您选择专业服务
  • 2025年无尘矿砂厂家权威推荐榜单:松木猫砂/膨润土猫砂/水晶猫砂源头厂家精选
  • flume+kafka+flink整合
  • Yii2-Swoole 快速入门 - dacheng
  • 2025年氨水换热器源头厂家权威推荐榜单:板式换热器/缠绕管换热器/螺旋板换热器源头厂家精选
  • 软件测试哲学:从单元测试到端到端测试的完整指南
  • 内存泄漏的原因和排查方法详解
  • 2025年松木猫砂厂家权威推荐榜单:无尘矿砂/膨润土猫砂/水晶猫砂源头厂家精选
  • 权威媒体:得帆信息连续两年领跑iPaaS市占率
  • 基于RDS Supabase 服务高效构建轻量级应用,完成任务可赢取淘公仔、加湿器等好礼!
  • 读后感1
  • 18 10.17
  • 17 10.16
  • 20 10.21
  • 19 10.20
  • 分治法运用有感
  • 2025年食品重型货架厂家推荐排行榜,仓储重型货架,冷库重型货架,阁楼式重型货架,密集存储重型货架公司精选
  • redis 8.2.2单机部署
  • 2025年纺织仓库货架厂家推荐排行榜,重型货架,中型货架,阁楼货架,自动化立体仓库货架公司精选