当前位置: 首页 > news >正文

【论文阅读】ASPS: Augmented Segment Anything Model for Polyp Segmentation - 指南

论文链接:https://arxiv.org/abs/2407.00718

Code: https://github.com/HuiqianLi/ASPS

来源: Medical Image Computing and Computer Assisted Intervention – MICCAI 2024

摘要:

背景:息肉分割对于结直肠癌的早期诊断非常关键。最近出现的SAM展现了在大规模数据集预训练基础上的巨大潜力,有望推动息肉分割技术的进步。

挑战:SAM在应用到内窥镜图像时遇到两个主要问题:

  • 结构偏向:作为基于Transformer的模型,偏重于全局和低频信息,可能忽略细节,从而引入偏差。
  • 领域差异:SAM是在自然图像上预训练的,直接应用到内窥镜图像时,表现出较差的out-of-distribution(OOD)性能,导致预测不精准、置信度偏差。

手段:为解决这些困难,本文提出Augmented SAM for Polyp Segmentation(ASPS),包含两个核心模块:

  • Cross-branch Feature Augmentation(CFA):结合可训练的CNN编码器(增强局部和高频信息)与固定的视觉Transformer(ViT)编码器,实现域知识的融合,弥补SAM在细节捕获上的不足。
  • Uncertainty-guided Prediction Regularization(UPR):利用SAM输出的IoU得分OOD信息)的适应能力。就是作为指导,调整训练过程中的预测不确定性,增强模型对不同域素材(尤其

结论:大量实验验证了该方法在提升SAM在息肉分割中的效果和泛化能力方面的有效性。

1. 引言

背景和现状:

引入SAM(Segment Anything Model):

贡献和方案:

总结:

2. 方法

总体架构(Overview):网络结构如图1所示,旨在解决SAM模型存在的领域退化(domain degradation)障碍,即模型在不同数据域(如从自然图片到息肉内窥镜图像)上的表现下降。
在这里插入图片描述

主要目标:

  • 增强特征提取能力:让模型更好地捕捉息肉图像中的关键信息。
  • 提升领域泛化能力:确保模型在不同来源或条件下都能保持良好的分割性能。

引入的两个关键模块:

  • CFA(Cross-branch Feature Augmentation,交叉分支特征增强)模块:
    • 将训练中的 CNN 编码器提取的局部、高频信息与预训练的 ViT(视觉Transformer)全局信息结合。
    • 此种融合实现特征的泛化学习,提高模型对不同材料域的适应性。
    • 具体机制包括:从深层(高抽象)信息帮忙改善浅层(低级)特征,结合浅层的空间位置(通过引入位置编码或浅层特征)以增强边界和细节的表达能力。
  • UPR(Uncertainty-guided Prediction Regularization,不确定性引导的预测正则化)模块:
    • 在训练过程中,旨在减少预测的不确定性,提升模型的信心校准(confidence calibration)。
    • 利用提示(hints),即利用真实的标注信息(ground truth)作为辅助,指导模型更准确地学习。
    • 采用一种基于预测不确定性(如信心值或置信度)的训练策略,让模型在训练中更稳定、可靠。

训练方式:网络采用端到端(end-to-end)训练,不依赖额外的提示(prompt),同时优化这两个模块以完成最优性能。

2.1 跨分支特征增强模块

问题背景:就算SAM在许多图像分割任务取得了成功,但在息肉分割中存在不足,主要原因是其图像编码器(Vision Transformer,ViT)不能充分有效地从未见过的内窥镜图像中提取足够的特征。

改进目标:为了增强特征提取能力,设计了CFA(Cross-branch Feature Augmentation)模块,其作用是学习多尺度和多层次的特征表示。

在这里插入图片描述

模型架构修改:

2.2 不确定性引导的预测正则化模块

为了增强SAM(Segment Anything Model)在特定领域(如内窥镜图像)中的泛化能力,作者提出的训练策略,特别是关于调整归一化层(LayerNorm)以及利用置信度调节进行训练引导的方法。具体内容可能分为以下几个要点:

调整归一化层(LayerNorm)以缓解域转移疑问

  • SAM是在自然图片上训练的,但在特定领域如内窥镜图像上表现不佳,主导因数据分布的差异引起的内部协变量偏移(internal covariate shift)。

  • 依据细调模型的归一化层(LayerNorm),使模型更好地适应目标域(内窥镜材料)中的数据分布,从而提高泛化能力。

  • 具体地,把SAM的Vision Transformer(ViT)编码器中的LayerNorm分成两个部分:

    • Transformer块的归一化(transformer block norm)
    • 颈层归一化(neck layer norm),

    最终只训练“颈层”归一化(靠近输出的层),实现针对性微调,这一做法类似于通过调整归一化参数消除域差异问题。

利用模型输出的不确定性(Confidence)辅助训练

  • SAM提供了一个IoU分数输出,用来表示预测的“置信度”或不确定性。低不确定性对应更高的预测可靠性。
  • 然而,在面向未知或新域数据时,SAM可能在高置信度下给出错误预测,这不利于模型的可靠性和域适应。
  • 为此,在训练过程中减小模型的预测不确定性(即提高置信度),用“ground truth(真实标签)”作为一种“提示”指导模型学习。

利用置信度调节“提示”引入

c = 1 2 ( c i + c p ) c = \frac {1} {2}(c_i + c_p)c=21(ci+cp)

  • c i c_ici:SAM的IoU得分,作为图像层级置信度
  • c p c_pcp:据像素不确定性U p U_pUp计算像素层面置信度,其中U p = 1 − σ ( ∣ P ∣ ) U_p=1-\sigma(|P|)Up=1σ(P)P PP为预测分割结果;

这个信心值决定了是否用ground truth作为“提示”帮助模型:置信度低时,模型需要“提示”以学习正确的掩码(mask)。具体做法是将预测P和真实标签Y通过权重c线性结合:P ′ = c ⋅ P + ( 1 − c ) ⋅ Y P^′ = c · P + (1 − c) · YP=cP+(1c)Y

引入“信心损失”以防模型过度依赖提示

整体损失是分割损失L s = L c e + 0.5 ⋅ L d i c e + L m s e L_s=L_{ce}+0.5 \cdot L_{dice} + L_{mse}Ls=Lce+0.5Ldice+Lmse信心损失L c = − l o g ( c ) L_c = -log(c)Lc=log(c)之和:

L = L s + λ L c L = L_s + \lambda L_cL=Ls+λLc

其中λ是超参数,用于平衡两部分的影响。

  • 要是只最小化分割损失,模型会试图让c趋向0(即总是直接用ground truth),这会导致模型无法自主学习和适应。
  • 因此引入信心损失L c = − l o g ( c ) L_c = -log(c)Lc=log(c),这个损失会在c趋向0时变得很大,从而惩罚模型试图总是用ground truth,促使模型自己学会合理估计置信度。

3. 实验

数据集(Datasets):实验在五个常用的息肉分割内容集上进行:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS、EndoScene。

实现细节(Implementations)

模型组成

评估指标:使用Dice系数和IoU。

结果与分析:将提出的方法与一些领先的分割模型和某些基于SAM的方法进行了对比。

在这里插入图片描述

傅里叶分析:通过傅里叶变换显示,CNN分支比ViT基础模型捕获了更多的高频信号,强调其高频信息提取能力。

在这里插入图片描述

定性的结果:作者的预测结果更接近真实标签。

在这里插入图片描述

消融实验(Ablation Study)

在这里插入图片描述

4. 结论

本文提出的一种新颖的多任务方法,名为ASPS(Augmented Segment Anything Model for Polyp Segmentation),旨在改善原始的SAM模型在息肉分割任务中的不足。具体内容如下:

目标:解决SAM模型在信息捕获方面存在的限制,弥合自然图像与内窥镜图像之间的域差异(域适应障碍)。

核心组件

  • CFA模块(Cross-branch Feature Augmentation):引入一个可训练的卷积神经网络(CNN)编码器分支,用来补充冻结的Vision Transformer(ViT)编码器,从而融合多尺度和多层次的特征,增强模型的特征提取能力。
  • UPR模块(Uncertainty-guided Prediction Regularization):通过引入提示信息(hints)和调节归一化层(Normalization Layer),在训练过程中减少模型的不确定性,促进模型在内窥镜图像领域的适应能力。

验证效果:通过在五个常用的息肉数据集上的实验,验证了所提方法的有效性和优越性。

http://www.hskmm.com/?act=detail&tid=39099

相关文章:

  • RuoYi-Cloud 认证实现
  • 初步学习计算机相关知识有感 - fang
  • 2025年自动上料机厂家权威推荐榜:螺旋上料机/真空上料机/粉末上料机,高效输送系统精准选型指南
  • 用代码将txt分别转换成列表和字典
  • 每日反思(2025_10_25)
  • AtCoder Beginner Contest 429 ABCDEF 题目解析
  • 2025年提升机厂家推荐排行榜,自动提升机,垂直提升机,物料提升机,工业提升设备公司精选
  • 刷题日记—数组—布尔数组的应用
  • 详细介绍:k8s中的kubelet
  • 树状数组 区间加 区间和 小记
  • 实验二 现代C++编程初体验
  • 昨夜雨疏风骤
  • 明天的任务
  • Windows SMB权限提升漏洞遭活跃利用
  • 江西振兴杯决赛Misc全解
  • 完整教程:Webpack5 第四节
  • 2025.10.25总结
  • ABC429
  • 10.25 CSP-S模拟39/2025多校冲刺CSP模拟赛8 改题记录
  • ABC429(C,D,E)
  • 玩转单片机之智能车小露——数字与字符串的转换与打印
  • 数据采集作业1 102302111 海米沙
  • 嵌入子流形
  • Link-Cut Tree
  • 列表,集合,字典的增、删、查、改方法对比
  • MusicFree 音乐
  • 线段上随机取n个点的最大距离期望
  • RuoYi-Cloud-Plus 数据权限实现原理解析
  • 第5天(中等题 滑动窗口、逆向思维)
  • P10老板一句‘搞不定就P0’,15分钟我用Arthas捞回1000万资损 - 指南