当前位置: 首页 > news >正文

ANOMALYCLIP

对象无关的零样本异常检测

创新点有三个:(1)对象不可知文本提示关注图像的异常/正常,而不是对象语义;(2)文本编码器调优来优化原始文本空间;(3)DPAM(V-V)通过增强局部视觉语义来提高分割性能。

论文主要用的是辅助AD数据集(提前标注好“正常/异常图像 + 像素级掩码”的数据集,如MVTec AD(含金属螺母、胶囊等15类缺陷)),医疗辅助数据集(如ColonDB)。

VLM有强大的零样本识别能力(包括异常检测在内的各种视觉任务)
需要对象无关的零样本识别能力(当目标域不具有相关训练数据时(违反数据隐私策略、保护患者敏感信息等))

类似CLIP之类的VLM被训练成更关注class语义而不是正常/异常。原因是:文本提示模板是“A photo of a [cls]”

回顾一下CLIP:
CLIP的文本编码器:传递类名为cls的文本提示模板G(A photo of a [cls]),以得到对应的文本嵌入。
CLIP的图像编码器:传递图像,得到全局视觉嵌入和局部视觉嵌入。


异常模式保持相似,例如金属螺母和板上的划痕、晶体管和印刷电路板的错位、各种器官表面的肿瘤/病变等。所以我们改变文本提示模板为:

image

这里的[V]、[W]都是可学习的(在训练过程中值会不断调整)。这里的[V1][V2]可能在训练之后分别代表着[表面平滑]、[形状规则],[W1][W2]可能在训练之后分别代表着[局部划痕]、[边缘突变],这样gn、ga两个模板在训练之后就分别充分吸取了正常、异常的特征。

一、优化gn、ga模板的过程(全局-局部上下文优化):

总损失 = 全局损失 + λ × 局部损失的加权和

image

(1)全局损失:判断这张图是异常图还是正常图

image

这里的fi是全局视觉嵌入匹配的也是gn、ga对应的文本嵌入

Lglobal:分别计算fi和gn、ga的余弦相似度,用交叉熵损失来优化。

(2)局部损失:定位“异常在图像的哪个像素”

image

image

image

image

掩码S一般公开数据集自带。

二、文本编辑器的调整

为什么要调整文本编码器?

因为CLIP的文本编码器原本是为“图像-物体类别语义对齐”预训练的,而我们希望文本空间能捕捉“异常/正常”的通用语义,所以需要对文本编码器进行调整。

对文本编码器的优化集中在“前9层”

image

image

为什么只替换“前缀”?
原始token的后P-Q个包含CLIP预训练的通用语义(如“[object]、[damaged]”的基础语义),保留它们可避免文本空间完全偏离视觉-语言对齐的基础。

image

三、图像编码器的调整

DPAM机制:将原始的Q-K注意力替换为V-V自注意力。

CLIP的Q-K注意力机制会导致视觉编码器过度关注全局物体语义,而忽略局部异常特征。(DeCLIP提出的注意力偏移问题)

四、推理过程

1、图像级异常检测:用P(ga,fi)判断是否异常。

image

2、像素级异常分割:定位“异常在哪里”

image

image

image

image

最后给个推理实例:

image

五、下面是实验部分:

工业检测数据集(7个):MVTec AD、VisA、MPDD、BTAD、SDD、DAGM、DTD-Synthetic

医学成像数据集(10个):皮肤癌ISIC、结肠息肉CVC-ClinicDB、CVC-ColonyDB、Kvasir、Endo、甲状腺结节TN3K、脑肿瘤HeadCT、脑MRI、Br35H、新冠肺炎COVID-19

对比的SOTA:CLIP、CLIP-AC、WinCLIP、VAND、CoOp

工业异常检测评价指标(3个):AP、AUROC、AUPRO

工业检测的比较结果(table 1):

image

医疗影像的比较结果(table 2):

image

http://www.hskmm.com/?act=detail&tid=37264

相关文章:

  • AI 辅助开发工具
  • Go开发者必备:5款提升代码质量的顶级Linter工具
  • 函数作用域在解决 JavaScript 自定义元素类跨环境兼容问题中的应用
  • React-router v6学生管理系统笔记 - 教程
  • 2025 年东莞石排到南通物流专线公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 钡铼技术预测:未来工业AI发展的七大趋势
  • 2025 年废气处理设备厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025年国产助听器品牌推荐榜:聚焦专业适配,杭州爱听科技引领国产助听新体验​
  • 2025 年PPR家装管厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年连接器厂家最新推荐榜单:聚焦电子 / Type-C / 板对板等品类,精选领军企业助力下游企业精准选型
  • 2025 年干燥机厂家最新推荐排行榜:聚焦闪蒸 / 气流 / 沸腾 / 闭路循环等多类型设备,精选优质企业深度解析
  • 2025 年北京订制旅游 / 精品旅游 / 旅游包车 / 精品小包团旅游旅行社推荐,北京汇通清源国际旅游公司专业服务解析
  • 2025 年北京品牌设计公司最新推荐榜,聚焦企业专业能力与服务价值深度剖析
  • 2025 年报警器经销商最新推荐排行榜:深度解析优质服务商,海湾 / 青鸟 / 利达等品牌优选,郑州安创消防实力领衔
  • 2025 年最新推荐!滑石粉厂家实力排行榜,超细 / 塑料级 / 涂料级 / 造纸级 / 工业级等多类型产品优质企业全解析
  • Linux的基本操作值vi操作对与文件
  • 2025 年最新推荐灭火器维修公司权威榜单:覆盖干粉 / 水基 / 二氧化碳 / 七氟丙烷 / 锂电池灭火器维修,帮您选出专业可靠服务单位
  • 连续与间断
  • 记一次 .NET 某光放测试系统 崩溃分析
  • cookie和缓存的区别
  • 【内网渗透】第168天:基石框架篇单域架构域内应用控制成员组成用户策略信息收集环境搭建
  • 2025年常州健身房私教权威推荐榜:专业教练资质与个性化课程服务的口碑之选
  • ASP.NET Core Blazor 路由配置和导航
  • 易基因:JAR (IF13):西农陈玉林团队多组学分析揭示绵羊早期胚胎发育的分子与表观遗传调控机制|项目文章
  • 2025 年一线门窗厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 电脑没声音怎么办?4种方法快速修复电脑无声问题(实测有效)
  • uniapp h5内嵌h5重复进入css动画卡顿的问题
  • MATLAB实现蒙特卡洛法的10负荷点配电网可靠性计算
  • 2025 年苏州机械设备EAC认证公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年北京杜拉维特马桶公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析