异常检测知识点汇总
异常检测面临的难点
1.在实际应用场景的大量数据,都没有标签,市面上成熟的监督学习技术都不能使用,
2.区分是噪声或者是异常点也是一个挑战
3.当各种诈骗数据混在一起,区分他们的类型也是一个难题,因为我们不知道类型的定义
所以基于上述问题,我们需要使用无监督学习方法,而且需要被行业专家指导。
异常检测的分类
1.时序相关和时序独立(时序相关的情况下,数据的变化依赖于时间的维度)
2.全局和局部(每个点的参考对象,是以全局的点作为参考还是仅参考周围的点)
3.标签和异常分数(输出结果的形式不同)
4.基于模型特性(不同算法)
时序相关和时序独立
归根到底就是数据和时间有没有直接关联,举个例子,假设一个人的信用卡平时1到11月每个月消费2000元,但是12月突然消费了5000元,此时时间就对我们的检测存在意义。然而在时序独立的情况下,每个异常点都是独立的,和时间无关
时序相关方法:滑动窗口,马尔可夫链,时间序列聚类,时序预测方法等等
全局和局部
全局检测方法以全部点的集合作为参考,来对每个点进行检测,基本假设:点集中的正常点都遵从同一种模式,即分布在同一范围。问题:对每个点进行参考的时候,其他的异常点也会在参考点集合内,会导致结果有偏差。
局部检测方法对每个点的异常检测,仅以部分点的集合进行参考,基本假设:对于正常点所遵从的模式的个数没有限制,可能存在多种形态的正常点。问题:如何选取合适的参考点子集?
基于模型特性:
统计模型:基于检验,基于偏差的方法
空间相似度:基于距离,基于密度的方法
深度学习方法