无监督异常检测：Z-Score,LOF算法与IsolationForest-CSDN博客

本文链接：https://blog.csdn.net/gjinc/article/details/131980172

异常点检测(Outlier detection)，⼜称为离群点检测，是找出与预期对象的⾏为差异较⼤的对象的⼀个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点（outlier）是⼀个数据对象，它明显不同于其他的数据对象。异常点检测的应用也十分广泛，例如：信用卡反欺诈、工业损毁检测、广告点击反作弊、刷单检测和羊毛党检测等等。
一般异常检测是无监督学习，因为它不是二分类而是多分类问题。
在这里插入图片描述
**问题1：**为什么要用无监督异常检测方法？

很多场景没有标签或者标签很少，不能进行监督训练；而且样本总是在发生变化。

目前主流的异常检测方法的基本原理都是基于样本间的相似度：距离、密度、角度、隔离所需的难度和簇等等。

常见的异常检测有：

Z-Score检验——统计学方法
Local Outlier Factor
孤立森林

Z-Score检验

通过ZScore将正态分布的数据转化为标准正态分布数据，公式下：
$\frac{(x-u)}{\sigma}$
在这里插入图片描述

如果符合正态分布，则有68%的数据在± $\sigma$ 之间；95%的数据在±2 $\sigma$ 之间；有99.7%的数据在±3 $\sigma$ 之间。
但大部分场景的数据都不满足正态分布的数据。

Local Outlier Factor(LOF算法)

LOF算法是基于密度的异常检测算法，它会为每个数据点计算一个分数，通过分数的大小来判断数据是否异常。
LOF算法的流程如下：
1）⾸先对样本空间进⾏去重，分别计算每⼀个样本到样本空间内其余点的距离。
2）将步骤1中的距离升序排列。
3）指定近邻样本个数k，对于每个样本点，寻找其k近邻样本，然后计算LOF分数，作为异常分数。
在这里插入图片描述

LOF例子

还是以评分卡模型数据为例。

from pyod.models.lof import LOF
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score,roc_curve,auc,