首页 / 科技数码 / 正文

异常检测常用方法简述

常用的异常值检测方法如下

1. 简单的描述性统计分析方法。可以使用python中的 pandas库 ,直接使用 describe() 来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,代码如下:

2. 3 原则方法。这个原则有个条件:数据需要服从 正态分布 。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。一组测定值中与平均值的偏差超过两倍标准差的测定值 。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3. 箱型图分析方法。箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

如有侵权请及时联系我们处理,转载请注明出处来自