异常值

异常大或异常小的观测值。 异常值可能对统计结果(如均值)产生不相称的影响,并因此导致误导性解释。例如,一个数据集包含值:1、2、3、34。均值 10 受到了极值点 34 的很大影响,大于数据中的大多数值 (1、2、3)。在此例中,该均值使得这些数据值显得比实际值要大。您应该调查异常值,因为他们能够提供关于数据或过程的有用信息。出现异常值的原因有多种:

·    数据输入错误:纠正错误并重新分析数据

·    过程问题:调查过程找出出现异常值的原因

·    缺失因子:确定是否没有考虑影响过程的某个因子

·    随机偶然性:调查过程和异常值,以确定是否偶然出现;执行包含及不包含异常值的分析以了解它对结果的影响

通常,通过图形来识别异常值是最容易的。Minitab 通过标记距箱边缘至少四分位间距 (Q3 Q1) 1.5 倍以上的观测值来标识箱线图中的异常值。例如,一家公司根据超过期限的天数跟踪迟交的付款。下面的箱线图中显示了两个异常值,表示有两个账户严重超过过期时间。一名分析人员调查了这两个账户,发现这两个客户已经搬家了,根本就没有收到他们的帐单。

箱线图

在模型拟合过程(如回归和方差分析)中,异常值就是不能被拟合模型很好地解释的点。这些点在 y 方向上远离拟合回归线,并且有残差极值。Minitab 在异常观测值表中用 R 来标记具有残差极值 (+ 2) 的观测值。您也可以在图形中识别这些异常值,例如使用散点图和残差图,如下所示。

散点图

Y

 

X

使用诊断度量(如 Cook 距离或 DFITS)可以确定异常值是不是有影响的观测值。要确定异常值对结果的影响,请运行包含和不包含该观测值的分析看看模型会发生什么样的变化。请注意,某个观测值有可能在一个模型中是异常值,而在另一个模型中却不是。例如,某个观测值在线性模型中可能是异常值,而在非线性模型中却能很好地被解释。