Mallows Cp

用来帮助在多个候选回归模型之间进行选择的一个统计量。Mallows Cp 会将整个模型的精确度和偏倚与具有最佳预测变量子集的模型进行比较。它可帮助您在模型中的预测变量数方面实现重要平衡。具有过多预测变量的模型的精确度相对较差,而预测变量过少的模型又会产生偏倚的估计。接近预测变量数加上常量数的 Mallows Cp 值表明模型在估计真实回归系数和预测未来响应时比较精确且无偏倚。

例如,您为一家薯片公司工作,该公司正在研究影响每个包装中碎薯片数量(响应变量)的因子。预测变量包括马铃薯的百分比、冷却速率和加工温度。

下面是来自最佳子集回归分析的简化结果:

步骤

马铃薯百分比

冷却速度

加工温度

Mallows Cp

1

X

 

 

7.2

2

X

X

 

2.9

3

X

X

X

5.5

上表表明包含两项因子(“%马铃薯”和“冷却速率”)的模型比较精确且无偏倚,因为其 Mallows Cp (2.9) 最接近预测变量数加上常量数 (3)。您应当同时检验 Mallows Cp 与最佳子集输出中包括的其他统计量,如 R2、调整的 R2 和 S。

警告

仅当使用相同的预测变量完整集合时,使用 Mallows Cp 比较回归模型才有效。