多重共线性

在回归中,多重共线性是指与其他预测变量相关的预测变量。适度的多重共线性可能不会导致问题。但是,严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定而且难以解释。

要度量多重共线性,可以检查预测变量的相关性结构。您也可以检查方差膨胀因子 (VIF),它度量预测变量相关时估计回归系数的方差增加的幅度。如果 VIF = 1,表示不存在多重共线性,但如果 VIF > 1,预测变量可能存在一定程度的相关性。当 VIF 介于 5 到 10 之间时,回归系数的估计严重不准。

严重多重共线性的可能解决办法:

·    从模型中删除那些高度相关的预测变量。由于它们提供了冗余信息,因此删除它们通常不会显著减少 R2考虑使用逐步回归、最佳子集回归或数据集的专门知识来删除这些变量。

·    使用偏最小二乘回归 (PLS) 或主成份分析。这些方法可以将预测变量的数量减少为更小的不相关分量集。

例如,一家玩具制造商希望根据调查结果预测客户满意度,开始时他们将“强度”和“没有破损”作为预测变量包括在回归模型中。调查人员发现,这两个变量之间有非常强的负相关关系,其 VIF 值大于 5。在这种情况下,调查人员可以尝试删除其中的一个变量,或者利用 PLS 或主成份分析来使用这些相关变量生成一个“耐用性”分量。