VIF值小于1表示不存在多重共线性的问题;1<=VIF值<=5,表示存在一般程度的多重共线性问题,需要关注;VIF值大于等于5,表示存在严重的多重共线性问题,需要考虑去除相关自变量或采用其他模型。
在数学上,回归模型变量的VIF等于总模型方差与仅包含该独立变量的模型方差之比。为每个自变量计算该比率。容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性.自变量x的方差膨胀因子...
VIF的计算方式是基于回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。具体来说,VIF值等于1加上自变量与其他所有自变量之间相关系数的平方和乘以该自变量对应的偏回归系数的平方的倒数。这个公式反映了自变量在模型中由于共线性而引起的方差膨胀程度。 在计算公式中,如果自变量...
下面是一个示例,涉及一些数据,这些数据着眼于研究人员的薪水、出版物和就业年限之间的关系: 如果VIF等于1,则因子之间没有多重共线性,但如果VIF大于1,则预测变量可能具有相关性。上面的输出显示,“Publication”和“Years”因子的VIF约为1.5,这表明存在一些相关性,但不足以引起过度关注。介于5和10之间的VIF表示可能存...
而得到vif之后,我们要找出vif中数据最大的一项,判断其是否大于等于10。如果是,就找到其对应的标号,利用np.argmax即可,然后删除col中这一项,再把所得的结果带入到process函数中,形成递归;如果不是,则直接返回col和vif这两个结果。 最终我们得到的cols是['const'...
VIF实际上是每个自变量的可决系数的平方根,与皮尔逊相关系数矩阵紧密相连。它等于原矩阵的行列式除以去除对应行和列后的剩余部分的行列式。这个看似复杂的计算过程,其实隐藏着深刻的统计原理,涉及最小二乘法的解、相关系数矩阵的结构以及残差平方和的计算。通过矩阵的运算,VIF的公式得以揭示,成为我们理解...
在不存在多重共线性的情况下,方差扩大因子接近于1。但是,实际上自变量之间总是或多或少地存在多重共线性,因而将方差扩大因子等于1作为评价共线性的标准是不现实的。多重共线性越强,方差扩大因子就越大。一个易用的标准:当VIF值大于10时,就认为变量之间具有强烈的多重共线性,不能接受。如果VIF暗示自变量之间...
的估计量的方差等于误差项的方差 和矩阵 中第k个对角元素的乘积。这第二个因子就称为方差膨胀系数,记为VIFₖ。可以证明 ,其中 是第k个自变量 与其余的自变量之间的判定系数。因此,当第k个自变量 与其余的自变量之间相关程度愈高,即 愈接近1时,相应的VIFₖ也就越大。反之,若 与其余自变量之间相关程度很...