JT Tomato� 2019-06-21 17:53 采纳率: 16.7%
浏览 958

使用不同的多重共线性的识别方法,发现识别结果彼此矛盾怎么办?

各位少侠&女侠们:

我在看贾平俊的《统计学---基于R》(第二版)时候发现了一个现象:P272 关于共线性识别书中列举了4中方法:
其中第1种: 检验自变量之间的关系系数(书中内容如下)
图片说明

图片说明

按照文中的说法:“由上图种的P值显示,这5个变量种,只有X5 与其他4个自变量之间的关系不显著,而其他4个自变量两辆之间均显著相关” 继而得出结论:“多元线性回归种可能存在多重多重共线性。的情形

而书中接下来介绍了另一种检验方法:容忍度 & 方差膨胀因子(书中结果如下)

图片说明

继而书中得出结论”容忍度均大于0.1,VIF均小于10,这说明本例建立的回归模型共线性并不严重

针对书中的表述,由以下困惑:

1.在方法一中,作者是因何断言“由上图种的P值显示,这5个变量种,只有X5 与其他4个自变量之间的关系不显著,而其他4个自变量两辆之间均显著相关”的? 判断“显著”的标准是什么?

2.两种判断方法之间存在一定的矛盾性:一个说存在共线性问题,(言外之意需要修正模型);另一个则说模型共线性并不严重(言外之意:可以不修改模型),那么作为模型的使用者,我们该怎么应对?

感谢!报拳!

  • 写回答

1条回答 默认 最新

  • 你知我知皆知 2024-08-10 12:27
    关注

    以下回答参考 皆我百晓生券券喵儿 等免费微信小程序相关内容作答,并由本人整理回复。

    要解决这个问题,我们可以根据你的需求来提供详细的回答。然而,我必须提醒你,由于缺乏具体的上下文信息,我无法直接为你提供代码示例。不过,我可以帮助你理解如何使用R语言来解决这个问题。

    1. 理解显著性和共线性

    显著性是指在一个特定的数据集中,某个变量与其它变量之间的关系是否显著。在这个例子中,“显著”通常指的是两个或多个变量间的线性关系非常强,以至于它们对解释因变量的影响几乎相同。如果两个或更多的变量间的关系非常强且相似,这意味着它们可能具有高度的相关性。

    2. 使用方法一中的显著性判定

    首先,你需要明确的是,在这个例子中,"显著性"是指每个变量与其他所有其他变量之间的关系是否显著。这意味着即使某两个变量之间的关系非常强,但它们与第三个变量之间的关系同样强烈,也视为显著。这是因为这些变量被同时考虑在一起分析。

    3. 方法二中的计算

    在第二个方法中,vif()函数用于计算方差膨胀因子(VIF)。VIF是一个衡量模型中自变量间相关程度的指标,它定义为模型中所有自变量与残差平方和比的倒数。当VIF值大于1时,意味着有较高的VIF值,这表明存在严重的多重共线性问题。

    4. 解决方案

    对于解决方案的选择,主要取决于你的研究目的和数据特征。如果你的目标是确保模型有足够的解释能力,避免过拟合,并且你认为共线性不会导致模型失效,那么可能不需要修正模型。相反,你可以选择保留共线性较高的自变量,因为它们有助于提高预测准确性。

    5. 应用示例

    下面是一个简单的示例,展示如何使用R语言进行共线性检查和模型评估。

    # 加载必要的包
    library(psych)
    library(car)
    
    # 创建数据集
    data <- read.csv("your_data.csv")
    
    # 建立模型
    mod1 <- lm(y ~ x1 + x2 + x3 + x4 + x5, data = data)
    
    # 计算VIF
    vif(mod1)
    

    通过上述步骤,你可以了解模型中是否存在共线性以及其严重程度。然后,你可以决定是否需要调整模型以减少共线性的问题。

    希望以上信息对你有所帮助!如果你有更具体的问题或需要进一步的帮助,请随时告诉我。

    评论

报告相同问题?