Hsia_ching_Wang 2022-04-03 11:27 采纳率: 100%
浏览 802
已结题

R语言多元回归。4个自变量全部不显著。但整体F显著。只需要深度解释原因。不需要任何纠错

本人初学R语言-海外研究生就读。教授的题目背景是4个不同的能力测试分数作为自变量,1个绩效分数作为因变量。(XY都是score的数字分数)探求哪个能力测试和绩效成绩最相关。100+样本数量

多元回归后-出现如标题的问题。教授表示这就是想要同学们探索的问题。

查阅资料后,怀疑是多重现性或者是残值问题-用VIF和一些残值程序-包括数据分布是否正态。数据测试完后-全部没有问题。数据分布的很好,无多重现性,也没有残值问题

又怀疑是否是这4个因变量之间是否高度相关-导致多元回归时候互相抵消了显著性。为此各自做了相关分析,4个变量互相之间最高的相关系数也就0.5。似乎这个原因站不住脚跟。

我突发奇想自己组合了4个因变量可能存在的线性组合-如123、124、234;23;12、14之类的多元回归。发现每一种回归下-各个因变量都显示不同的显著性。另外,我还做了4个一元回归,全部各自高度显著。

这个题目的背景是建立在EFA下的-EFA的结果跑出来建议是4个Factors-正好对应了题目数据里4个能力测试的类别。一共40道题目的分数-所以分成4个因子应该是没问题的(如果能指出倪端,欢迎)

本人问题就是想要请求各位帮忙解释这个现象的原因。教授是刻意设置这个结果,所以不需要纠错,或者更改某种模型-只希望一个合理的解释-最好联系到背景,这4个能力测试的设置是否真的能够预测绩效分数,或者和绩效分数高度相关。所以请求指点一下,最好附上一些重要理论或是文献!我会深入学习!

  • 写回答

5条回答 默认 最新

  • Yooooung_Lee 2022-04-06 14:36
    关注

    本来清明节后工作挺忙的,结果意外的一切正常,上班摸鱼期间看到了你的提问,想尝试用心答一下。
    你想知道标题的原因?这个原因是想说,照你的理解F检验通过的话,那么4个自变量也应该是显著的对吧。

    首先我想解释下多元回归中F检验的意义,我觉得你可能要先明确这一点,F检验中,我们本身是想让其支持备择假设H1而拒绝H0,但犯第一类错误下拒绝了H0,意味着你只能认定肯定有解释变量X1X2X3X4与Y存在回归关系,因为F检验的H0假设是认为k-1个解释变量都不与y存在回归关系。一般的操作过程是F检验通过后,进一步对各变量做t检验以确定哪些X是重要的解释变量。
    显然你第一步是成功的,但第二步没有找到一个通过的t。读到此处,我开始质疑你的初始假设条件是否支持你做F检验,即F检验,它可靠吗?
    标题里是多元回归的内容,下方的各种建模尝试我看到都是在进行线性建模,那么我首先认为你需要做的是多元线性回归。
    我首先说结论吧,基于你给出的结果,因变量间存在着中度的相关性(0.5其实很高了),也就是犯了多重共线性的问题。

    那么我先尝试不借助任何统计论证去解释你的这个结果。从业务端看这种问题可以猜想是不是你的能力测试间并不相互独立(其实可以简单暴力的归结为聪明人做什么测试都得心应手,而蠢人干什么可能都差点意思),那么毫无疑问测试分数间是有相关性存在的。而且对应你的Y是某项绩效分数,也可以用这样的业务常识去佐证。毕竟优秀的人绩效也不会差,对吧。

    那么为什么会在线性组合之后关系反而弱化了?

    我曾经给同事们设计过一项变态的问卷,那份问卷分AB卷,简单弱化概念就是这份问卷可以真实反映做题人的IQ水平,但A卷是得分越高IQ越高,B卷是得分越低IQ越高(B卷是我小时候看武林外传李大嘴做测试题的灵机一动),虽然我们没有让每一个受试者把AB卷各答一遍,但我们还是拿到了每个人的得分。你可以看到,IQ与A高度正线性相关,IQ与B高度负线性相关,但IQ与A+B的多项式就显得不那么相关了(如果我们真的让每个人都做了A和B)。我想这个例子有助于你的进一步思考。

    接着聊聊统计论证吧。其实在统计学的世界里,回归问题有大量变量间相关,自相关问题多出现在时间序列的分析过程中。在应对这种问题时,因为你的基础假设条件不满足线性回归,也就意味着你的方法其实全部失效了。(很残忍对不对。。。)要想研究这种问题,就必须重新构筑变量,或者重新研判变量间关系,即使牺牲一部分的信息量,也要保证你的多元线性模型能够更好的拟合。(我猜想这部分可能会以EFA过程反驳我,别急,看下去,毕竟我也没看到你的KMO和barrlet不是吗。)写到此处我忽然想起一篇我多年前的学年论文博客,你可以参考下面对线性相关时,如何处理能够使得结果可行。https://blog.csdn.net/lixiaomie01/article/details/80395065
    针对其中的几个点我想我其实没有给你思路,只是告诉了你我不认可的论点,但是统计论证到此处,我无法站在你不可靠的假设条件下做论证,我更希望你尝试下新的方法吧,box-cox变化下,或者lasso试试。
    期待你的新结果反馈。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 4月16日
  • 已采纳回答 4月8日
  • 创建了问题 4月3日

悬赏问题

  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改