本人初学R语言-海外研究生就读。教授的题目背景是4个不同的能力测试分数作为自变量,1个绩效分数作为因变量。(XY都是score的数字分数)探求哪个能力测试和绩效成绩最相关。100+样本数量
多元回归后-出现如标题的问题。教授表示这就是想要同学们探索的问题。
查阅资料后,怀疑是多重现性或者是残值问题-用VIF和一些残值程序-包括数据分布是否正态。数据测试完后-全部没有问题。数据分布的很好,无多重现性,也没有残值问题。
又怀疑是否是这4个因变量之间是否高度相关-导致多元回归时候互相抵消了显著性。为此各自做了相关分析,4个变量互相之间最高的相关系数也就0.5。似乎这个原因站不住脚跟。
我突发奇想自己组合了4个因变量可能存在的线性组合-如123、124、234;23;12、14之类的多元回归。发现每一种回归下-各个因变量都显示不同的显著性。另外,我还做了4个一元回归,全部各自高度显著。
这个题目的背景是建立在EFA下的-EFA的结果跑出来建议是4个Factors-正好对应了题目数据里4个能力测试的类别。一共40道题目的分数-所以分成4个因子应该是没问题的(如果能指出倪端,欢迎)
本人问题就是想要请求各位帮忙解释这个现象的原因。教授是刻意设置这个结果,所以不需要纠错,或者更改某种模型-只希望一个合理的解释-最好联系到背景,这4个能力测试的设置是否真的能够预测绩效分数,或者和绩效分数高度相关。所以请求指点一下,最好附上一些重要理论或是文献!我会深入学习!