因变量为正确率(0,1),自变量为一个分类变量,两个连续变量,family=binomial
显示model is nearly unidentifiable: very large eigenvalue
请问family的使用是否正确,以及如何解决警告?
因变量为正确率(0,1),自变量为一个分类变量,两个连续变量,family=binomial
显示model is nearly unidentifiable: very large eigenvalue
请问family的使用是否正确,以及如何解决警告?
广义线性模型 (Generalized Linear Model, GLM) 是一类常用于分析二项分布数据的统计模型。当因变量是二元变量时,可以使用 glm() 函数来拟合一个 GLM 模型,并使用 family 参数来指定二项分布的家族。
在你的情况中,因变量是0,1,自变量是分类变量,连续变量。你使用 family=binomial 来指定二项分布家族,这是正确的。
但是,如果你在拟合模型时遇到了 "model is nearly unidentifiable: very large eigenvalue" 的警告,这通常表明线性模型存在多重共线性问题。这可能是因为自变量之间存在高度相关性,或者是因为自变量的线性组合导致的。
解决方法:
你可以考虑删除一些自变量,或者使用不同的转换来降低自变量之间的相关性
你可以尝试使用正则化技术,比如 L1 或 L2 正则化,来解决多重共线性问题。
你可以尝试使用其他类型的模型,比如决策树或随机森林等。
需要注意的是,在确定自变量的时候,还需要考虑自变量的可解释性和业务场景。