问题1
有时需要对特征进行一些分析,比如特征之间的相关性,特征与目标变量之间的相关性,有时需要对数据进行一些预处理,比如对分类变量创建虚拟变量,对连续变量进行log变换或者标准化,归一化。
请问,这两个步骤之间的顺序是怎样的?是先创建虚拟变量,进行log变换后,再计算相关系数,进行卡方检验,方差分析或者互信息计算;还是先分析相关系数,卡方检验这些工作再创建虚拟变量,进行log变换?
问题2
假设一个分类问题数据集,有30个特征,为提高分类的准确率,或者出于汇报的要求(哪些特征,或者有可解释性意义的特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类的降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,生成新的变量。
如果只考虑特征的两两组合,有435种可能,这样分析工作量很大,请问,这样分析有必要吗?这还只是特征的两两组合,如果考虑更多变量的组合,可能性就更多了。
问题3
如果问题2需要这些工作,那么,是先通过logistic回归或者随机森林,这些带有特征筛选性质的模型进行训练后,再进行特征组合,还是先进行特征组合再训练模型。
问题4
P2中,对分类变量都创建了虚拟变量。个人理解,创建虚拟变量是为了避免模型认为分类变量之间有线性关系,除logistic回归外,其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量,是否创建虚拟变量对这些模型的结果是否有影响?