ivan_shieh 2017-10-31 07:46
浏览 2575

变量分析和数据预处理

问题1

有时需要对特征进行一些分析,比如特征之间的相关性,特征与目标变量之间的相关性,有时需要对数据进行一些预处理,比如对分类变量创建虚拟变量,对连续变量进行log变换或者标准化,归一化。

请问,这两个步骤之间的顺序是怎样的?是先创建虚拟变量,进行log变换后,再计算相关系数,进行卡方检验,方差分析或者互信息计算;还是先分析相关系数,卡方检验这些工作再创建虚拟变量,进行log变换?

问题2

假设一个分类问题数据集,有30个特征,为提高分类的准确率,或者出于汇报的要求(哪些特征,或者有可解释性意义的特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类的降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,生成新的变量。
如果只考虑特征的两两组合,有435种可能,这样分析工作量很大,请问,这样分析有必要吗?这还只是特征的两两组合,如果考虑更多变量的组合,可能性就更多了。

问题3

如果问题2需要这些工作,那么,是先通过logistic回归或者随机森林,这些带有特征筛选性质的模型进行训练后,再进行特征组合,还是先进行特征组合再训练模型。

问题4

P2中,对分类变量都创建了虚拟变量。个人理解,创建虚拟变量是为了避免模型认为分类变量之间有线性关系,除logistic回归外,其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量,是否创建虚拟变量对这些模型的结果是否有影响?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
    • ¥15 YoloV5 第三方库的版本对照问题
    • ¥15 请完成下列相关问题!
    • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
    • ¥15 求daily translation(DT)偏差订正方法的代码
    • ¥15 js调用html页面需要隐藏某个按钮
    • ¥15 ads仿真结果在圆图上是怎么读数的
    • ¥20 Cotex M3的调试和程序执行方式是什么样的?
    • ¥20 java项目连接sqlserver时报ssl相关错误
    • ¥15 一道python难题3