ivan_shieh 2017-10-31 07:46
浏览 2575

变量分析和数据预处理

问题1

有时需要对特征进行一些分析,比如特征之间的相关性,特征与目标变量之间的相关性,有时需要对数据进行一些预处理,比如对分类变量创建虚拟变量,对连续变量进行log变换或者标准化,归一化。

请问,这两个步骤之间的顺序是怎样的?是先创建虚拟变量,进行log变换后,再计算相关系数,进行卡方检验,方差分析或者互信息计算;还是先分析相关系数,卡方检验这些工作再创建虚拟变量,进行log变换?

问题2

假设一个分类问题数据集,有30个特征,为提高分类的准确率,或者出于汇报的要求(哪些特征,或者有可解释性意义的特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类的降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,生成新的变量。
如果只考虑特征的两两组合,有435种可能,这样分析工作量很大,请问,这样分析有必要吗?这还只是特征的两两组合,如果考虑更多变量的组合,可能性就更多了。

问题3

如果问题2需要这些工作,那么,是先通过logistic回归或者随机森林,这些带有特征筛选性质的模型进行训练后,再进行特征组合,还是先进行特征组合再训练模型。

问题4

P2中,对分类变量都创建了虚拟变量。个人理解,创建虚拟变量是为了避免模型认为分类变量之间有线性关系,除logistic回归外,其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量,是否创建虚拟变量对这些模型的结果是否有影响?

  • 写回答

0条回答

    报告相同问题?

    悬赏问题

    • ¥20 有关区间dp的问题求解
    • ¥15 多电路系统共用电源的串扰问题
    • ¥15 slam rangenet++配置
    • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
    • ¥15 对于相关问题的求解与代码
    • ¥15 ubuntu子系统密码忘记
    • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
    • ¥15 保护模式-系统加载-段寄存器
    • ¥15 电脑桌面设定一个区域禁止鼠标操作
    • ¥15 求NPF226060磁芯的详细资料