ivan_shieh 2017-10-31 07:46
浏览 2575

变量分析和数据预处理

问题1

有时需要对特征进行一些分析,比如特征之间的相关性,特征与目标变量之间的相关性,有时需要对数据进行一些预处理,比如对分类变量创建虚拟变量,对连续变量进行log变换或者标准化,归一化。

请问,这两个步骤之间的顺序是怎样的?是先创建虚拟变量,进行log变换后,再计算相关系数,进行卡方检验,方差分析或者互信息计算;还是先分析相关系数,卡方检验这些工作再创建虚拟变量,进行log变换?

问题2

假设一个分类问题数据集,有30个特征,为提高分类的准确率,或者出于汇报的要求(哪些特征,或者有可解释性意义的特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类的降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,生成新的变量。
如果只考虑特征的两两组合,有435种可能,这样分析工作量很大,请问,这样分析有必要吗?这还只是特征的两两组合,如果考虑更多变量的组合,可能性就更多了。

问题3

如果问题2需要这些工作,那么,是先通过logistic回归或者随机森林,这些带有特征筛选性质的模型进行训练后,再进行特征组合,还是先进行特征组合再训练模型。

问题4

P2中,对分类变量都创建了虚拟变量。个人理解,创建虚拟变量是为了避免模型认为分类变量之间有线性关系,除logistic回归外,其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量,是否创建虚拟变量对这些模型的结果是否有影响?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 微信公众号自制会员卡没有收款渠道啊
    • ¥15 stable diffusion
    • ¥100 Jenkins自动化部署—悬赏100元
    • ¥15 关于#python#的问题:求帮写python代码
    • ¥20 MATLAB画图图形出现上下震荡的线条
    • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
    • ¥15 perl MISA分析p3_in脚本出错
    • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
    • ¥15 ubuntu虚拟机打包apk错误
    • ¥199 rust编程架构设计的方案 有偿