变量分析和数据预处理

问题1

有时需要对特征进行一些分析,比如特征之间的相关性,特征与目标变量之间的相关性,有时需要对数据进行一些预处理,比如对分类变量创建虚拟变量,对连续变量进行log变换或者标准化,归一化。

请问,这两个步骤之间的顺序是怎样的?是先创建虚拟变量,进行log变换后,再计算相关系数,进行卡方检验,方差分析或者互信息计算;还是先分析相关系数,卡方检验这些工作再创建虚拟变量,进行log变换?

问题2

假设一个分类问题数据集,有30个特征,为提高分类的准确率,或者出于汇报的要求(哪些特征,或者有可解释性意义的特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类的降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,生成新的变量。
如果只考虑特征的两两组合,有435种可能,这样分析工作量很大,请问,这样分析有必要吗?这还只是特征的两两组合,如果考虑更多变量的组合,可能性就更多了。

问题3

如果问题2需要这些工作,那么,是先通过logistic回归或者随机森林,这些带有特征筛选性质的模型进行训练后,再进行特征组合,还是先进行特征组合再训练模型。

问题4

P2中,对分类变量都创建了虚拟变量。个人理解,创建虚拟变量是为了避免模型认为分类变量之间有线性关系,除logistic回归外,其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量,是否创建虚拟变量对这些模型的结果是否有影响?

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
R语言|数据预处理--4变量分析及相关性
因变量与自变量之间的关系包括两种:自变量为数值类型和分类类型 请参考R项目客户回复预测与效益最大化   1、分别查看数据的属性为数值型和因子类型的属性 which(sapply(cup98, is.numeric)) > idx.num  ODATEDW     DOB  CLUSTER      AGE NUMCHLD   INCOME  WEALTH1     HIT     
数据预处理:变量筛选和变换
变量筛选和变换 我们在尽心数据处理中会遇到变量的筛选问题 这里我们不是PCA(主成分分析),就是简单的人工变量筛选, 比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和变换。 1、选择部分变量 首先我们看下数据结构 定义一个x_col2来存储需要用到的变量名称 2、删除部分变量 如果我们要用到数据集的大部分数据,我们就可以采取删除其中的几个变量的方法 定...
gis数据预处理与叠加分析
第一步:添加坐标数据        因为所添加的数据是excel的格式,所以我们要把格式转换成Arc Gis里所适用的数据库格式dBASE表,方便我们稍后在此表的基础上添加字段。       把数据导出改成dEASE格式后的样桩坐标点表格打开是如下所示     从图中我们可以看到坐标X,Y是在一列里的,这样我们就无法添加坐标系,因此我们要对这个表格进行拆分,使表格
数据预处理(一)直观分析
一、直观分析:作图 通过作图可以观察数据的分布情况,一般观察图上的几点: 找到数据的平均值、标准差、众数、中位数、置信区间、局部峰值等 分析数据变化情况及变化的原因。 ...
数据预处理——缺失值分析与处理
数据分析与挖掘之数据预处理缺失值分析缺失值产生的原因缺失值分析缺失值的处理如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 缺失值分析 数据的缺失主要包括记录的缺...
美国股市分析——数据预处理、K-Means聚类算法
本篇文章主要学习对数据的预处理和K-Means聚类算法,代码很详细,下面直接附代码。 缺失值与异常值处理 import numpy as np import pandas as pd DJIA_data=pd.read_csv('./data/DJIA_data.csv',encoding="gb18030") #导入美国股票数据 print('原始数据形状为:',DJIA_data.sh...
数据预处理
数据挖掘 概念与技术数据预处理,很好的课程讲义
【数据预处理】数据预处理概述
数据预处理包括,数据清洗,数据集成,数据规约,数据变换 - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。  - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。  - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。  - - 数据变换:(例如,规范化)可以用来把数据压缩到较小的区间,如0.0到1.0。 这些技术不是排斥的,可以一起使用
相关热词 c#检测非法字符 c#双屏截图 c#中怎么关闭线程 c# 显示服务器上的图片 api嵌入窗口 c# c# 控制网页 c# encrypt c#微信网页版登录 c# login 居中 c# 考试软件