变量分析和数据预处理

问题1

有时需要对特征进行一些分析，比如特征之间的相关性，特征与目标变量之间的相关性，有时需要对数据进行一些预处理，比如对分类变量创建虚拟变量，对连续变量进行log变换或者标准化，归一化。

请问，这两个步骤之间的顺序是怎样的？是先创建虚拟变量，进行log变换后，再计算相关系数，进行卡方检验，方差分析或者互信息计算；还是先分析相关系数，卡方检验这些工作再创建虚拟变量，进行log变换？

问题2

假设一个分类问题数据集，有30个特征，为提高分类的准确率，或者出于汇报的要求（哪些特征，或者有可解释性意义的特征组合对结果影响较大）需要对特征进行分析和组合，不是PCA之类的降维，比如对两个连续变量进行计算组合，对几个分类变量生成透视表，生成新的变量。
如果只考虑特征的两两组合，有435种可能，这样分析工作量很大，请问，这样分析有必要吗？这还只是特征的两两组合，如果考虑更多变量的组合，可能性就更多了。

问题3

如果问题2需要这些工作，那么，是先通过logistic回归或者随机森林，这些带有特征筛选性质的模型进行训练后，再进行特征组合，还是先进行特征组合再训练模型。

问题4

P2中，对分类变量都创建了虚拟变量。个人理解，创建虚拟变量是为了避免模型认为分类变量之间有线性关系，除logistic回归外，其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量，是否创建虚拟变量对这些模型的结果是否有影响？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

自变量是无序多分类变量，因本量是等级变量可以做回归分析吗数据分析
2022-03-17 03:11

回答 1 已采纳可以。但自变量、因变量都要转化为数值，例如 ABC 转化为 123，因变量也转化为 123.这样处理后，回归分析的结果，并不取决于表达形式，还是取决于自变量因变量的关系是否满足回归方程的假设。
C++中结构体变量读取数据问题 c++ 数据结构
2022-08-26 13:29

回答 3 已采纳 getdata()返回值是个mystruct指针，所以又可以访问到结构体里面的a，你写getdata()毫无意义，因为你可以直接访问temp里面的a，然后还有一点，如果结构体里面有编写函数的需求的话，
C语言基础题常量变量和数据类型。 c语言
2021-07-28 17:35

回答 2 已采纳所谓字符常量，就是用英文单引号括起来的一个字符按说'*'符合这个定义啊难道这题中单引号是中文的？或者*号两侧还有空格？比对第三题中的'\0'来看，第7题中的这个'*'似乎不那么规矩啊
数据分析之数据预处理、分析建模、可视化
2020-08-08 15:03

若如初见kk的博客 数据预处理：数据清洗、数据集成、数据规约、数据变换；数据分析模型：对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等；数据分析方法：描述统计、假设检验、信度分析、相关...
R语言缺失值处理实例分析_社会指标调查数据2018 r语言数据分析有问必答
2021-11-21 15:05

回答 1 已采纳你现在遇到什么问题呢，请具体说明啊
pyhton数据处理相关问题 python 数据分析
2022-05-27 23:43

回答 1 已采纳这个要看你的csv 保存的格式是怎么样的。大概思路就是读csv ，如果值是数字型，那做下转换。然后就是遍历数据，调用 GenotypePhenotypeMap。
mysql中如何使用变量向插入数据 mysql sql
2016-01-11 10:17

回答 3 已采纳 String na="demo"; String sql="INSERT INTO staff(name,AGE)"+"VALUES( '“+na+“ ' ,2)"; 注意：你在插
数据分析——数据预处理
2022-04-27 20:35

h10_10h的博客 数据预处理技术可以改进数据的质量，有助于提高其后的决策过程的精度和性能。高质量的决策必然依赖于高质量的数据，数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据，将在决策...
方差分析后怎么做稳健性检验呢数据分析
2023-01-10 16:21

回答 2 已采纳在使用方差分析进行统计分析后，进行稳健性检验可以使用多种方法来检验。一种常用的方法是使用稳健性统计检验方法，如箱线图和稳健的统计检验方法(如稳健的t检验和W检验等)。箱线图可以帮助检验是否存在离群
Python建立回归模型，自变量系数对评估模型的影响 python 回归数据分析
2022-01-30 13:54

回答 1 已采纳你没有说是什么包/函数中出现的，也没有给出相关代码，这样的问题很难回答。因为有很多工具包都会有 model.coef_ 之类的系数。如果是 sklearn, Statsmodels 进行线性回归分析
个体固定效应模型能加入评级相关的虚拟变量吗？回归数据分析
2023-01-13 21:15

回答 1 已采纳可以。固定效应模型可以加入虚拟变量来控制个体差异。您可以将评级转化为虚拟变量，例如将评级A转化为A=1，B=0，C=0，然后将这个虚拟变量作为固定效应模型的一个预测变量。这样就可以研究评级对公司价值的
python数据分析——数据预处理
2023-09-30 00:15

鲜于言悠905的博客 数据预处理是数据分析和挖掘过程中至关重要的一步，其主要目的是将原始数据转换为可用于分析和建模的可靠数据。数据预处理可以提高数据的质量，并提高模型的准确性和可解释性。
Python,把年龄一列的类型变量，转变为数值变量，应该用那个公式。 python 数据分析聚类
2022-02-01 15:03

回答 1 已采纳数据是从 dat, csv, 或 xls 文件中读取进来的吧？如果数据文件中 age 是数值类型，读进来就是数值不用处理。如果数据文件中 age 是文本类型/字符串，需要转换为数值类型： df[['a
python数据预处理方式 :数据降维
2020-12-20 12:34

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此，大多数情况下，当我们面临高维数据时，都需要对数据做...
Python数据探索性分析和预处理
2022-08-15 14:35

小陈步吃人的博客在搜集数据的某些情况下，有些时候并不一定会收集到数据，因而会造成观测值或变量的数据有缺失，这些缺失的数据就称之为缺失值。总之，处理缺失值是需要研究数据规律与缺失情况来进行处理的，复杂的算法不一定有好的...
没有解决我的问题, 去提问

悬赏问题

¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3

码龄粉丝数原力等级 --

变量分析和数据预处理

问题1

问题2

问题3

问题4

0条回答默认最新

悬赏问题

变量分析和数据预处理

问题1

问题2

问题3

问题4

0条回答 默认 最新

悬赏问题

0条回答默认最新