变量分析和数据预处理

问题1

有时需要对特征进行一些分析，比如特征之间的相关性，特征与目标变量之间的相关性，有时需要对数据进行一些预处理，比如对分类变量创建虚拟变量，对连续变量进行log变换或者标准化，归一化。

请问，这两个步骤之间的顺序是怎样的？是先创建虚拟变量，进行log变换后，再计算相关系数，进行卡方检验，方差分析或者互信息计算；还是先分析相关系数，卡方检验这些工作再创建虚拟变量，进行log变换？

问题2

假设一个分类问题数据集，有30个特征，为提高分类的准确率，或者出于汇报的要求（哪些特征，或者有可解释性意义的特征组合对结果影响较大）需要对特征进行分析和组合，不是PCA之类的降维，比如对两个连续变量进行计算组合，对几个分类变量生成透视表，生成新的变量。
如果只考虑特征的两两组合，有435种可能，这样分析工作量很大，请问，这样分析有必要吗？这还只是特征的两两组合，如果考虑更多变量的组合，可能性就更多了。

问题3

如果问题2需要这些工作，那么，是先通过logistic回归或者随机森林，这些带有特征筛选性质的模型进行训练后，再进行特征组合，还是先进行特征组合再训练模型。

问题4

P2中，对分类变量都创建了虚拟变量。个人理解，创建虚拟变量是为了避免模型认为分类变量之间有线性关系，除logistic回归外，其他模型好像不需要创建虚拟变量。请问哪些模型需要创建虚拟变量，是否创建虚拟变量对这些模型的结果是否有影响？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

自变量是无序多分类变量，因本量是等级变量可以做回归分析吗数据分析
2022-03-17 03:11

回答 1 已采纳可以。但自变量、因变量都要转化为数值，例如 ABC 转化为 123，因变量也转化为 123.这样处理后，回归分析的结果，并不取决于表达形式，还是取决于自变量因变量的关系是否满足回归方程的假设。
C++中结构体变量读取数据问题 c++ 数据结构
2022-08-26 13:29

回答 3 已采纳 getdata()返回值是个mystruct指针，所以又可以访问到结构体里面的a，你写getdata()毫无意义，因为你可以直接访问temp里面的a，然后还有一点，如果结构体里面有编写函数的需求的话，
R语言缺失值处理实例分析_社会指标调查数据2018 r语言数据分析有问必答
2021-11-21 15:05

回答 1 已采纳你现在遇到什么问题呢，请具体说明啊
数据分析——数据预处理
2022-04-27 20:35

h10_10h的博客 数据预处理技术可以改进数据的质量，有助于提高其后的决策过程的精度和性能。高质量的决策必然依赖于高质量的数据，数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据，将在决策...
pyhton数据处理相关问题 python 数据分析
2022-05-27 23:43

回答 1 已采纳这个要看你的csv 保存的格式是怎么样的。大概思路就是读csv ，如果值是数字型，那做下转换。然后就是遍历数据，调用 GenotypePhenotypeMap。
mysql中如何使用变量向插入数据 mysql sql
2016-01-11 10:17

回答 3 已采纳 String na="demo"; String sql="INSERT INTO staff(name,AGE)"+"VALUES( '“+na+“ ' ,2)"; 注意：你在插
全局变量和局部变量的输出 c++ 有问必答
2022-03-26 15:22

回答 2 已采纳如果有两个同名变量，一个为全局一个为局部，那么局部变量有较高的优先权,若想输出全局变量则在全局变量前加上::
python数据分析——数据预处理
2023-09-30 00:15

鲜于言悠905的博客 数据预处理是数据分析和挖掘过程中至关重要的一步，其主要目的是将原始数据转换为可用于分析和建模的可靠数据。数据预处理可以提高数据的质量，并提高模型的准确性和可解释性。
方差分析后怎么做稳健性检验呢数据分析
2023-01-10 16:21

回答 2 已采纳在使用方差分析进行统计分析后，进行稳健性检验可以使用多种方法来检验。一种常用的方法是使用稳健性统计检验方法，如箱线图和稳健的统计检验方法(如稳健的t检验和W检验等)。箱线图可以帮助检验是否存在离群
Python建立回归模型，自变量系数对评估模型的影响 python 回归数据分析
2022-01-30 13:54

回答 1 已采纳你没有说是什么包/函数中出现的，也没有给出相关代码，这样的问题很难回答。因为有很多工具包都会有 model.coef_ 之类的系数。如果是 sklearn, Statsmodels 进行线性回归分析
个体固定效应模型能加入评级相关的虚拟变量吗？回归数据分析
2023-01-13 21:15

回答 1 已采纳可以。固定效应模型可以加入虚拟变量来控制个体差异。您可以将评级转化为虚拟变量，例如将评级A转化为A=1，B=0，C=0，然后将这个虚拟变量作为固定效应模型的一个预测变量。这样就可以研究评级对公司价值的
数据分析之数据预处理、分析建模、可视化
2020-08-08 15:03

若如初见kk的博客 数据预处理：数据清洗、数据集成、数据规约、数据变换；数据分析模型：对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等；数据分析方法：描述统计、假设检验、信度分析、相关...
Python,把年龄一列的类型变量，转变为数值变量，应该用那个公式。 python 数据分析聚类
2022-02-01 15:03

回答 1 已采纳数据是从 dat, csv, 或 xls 文件中读取进来的吧？如果数据文件中 age 是数值类型，读进来就是数值不用处理。如果数据文件中 age 是文本类型/字符串，需要转换为数值类型： df[['a
python数据预处理方式 :数据降维
2020-12-20 12:34

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此，大多数情况下，当我们面临高维数据时，都需要对数据做...
Python数据探索性分析和预处理
2022-08-15 14:35

小陈步吃人的博客在搜集数据的某些情况下，有些时候并不一定会收集到数据，因而会造成观测值或变量的数据有缺失，这些缺失的数据就称之为缺失值。总之，处理缺失值是需要研究数据规律与缺失情况来进行处理的，复杂的算法不一定有好的...
没有解决我的问题, 去提问

悬赏问题

¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿

码龄粉丝数原力等级 --

变量分析和数据预处理

问题1

问题2

问题3

问题4

0条回答默认最新

悬赏问题

变量分析和数据预处理

问题1

问题2

问题3

问题4

0条回答 默认 最新

悬赏问题

0条回答默认最新