数据预处理：类别型变量的编码问题

在数据挖掘的数据预处理对类别型变量编码过程中，其中一个类别型变量含具有有很多不同的取值（200个），若对这个的类型做OneHot编码，会给数据增加200个特征，大大增加了数据的维数。
请问对于这样的类型变量该怎么处理呢？
1.需要做卡方封箱吗？用python该怎么分箱处理？
2.或者编码后做PCA降维处理？PCA具体怎么降维呢？
3.还有其他更好的方法吗？
谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_38000531 2019-10-22 14:41
关注
你可以先看看这些特征能不能做一些合并，或者是把那些出现频率低的特征归为一类。在one-hot编码后也可以进行PCA降维，PCA降维的原理其实无外乎奇异值分解和特征值分解两种，你可以网上看一看。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 数据预处理：对文件夹下的多个文本进行去停用词和分词 nlp python 数据分析
2023-04-19 19:59

回答 2 已采纳使用Python中的os和glob库来实现对文件夹下的多个文本进行去停用词和分词。
jupyter notebook AI人工智能数据预处理中数据脱敏碰到的问题 jupyter python 数据库有问必答
2022-04-06 12:23

回答 3 已采纳建议百度查看下pandas的read_csv()函数参数的意思就知道了。前面的是路径，后面的index_col是将原来的列名设置为"ssn"至于coding换成点不行，那就是路径不对，这个涉及到相对路
轴承故障振动数据预处理问题 python
2022-04-26 15:14

回答 1 已采纳一般要保障采样的周期性，即保障信号段采样时间内轴承转过了一周或以上，再结合采样频率计算出每段信号的长度。截图没有说的太明白，估计随便取的吧！
数据预处理：离散特征编码方法
2022-01-23 10:48

快乐小码农的博客文章目录数据预处理：离散特征编码方法无监督方法：1.序号编码OrdinalEncoder2.独热编码OneHotEncoder3.二进制编码BinaryEncoder4.计数编码CountEncoder5.哈希编码HashingEncoder6.BaseNEncoder7.Sum Contrast8....
综合性数据预处理问题 python
2022-05-28 15:45

回答 1 已采纳（3）Type字段，通过pd.get_dummies方法做OneHotEncode处理（4）Total_visits字段，通过sklearn.preprocssing.MinMaxScaler方法做归
数据预处理，插值问题 python
2023-03-28 14:44

回答 2 已采纳当然可以。你可以使用pandas中的date_range 生成连续的日期： import pandas as pd head_range = pd.date_range(start='2017-01
想问一下yolo数据预处理的问题深度学习神经网络计算机视觉
2023-02-27 17:27

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ对于数据集增强的问题，这是一个需要根据具体情况而定的问题。在进行数据增强时，需要权衡增强所带来的优点和缺点。-一方面，数据增强可以增加数据集的多样性，减少过拟合的风险，提高
预处理：如何找到合适的预处理方式对标称变量编码？
2023-05-02 11:46

饕子的博客本文主要介绍了在数据分析中如何对标称变量进行编码预处理，以避免编码大小关系和处理高维度等问题。本文介绍了三种常见的预处理方式：One-Hot 编码、Label Encoder 和 Helmert 编码，并讨论了它们的优缺点和适用...
时间序列数据的预处理问题 matlab
2018-05-22 07:58

回答 2 已采纳你有缺失的数据是nan吗？如果是的话，可以用x(isnan(x))=0，来用零补齐缺失数据。因为一天有24X3600=86400秒，所以可以用y=reshape(x,86400,[])，不过x的长度必
逻辑回归数据预处理相关问题 python 机器学习深度学习
2019-11-08 13:29

回答 2 已采纳没办法，还是得用one hot 这有什么多的，英文文本分析，几千个单词还做one hot呢
中文文本分类数据预处理 python 有问必答
2022-04-13 06:36

回答 3 已采纳你的是简单清洗处理，如果要分词，用jieba模块可以满足你需求
数据预处理：One-Hot Encoding
2018-11-28 10:19

乖乖猪001的博客机器学习中，在对数据进行训练之前，都会对数据进行预处理，也就是特征提取，个人认为特征提取是训练模型中非常非常重要的一步！在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要...
机器学习中数据标准差极小的预处理策略人工智能数据挖掘机器学习深度学习
2019-09-05 11:16

回答 1 已采纳在吴恩达的机器学习教学中说过，归一化后-0.3到0.3的数据是极好的。肉眼看是没什么区分度，但是当你的数据特征维度稍大一些，比如十维，二十维，三十维，那么在对应的维度空间里，样本和样本之间的距离还是很
数据预处理：标称型特征的编码和缺失值处理
2017-10-30 16:29

weixin_30782331的博客注：本文是人工智能研究网的学习笔记标称型特征编码(Encoding categorical feature) 有些情况下，某些特征的取值不是连续的数值，而是离散的标称变量（categorical）。比如一个人的特征描述可能是下面的或几种： ...
深入理解数据预处理：解决常见问题与挑战
2023-12-23 00:46

禅与计算机程序设计艺术的博客 数据预处理是机器学习和数据挖掘领域中的一个关键环节，它涉及到数据清洗、数据转换、数据规范化等多种操作。数据预处理的质量直接影响模型的性能，因此在实际应用中，数据预处理的工作量和复杂性都是非常大的。在...
没有解决我的问题, 去提问

悬赏问题

¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试