在数据挖掘的数据预处理对类别型变量编码过程中,其中一个类别型变量含具有有很多不同的取值(200个),若对这个的类型做OneHot编码,会给数据增加200个特征,大大增加了数据的维数。
请问对于这样的类型变量该怎么处理呢?
1.需要做卡方封箱吗?用python该怎么分箱处理?
2.或者编码后做PCA降维处理?PCA具体怎么降维呢?
3.还有其他更好的方法吗?
谢谢
数据预处理:类别型变量的编码问题
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- m0_38000531 2019-10-22 14:41关注
你可以先看看这些特征能不能做一些合并,或者是把那些出现频率低的特征归为一类。在one-hot编码后也可以进行PCA降维,PCA降维的原理其实无外乎奇异值分解和特征值分解两种,你可以网上看一看。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 高价求中通快递查询接口
- ¥15 解决一个加好友限制问题 或者有好的方案
- ¥15 关于#java#的问题,请各位专家解答!
- ¥15 急matlab编程仿真二阶震荡系统
- ¥20 TEC-9的数据通路实验
- ¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
- ¥50 MATLAB实现圆柱体容器内球形颗粒堆积
- ¥15 python如何将动态的多个子列表,拼接后进行集合的交集
- ¥20 vitis-ai量化基于pytorch框架下的yolov5模型
- ¥15 如何实现H5在QQ平台上的二次分享卡片效果?