傥子龙云 2019-10-22 14:20 采纳率: 20%
浏览 1303
已结题

数据预处理:类别型变量的编码问题

在数据挖掘的数据预处理对类别型变量编码过程中,其中一个类别型变量含具有有很多不同的取值(200个),若对这个的类型做OneHot编码,会给数据增加200个特征,大大增加了数据的维数。
请问对于这样的类型变量该怎么处理呢?
1.需要做卡方封箱吗?用python该怎么分箱处理?
2.或者编码后做PCA降维处理?PCA具体怎么降维呢?
3.还有其他更好的方法吗?
谢谢

  • 写回答

3条回答 默认 最新

  • m0_38000531 2019-10-22 14:41
    关注

    你可以先看看这些特征能不能做一些合并,或者是把那些出现频率低的特征归为一类。在one-hot编码后也可以进行PCA降维,PCA降维的原理其实无外乎奇异值分解和特征值分解两种,你可以网上看一看。

    评论

报告相同问题?

悬赏问题

  • ¥15 高价求中通快递查询接口
  • ¥15 解决一个加好友限制问题 或者有好的方案
  • ¥15 关于#java#的问题,请各位专家解答!
  • ¥15 急matlab编程仿真二阶震荡系统
  • ¥20 TEC-9的数据通路实验
  • ¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
  • ¥50 MATLAB实现圆柱体容器内球形颗粒堆积
  • ¥15 python如何将动态的多个子列表,拼接后进行集合的交集
  • ¥20 vitis-ai量化基于pytorch框架下的yolov5模型
  • ¥15 如何实现H5在QQ平台上的二次分享卡片效果?