傥子龙云 2019-10-22 14:20 采纳率: 20%
浏览 1303
已结题

数据预处理:类别型变量的编码问题

在数据挖掘的数据预处理对类别型变量编码过程中,其中一个类别型变量含具有有很多不同的取值(200个),若对这个的类型做OneHot编码,会给数据增加200个特征,大大增加了数据的维数。
请问对于这样的类型变量该怎么处理呢?
1.需要做卡方封箱吗?用python该怎么分箱处理?
2.或者编码后做PCA降维处理?PCA具体怎么降维呢?
3.还有其他更好的方法吗?
谢谢

  • 写回答

3条回答

  • m0_38000531 2019-10-22 14:41
    关注

    你可以先看看这些特征能不能做一些合并,或者是把那些出现频率低的特征归为一类。在one-hot编码后也可以进行PCA降维,PCA降维的原理其实无外乎奇异值分解和特征值分解两种,你可以网上看一看。

    评论

报告相同问题?

悬赏问题

  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?
  • ¥20 java项目连接sqlserver时报ssl相关错误
  • ¥15 一道python难题3
  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试