傥子龙云 2019-10-22 14:20 采纳率: 20%
浏览 1306
已结题

数据预处理:类别型变量的编码问题

在数据挖掘的数据预处理对类别型变量编码过程中,其中一个类别型变量含具有有很多不同的取值(200个),若对这个的类型做OneHot编码,会给数据增加200个特征,大大增加了数据的维数。
请问对于这样的类型变量该怎么处理呢?
1.需要做卡方封箱吗?用python该怎么分箱处理?
2.或者编码后做PCA降维处理?PCA具体怎么降维呢?
3.还有其他更好的方法吗?
谢谢

  • 写回答

3条回答 默认 最新

  • m0_38000531 2019-10-22 14:41
    关注

    你可以先看看这些特征能不能做一些合并,或者是把那些出现频率低的特征归为一类。在one-hot编码后也可以进行PCA降维,PCA降维的原理其实无外乎奇异值分解和特征值分解两种,你可以网上看一看。

    评论

报告相同问题?