分析lending club数据的时候有这样一类数据,比如 ‘距离最后一次违约的月数’ ,有的人没有违约记录在这列就是缺失值,不能简单的用平均值、众数或什么算法拟合填充,更不能简单删除。对于这样的有实际意义的缺失值应该如何处理呢?
我的一个想法是用一列对是否有违约记录进行编码,然后有违约记录的进行one-hot编码。不知道这样是不是可行。
缺失值确实有实际意义的特征如何处理?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- CSDN专家-黄老师 2021-10-05 09:47关注
缺失值的处理都不能用,那么只能用自己的逻辑去处理了,只要数据处理和程序运行结果符合你的要求即可,一般而言,数据质量太差,即使模型再好,最终结果还是强差人意。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 无线电能传输系统MATLAB仿真问题
- ¥50 如何用脚本实现输入法的热键设置
- ¥20 我想使用一些网络协议或者部分协议也行,主要想实现类似于traceroute的一定步长内的路由拓扑功能
- ¥30 深度学习,前后端连接
- ¥15 孟德尔随机化结果不一致
- ¥15 apm2.8飞控罗盘bad health,加速度计校准失败
- ¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
- ¥15 谁有desed数据集呀
- ¥20 手写数字识别运行c仿真时,程序报错错误代码sim211-100
- ¥15 关于#hadoop#的问题