分析lending club数据的时候有这样一类数据,比如 ‘距离最后一次违约的月数’ ,有的人没有违约记录在这列就是缺失值,不能简单的用平均值、众数或什么算法拟合填充,更不能简单删除。对于这样的有实际意义的缺失值应该如何处理呢?
2条回答 默认 最新
Johnnyjohnny2001 2021-09-27 16:32关注我的一个想法是用一列对是否有违约记录进行编码,然后有违约记录的进行one-hot编码。不知道这样是不是可行
解决 无用评论 打赏 举报
分析lending club数据的时候有这样一类数据,比如 ‘距离最后一次违约的月数’ ,有的人没有违约记录在这列就是缺失值,不能简单的用平均值、众数或什么算法拟合填充,更不能简单删除。对于这样的有实际意义的缺失值应该如何处理呢?
我的一个想法是用一列对是否有违约记录进行编码,然后有违约记录的进行one-hot编码。不知道这样是不是可行