lmw0320 2019-05-09 15:07 采纳率: 75%
浏览 1394
已采纳

关于缺失值和异常值等数值处理的疑问

网上看了很多关于异常值处理,缺失值填充的文章,感觉有些简单化处理了。。不知道是否我自己钻牛角尖了。。
我手头有一组数据,其中数据是不同企业各自的数据记录。其中不少记录是有异常值和缺失值的。
1. 不同企业之间差别较大,异常值的判定,需要通过对企业分组进行判定。换句话说,一个数值在这个企业可能是正常值,而对另外一个企业可能就是异常值。
2. 关于缺失值的填充,同样存在类似问题。。不同企业之间的数据差别可能较大,如果数据填充时,用简单的均值或是线性插值法填充,就会导致数据填充的可信度较低。我个人以为,也应该按照企业分组来进行分别填充处理。
我不知道是否我的想法有些极端了,亦或是本身数据处理就不必思考过多。毕竟数据本身就很可能存在不少异常或缺失情况,而有些模型对异常或缺失值又并不敏感。。
想请教下各位,具体数据处理过程中,是怎样做呢?

  • 写回答

1条回答 默认 最新

  • threenewbee 2019-05-09 15:19
    关注

    你说的这些牵涉到两个概念数据清洗(去噪)迁移学习
    两者的区别在于,前者,将你所谓的所有企业当成一个模型去学习,后者的意思是,你根据某个企业的数据去学习的权重在另一个企业中不能直接拿来做预测,而是需要通过迁移学习修改权重。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥30 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!