lmw0320 2019-05-09 15:07 采纳率: 75%
浏览 1394
已采纳

关于缺失值和异常值等数值处理的疑问

网上看了很多关于异常值处理,缺失值填充的文章,感觉有些简单化处理了。。不知道是否我自己钻牛角尖了。。
我手头有一组数据,其中数据是不同企业各自的数据记录。其中不少记录是有异常值和缺失值的。
1. 不同企业之间差别较大,异常值的判定,需要通过对企业分组进行判定。换句话说,一个数值在这个企业可能是正常值,而对另外一个企业可能就是异常值。
2. 关于缺失值的填充,同样存在类似问题。。不同企业之间的数据差别可能较大,如果数据填充时,用简单的均值或是线性插值法填充,就会导致数据填充的可信度较低。我个人以为,也应该按照企业分组来进行分别填充处理。
我不知道是否我的想法有些极端了,亦或是本身数据处理就不必思考过多。毕竟数据本身就很可能存在不少异常或缺失情况,而有些模型对异常或缺失值又并不敏感。。
想请教下各位,具体数据处理过程中,是怎样做呢?

  • 写回答

1条回答 默认 最新

  • threenewbee 2019-05-09 15:19
    关注

    你说的这些牵涉到两个概念数据清洗(去噪)迁移学习
    两者的区别在于,前者,将你所谓的所有企业当成一个模型去学习,后者的意思是,你根据某个企业的数据去学习的权重在另一个企业中不能直接拿来做预测,而是需要通过迁移学习修改权重。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥65 汇编语言除法溢出问题