网上看了很多关于异常值处理,缺失值填充的文章,感觉有些简单化处理了。。不知道是否我自己钻牛角尖了。。
我手头有一组数据,其中数据是不同企业各自的数据记录。其中不少记录是有异常值和缺失值的。
1. 不同企业之间差别较大,异常值的判定,需要通过对企业分组进行判定。换句话说,一个数值在这个企业可能是正常值,而对另外一个企业可能就是异常值。
2. 关于缺失值的填充,同样存在类似问题。。不同企业之间的数据差别可能较大,如果数据填充时,用简单的均值或是线性插值法填充,就会导致数据填充的可信度较低。我个人以为,也应该按照企业分组来进行分别填充处理。
我不知道是否我的想法有些极端了,亦或是本身数据处理就不必思考过多。毕竟数据本身就很可能存在不少异常或缺失情况,而有些模型对异常或缺失值又并不敏感。。
想请教下各位,具体数据处理过程中,是怎样做呢?
关于缺失值和异常值等数值处理的疑问
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- threenewbee 2019-05-09 15:19关注
你说的这些牵涉到两个概念
数据清洗(去噪)
和迁移学习
。
两者的区别在于,前者,将你所谓的所有企业当成一个模型去学习,后者的意思是,你根据某个企业的数据去学习的权重在另一个企业中不能直接拿来做预测,而是需要通过迁移学习修改权重。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 如何让企业微信机器人实现消息汇总整合
- ¥50 关于#ui#的问题:做yolov8的ui界面出现的问题
- ¥15 如何用Python爬取各高校教师公开的教育和工作经历
- ¥15 TLE9879QXA40 电机驱动
- ¥20 对于工程问题的非线性数学模型进行线性化
- ¥15 Mirare PLUS 进行密钥认证?(详解)
- ¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
- ¥20 想用ollama做一个自己的AI数据库
- ¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
- ¥15 请问怎么才能复现这样的图呀