weixin_40140746 2019-10-08 14:10 采纳率: 0%
浏览 590
已结题

非树模型在建模过程中进行缺失值插补,在模型应用决策时遇到某些变量缺失,是否过模型?如何处理?

在建模过程中,某些算法对缺失值敏感,或者涉及到样本量大小时,会对缺失值进行插补。如果使用-9999对缺失值单独分箱、或者使用0值代替、或者使用平均数或者众数,都无可厚非。模型建立完成,进行决策时,如果遇到某些变量缺失,同样插入建模过程中插入的固定数值。可如果,建模过程中采用的是MICE多重插补、Datawig深度学习插补时,方法原理不同,插入的数据也不一样。能够在插补数据完成的情况下,完成模型开发。可在这类情况下,使用模型进行决策,当新客户有某些入模变量缺失时,模型如何决策?单一新客户进件的情况下,无法通过数据之间关联再使用插补法进行插补,这种情况下应该如何处理,是填0,还是不过模型?

import datawig

df_train, df_test = datawig.utils.random_split(train)

#Initialize a SimpleImputer model
imputer = datawig.SimpleImputer(
    input_columns=['1','2','3','4','5','6','7', 'target'], # column(s) containing information about the column we want to impute
    output_column= '0', # the column we'd like to impute values for
    output_path = 'imputer_model' # stores model data and metrics
    )
  • 写回答

1条回答 默认 最新

  • dabocaiqq 2019-10-08 17:38
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?