信用风控模型问题，用iv的时候为什么总提示“keyerror"?

问题遇到的现象和发生背景

一个信用风控问题，给出了训练集和测试集，在通过分箱时，计算iv值发生了问题

import pandas as pd
import numpy as np
X_train_df0=pd.read_csv("train_X.csv")
y_train_df0=pd.read_csv("train_y.csv")
X_train_df0

train_df0=pd.merge(X_train_df0,y_train_df0,on='ID')
train_df0


![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/553695992346191.png "#left")

运行结果及报错内容


##定义分箱函数，计算iv值
def cal_iv(data,cut_num,feature,target):
    #1.数据分箱
    data_cut=pd.cut(data[feature],cut_num)
    #2.统计各个分箱的违约样本，未违约样本
    cut_group_all=data[target].groupby(data_cut).count()
    cut_group_y=data[target].groupby(data_cut).sum()
    cut_group_n=cut_group_all=cut_group_y
    #3.统计样本比率
    df=pd.DataFrame()
    df['bad']=list(cut_group_y)
    df['good']=list(cut_group_n)
    df['all']=list(cut_group_all)
    df['违约%']=df['bad'] /df['bad'].sum()
    df['不违约%']=df['good'] /df['good'].sum()
    #4.计算WOE
    df['WOE']=np.log(df['违约%']/df['不违约%'])
    df=df.replace({'WOE':{np.inf:0,-np.inf:0}})
    #5.计算各个分箱的iv值
    df['IV']=df['WOE']*(df['违约%']-df['不违约%'])
    iv=df['IV'].sum()
    return iv
print(cal_iv(train_df0,10,'x2','y_1'))
iv_list=[]
df_iv=pd.DataFrame()
for i in train_df0.columns[:-1]:
    a=cal_iv(train_df0,10,i,'y-1')
    iv_list.append(a)
df_iv['feature']=list(train_df0.columns[:-1])
df_iv['IV']=iv_list
b=df_iv.sort_values(by='IV',ascending=False)
b.head(10)

报错结果：



KeyError                                  Traceback (most recent call last)
~\anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   2894             try:
-> 2895                 return self._engine.get_loc(casted_key)
   2896             except KeyError as err:

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

KeyError: 'y_1'

The above exception was the direct cause of the following exception:

KeyError                                  Traceback (most recent call last)
<ipython-input-31-837000a62aae> in <module>
     21     iv=df['IV'].sum()
     22     return iv
---> 23 print(cal_iv(train_df0,10,'x2','y_1'))
     24 iv_list=[]
     25 df_iv=pd.DataFrame()

<ipython-input-31-837000a62aae> in cal_iv(data, cut_num, feature, target)
      4     data_cut=pd.cut(data[feature],cut_num)
      5     #2.统计各个分箱的违约样本，未违约样本
----> 6     cut_group_all=data[target].groupby(data_cut).count()
      7     cut_group_y=data[target].groupby(data_cut).sum()
      8     cut_group_n=cut_group_all=cut_group_y

~\anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key)
   2900             if self.columns.nlevels > 1:
   2901                 return self._getitem_multilevel(key)
-> 2902             indexer = self.columns.get_loc(key)
   2903             if is_integer(indexer):
   2904                 indexer = [indexer]

~\anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   2895                 return self._engine.get_loc(casted_key)
   2896             except KeyError as err:
-> 2897                 raise KeyError(key) from err
   2898 
   2899         if tolerance is not None:

KeyError: 'y_1'

我的解答思路和尝试过的方法

我是照着别人的代码扒的，原代码数据名称和我不一样，y-1我理解的是，train-y中有一列是y,好用户是0，坏用户是1.原代码此处为'Loan_status_Charged Off'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

为什么golang加密示例不使用随机IV？ [关闭]
2015-09-17 15:03

回答 1 已采纳 It is secure, because the IV is filled from a Cryptographically Secure Pseudo Random Number Genera
为什么单独的模块可以运行，但是将两个合起来就会出现问题呢？ android
2022-05-02 17:28

回答 1 已采纳你在logcat中看一下闪退日志
为什么绑定了bindinput后e.detail现实undefined呀？代码和报错如下 javascript 微信小程序
2021-04-08 11:02

回答 1 已采纳你可以直接打印e,看下里面的数据，你就知道问题了，应该是你少写了一层
芝麻信用分有哪些计算维度？关于大数据风控的87个问题
2020-03-11 21:15

大数据v的博客导读：本文源自风控技术专家、AI技术专家和算法专家梅子行老师知乎专栏的大数据风控答疑文档，有关大数据风控的问题都在这里了。作者：梅子行https://zhuanlan.zhihu.com...
使用二进制安装k8s集群的时候遇到的问题 kubernetes
2022-03-05 23:40

回答 1 已采纳报错提示你，无效的字符相关，你将： # 这个是后边dns要用的虚拟网络的网关,不用改,就用这个切忌这个删除，别留多余的空格。严格讲，很多语法格式都严格要求。
Android录制视频时切换横屏后为什么还是竖屏效果？
2016-08-18 04:09

回答 1 已采纳已自解，录制时Carmer默认横屏录制，代码中有setDisplayOrientation去调整角度，切换横屏后setDisplayOrientation又重新走了一遍就从横屏变竖屏了。判断当前横
为什么在Java中执行DES加密的结果与在PHP中执行的结果不同？ java php
2019-01-08 09:48

回答 1 已采纳 You forgot to hex decode the key before using it. You're also using CBC mode instead of ECB mode,
全面了解风控数据体系
2020-06-28 14:04

CS正阳的博客 ——阿玛蒂亚·森（诺奖得主）说明传统金融的风控主要利用了信用属性强大的金融数据，一般采用20个纬度左右的数据，利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度大概在10个左右，包含年龄...
为什么“ http.Get（）”方法会引发致命异常？ http
2019-05-18 06:18

回答 1 已采纳 i just fixed my problem by updating go from 1.12.4 to 1.12.5. thanks to @Markus-W-Mahlberg
OS 采用DES--cbc方式加密字符串，为什么不同的设备输出的结果不一样？ ios ipad objective-c
2020-07-21 13:36

回答 1 已采纳 const char *textBytes = [plainText UTF8String]; 看看是不是这里字符编码的问题 memset(buffer, 0, sizeof(char)); 这
为什么我的sidenav中的链接不起作用？ php
2016-12-30 11:20

回答 1 已采纳 Issue is because of the #sidenav-overlay element, it is positioned on top of the side menu, use th
【Pytorch基础教程33】算法模型部署（MLFlow/ONNX/tf serving）
2022-10-01 23:05

山顶夕景的博客 ONNX通过定义一组与环境和平台无关的标准格式，使AI模型可以在不同框架和环境下交互使用，==ONNX可以看作深度学习框架和部署端的桥梁==，就像编译器的中间语言一样。由于各框架兼容性不一，我们通常只用 ONNX 表示更...
如果我在协议中使用nonce，那么IV仍然需要是随机的吗？ php
2011-10-05 20:46

回答 2 已采纳 I will restrict my answer to the use of random IV. I assume that you are using Cipher Block Chaini
金融风控实战——特征工程下
2021-12-08 15:58

Grateful_Dead424的博客特征筛选常用特征选择三种方法： 1、Filter 移除低方差的特征 (Removing features with low variance) ...使用SelectFromModel选择特征 (Feature selection using SelectFromModel) 将特征选择过程融入pipe
DeepFM理论与实践
2022-10-28 21:01

UPTOLIMIT的博客 DeepFM模型大致由两部分组成，分别为FM和DNN，而FM部分又由一阶特征部分和二阶特征交叉部分组成，所以模型大概可以拆成三部分，分别为FM一阶特征Linear部分，二阶特征交叉部分和DNN的高阶特征交叉部分。
没有解决我的问题, 去提问