评分卡特征变量的挑选（R语言）

最近在建立申请评分卡的时候遇到几个问题，希望各路大神帮忙指教一下，先谢谢各位了！！！我的变量都是数值型连续变量。
1.特征变量筛选：

（1）变量相关性，

cor1<-cor(oball2[,3:19])
corrplot(cor1,method = "number")
names(oball2)
oball2cor<-oball2[,c("state","intime","blacklist","silence",
"calls","overdue","fraudscore","TDscore","connectbook","name")]

（2）分别利用线性回归分析，和随机森林两种方法挑选变量
##筛选特征

（1），随机森林变量重要性
train.forest<-randomForest(train.fangkuan1$state~.,train.fangkuan1)

str(train.forest)
importance(train.forest)[order(-importance(train.forest)),]
> importance(train.forest)[order(-importance(train.forest)),]
    setlend  fraudscore connectbook       calls 
 36.5126773  28.2508826  20.6774881  18.5744489 
     intime     TDscore        name     silence 
 17.4203810  15.6021926  11.9796313   8.3684015 
  blacklist     overdue 
  7.9312677   0.5399154 

vars.tr<-c("connectbook","fraudscore","connectbook","intime","calls", 

"TDscore","name","silence","blacklist")



（2），线性回归变量重要性
train.glm<-glm(train.fangkuan1$state~.,train.fangkuan1,family = "binomial")

summary(train.glm)

train.step<-step(train.glm)

summary(train.step)

names(unlist(train.step$coefficients))

vars.glm<-c("blacklist","setlend","fraudscore","connectbook")

综合两种方法得出的变量，最后在做数据分箱的时候，变量“calls“计算IV值，前期高度重要的指标，IV值只有0.03左右

#(3)calls
result<-smbinning.custom(df=train.fangkuan1, y="state",x="calls",
cuts = c(1424,2034))
 result$ivtable
  Cutpoint CntRec CntGood CntBad CntCumRec
1  <= 1424    396     229    167       396
2  <= 2034    198     122     76       594
3   > 2034    198     129     69       792
4  Missing      0       0      0       792
5    Total    792     480    312        NA
  CntCumGood CntCumBad PctRec GoodRate BadRate
1        229       167   0.50   0.5783  0.4217
2        351       243   0.25   0.6162  0.3838
3        480       312   0.25   0.6515  0.3485
4        480       312   0.00      NaN     NaN
5         NA        NA   1.00   0.6061  0.3939
    Odds LnOdds     WoE     IV
1 1.3713 0.3157 -0.1151 0.0067
2 1.6053 0.4733  0.0425 0.0004
3 1.8696 0.6257  0.1949 0.0093
4    NaN    NaN     NaN    NaN
5 1.5385 0.4308  0.0000 0.0164

2.想请教下在做变量挑选工作的时候，应该怎么处理呢？还有一个就是，我的这个方法是否合理？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-09-10 22:25
关注
https://www.jianshu.com/p/6573a8dd2c2d?from=groupmessage

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【R语言】选取特定名称的变量 r语言
2021-06-02 14:54

回答 1 已采纳 A<-data1_1[50:200,c(1,4)] 这样子提取1-4列。
该怎样用R语言来根据逻辑条件来创建新的变量 big data r语言有问必答
2021-07-30 11:32

回答 4 已采纳在r中引用数据框中的变量要用$,如获取race,就用hwk3$race。
r语言中数据框处理变量获得连续变量 r语言
2021-03-16 21:48

回答 1 已采纳参考：https://stackoverflow.com/questions/54814910/count-number-values-in-range-in-r `mapply` 函数和 `tid
金融评分卡项目—7.申请评分卡中的数据预处理和特征衍生
2021-03-10 15:13

哎呦-_-不错的博客文章目录一、构建信用风险类型的特征1.需要衍生的信息—表12.需要衍生的信息—表23.数据清洗二、特征的分箱1.分箱的方法2.监督式分箱法：Best-KS3.卡方分箱法—ChiMerge4.无监督分箱方法三、WOE编码1.计算公式2.WOE...
R语言中for循环与图片变量的问题 r语言
2019-12-17 00:32

回答 3 已采纳你是想把plots=list(p1,p2...)，这步让程序自己写是不，可以这么写。 plots=list() for (i in 1:4) { if(i==1)a<-"p1"
R语言把数据转化成矩阵后，分类变量名称后多了个1 r语言
2023-02-07 21:27

回答 3 已采纳如果分类变量名称后多了一个1，那么你需要修改分类变量名称来解决这个问题。在R中，可以使用以下代码来修改列名： colnames(data)[colnames(data) == "gender1"]
DALEX做图所有变量在一条竖线上--R语言 r语言随机森林
2023-03-20 11:12

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ很可能是由于您的数据集中存在一些问题，导致模型在所有变量上表现类似。以下是一些可能的原因：数据集中存在大量缺失值，这会导致所有变量的重要性相同。数据集中的所有特征都具有相
主成分分析(PCA)原理及R语言实现及分析实例
2022-12-07 23:03

拓端研究室TRL的博客 PC2）　PCA分析的一般步骤如下：主成分分析PCA降维方法和R语言分析葡萄酒可视化实例主成分分析PCA降维方法和R语言分析葡萄酒可视化实例，时长04:30 PCA的目标是用一组较少的不相关变量代替大量相关变量，同时尽...
请问贝叶斯、朴素贝叶斯、贝叶斯信息量哪种可以筛选特征变量 python r语言有问必答
2021-12-25 13:29

回答 1 已采纳一般用到是朴素贝叶斯方法，朴素贝叶斯算法是基于贝叶斯定理与特征条件独立性假设的分类方法，详细可以参考：https://blog.csdn.net/weixin_44020827/article/det
R语言多元回归。4个自变量全部不显著。但整体F显著。只需要深度解释原因。不需要任何纠错 r语言有问必答线性回归
2022-04-03 11:27

回答 5 已采纳本来清明节后工作挺忙的，结果意外的一切正常，上班摸鱼期间看到了你的提问，想尝试用心答一下。你想知道标题的原因？这个原因是想说，照你的理解F检验通过的话，那么4个自变量也应该是显著的对吧。首先我想解释
R语言 如何进行多列数据的正态分布的检验！ r语言有问必答
2021-08-14 15:37

回答 2 已采纳用如下代码就可以的，你试一下： getwd() library(dgof) df=read.csv('data4r.csv',sep=' ',header=T) print(df$F1_ShapeCo
评分卡模型数据预处理与特征构建
2018-10-22 16:25

萝莉巴索小布丁的博客 - 风控场景中的评分卡：反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡 - 以分数形式来衡量风险几率的一种手段 - 对未来一段时间内违约/逾期/失联概率的预测 - 有一个明确的（正）区间 - 通常分数越高越安全...
Rstudio 变量编辑器乱码，函数edit()无法运行，如何解决？(语言-r语言) r语言
2023-03-23 21:21

回答 1 已采纳
评分卡模型工作流程
2019-01-28 22:44

JoannaJoannaJo的博客评分卡模型的工作流程主要分为以下几个步骤：一、模型构建假设模型训练集的观察点（即客户的申请时间段）为2016-01到2016-03,那么这个模型的观察期（这里我们假定为三年）为2013-01到2016-01,模型的表现期（这里...
评分卡（A卡）建模流程-python实现-Step By Step
2021-01-20 16:49

HiBJTiger的博客典型的信用评分模型如图1-1所示。信用风险评级模型的主要开发流程如下：（1）数据获取（2）数据预处理，主要工作包括数据清洗、...主要有单变量特征选择方法和基于机器学习模型的方法。（5）模型开发，该步骤主
没有解决我的问题, 去提问

悬赏问题

¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题

评分卡特征变量的挑选（R语言）

1条回答 默认 最新

悬赏问题

1条回答默认最新