颜值 > 实力 2022-07-29 05:43 采纳率: 50%

已结题

X has 2 features per sample;

问题遇到的现象和发生背景

本人正在练习项目——对银行还款进行测试，其中的预测结果已经出来，但是想把结果进行可视化的时候遇到了问题，经过一系列排查，应该是 plt.contourf里面的那个ravel()部分出了问题
（请直接跳转到代码最底下部分的：Visulising the Traning Set Result）

问题相关代码

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import os
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns

# 经典而分类问题
app_train = pd.read_csv('/Users/iven/Desktop/Python机器学习实战/第十一章：银行客户还款可能性预测/application_train.csv')

# 展示缺失值
def missing_value_table(df):
    mis_val = df.isnull().sum() # 计算所有缺失值
    mis_val_percent = 100 * df.isnull().sum() / len(df) # %比
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    # 做成表格显示出来
    mis_val_rename = mis_val_table.rename(columns={0:'Missing valyes',1:'% of total values'})
    # 剔除完整的并排序（sort_value) 升序
    mis_val_rename = mis_val_rename[mis_val_rename.iloc[:, 1] != 0].sort_values('% of total values', ascending = False)
    return mis_val_rename
missing_value_table(app_train)[:10]
'''
axis=0代表往跨行（down)，而axis=1代表跨列（across)
使用0值表示沿着每一列或行标签/索引值向下执行方法
使用1值表示沿着每一行或者列标签横向执行对应的方法
'''

# Object 类型数据处理.
# 特征个数大于2时候，一般用One-Hot去处理，而小于2的时候 label-eco
app_train.dtypes.value_counts()
app_train.select_dtypes('object').apply(pd.Series.nunique,axis=0) #  Pandas nunique() 用于获取唯一值的统计次数。
le = LabelEncoder()
for col in app_train:
    if app_train[col].dtype == 'object':
        if len(list(app_train[col].unique()))<=2:
            le.fit(app_train[col])
            app_train[col]=le.transform(app_train[col])
app_train = pd.get_dummies(app_train)
app_train.shape

# EDA分析 特征分析
train_labels = app_train['TARGET']
app_train['DAYS_BIRTH'][:5] # 贷款的人从出生到现在"活"了多少天
# 因此，我们需要转换成年
(app_train['DAYS_BIRTH']/-365).describe()
(app_train['DAYS_EMPLOYED']).describe()

app_train['DAYS_EMPLOYED'].plot.hist()
plt.show()

app_train['DAYS_EMPLOYED_ANOM'] = app_train['DAYS_EMPLOYED'] == 365243
app_train['DAYS_EMPLOYED'].replace({365243:np.nan},inplace=True)
app_train['DAYS_EMPLOYED'].plot.hist()
plt.show()

correlations = app_train.corr()['TARGET'].sort_values()
correlations.head()
correlations.tail()
# 但是对于年龄，它是负数
app_train['DAYS_BIRTH'] = abs(app_train['DAYS_BIRTH'])
app_train['TARGET'].corr(app_train['DAYS_BIRTH'])
# 变负了
plt.figure(figsize = (12,6))
plt.style.use('fivethirtyeight') # 图表风格 去SeaBorn看就ok
plt.hist(app_train['DAYS_BIRTH']/365,edgecolor='k',bins=25)
plt.show()

plt.figure(figsize=(16,8))
#KDEPLOT
sns.kdeplot(app_train.loc[app_train['TARGET']==0,'DAYS_BIRTH']/365,label='target==0')
sns.kdeplot(app_train.loc[app_train['TARGET']==1,'DAYS_BIRTH']/365,label='target==1')
plt.show()
# 能用KDEPLot显示就先用，因为这是连续的，更加直观
# 不还钱的人都是30岁左右的人

age_data = app_train[['TARGET','DAYS_BIRTH']]
age_data['YEARS_BIRTH'] = age_data['DAYS_BIRTH']/365
age_data['YEARS_BINNED'] = pd.cut(age_data['YEARS_BIRTH'],bins=np.linspace(20,70,num=11)) # 设置年龄区间
age_data.head()

age_groups = age_data.groupby('YEARS_BINNED').mean()

plt.figure(figsize=(16,16))
plt.bar(age_groups.index.astype(str),100*age_groups['TARGET'])
plt.xticks(rotation=30) # 坐标轴，多少度
plt.show()

ext_data = app_train[['TARGET','EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3','DAYS_BIRTH']]
ext_data_corrs = ext_data.corr()
plt.figure(figsize=(20,8))
sns.heatmap(ext_data_corrs,cmap = plt.cm.RdYlBu_r, linewidths = .5, annot=True)
plt.show()
# http://seaborn.pydata.org/generated/seaborn.heatmap.html

plt.figure(figsize=(16,10))
for i,source in enumerate(['EXT_SOURCE_3','EXT_SOURCE_2','EXT_SOURCE_1']):
    # 指定好子图的位置
    plt.subplot(3,1,i+1) # 3行1列，位置i=0 i+1
    # kdeplot
    sns.kdeplot(app_train.loc[app_train['TARGET']==0,source]/365,label='target==0')
    sns.kdeplot(app_train.loc[app_train['TARGET']==1,source]/365,label='target==1')
    plt.title('D of %s' % source)
plt.tight_layout(h_pad=2.5) # 布局 间隙
plt.show()

# 特征工程（多项式回归） X次方越大，越准确
poly_features = app_train[['TARGET','EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3','DAYS_BIRTH']]
from sklearn.preprocessing import PolynomialFeatures
from sklearn.impute import SimpleImputer

# 特征工程之前 - 缺失值填充
imputer = SimpleImputer(strategy='median') # 类似于拟合器，遇到缺失值就用中位数来填补
poly_target = poly_features['TARGET']
poly_features.drop(columns=['TARGET'],inplace =True) # 除了Target列的其他
poly_features = imputer.fit_transform(poly_features) # 拟合

poly_transformer = PolynomialFeatures(degree=3)
poly_transformer.fit(poly_features)
poly_features = poly_transformer.transform(poly_features)
# poly_features.shape 从4个特征变成了35个

poly_transformer.get_feature_names(input_features=['TARGET','EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3','DAYS_BIRTH'])[:20]
# 将当前得到的部分特征跟总体组合在一起
poly_features = pd.DataFrame(
    poly_features,
    columns = poly_transformer.get_feature_names(input_features=['TARGET','EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3','DAYS_BIRTH'])
)

# 与之前100个指标组合在一起
poly_features['SK_ID_CURR'] = app_train['SK_ID_CURR'] # ID是不会改变的 根据ID去传进去
app_train_poly = app_train.merge(poly_features, on='SK_ID_CURR', how='left')

# 根据实际情况来创建特征
# 例如对时间特征，可以分出来什么特征呢？ 数据挖掘——90%时间都在和小特征打交道，不要忽视任何一个小的特征
# 建模其实没啥花时间
app_train_domain = app_train.copy() # 不要乱改，防止改乱 类似于创建副本

app_train_domain['CREDIT_INCOME_PERCENT'] = app_train_domain['AMT_CREDIT'] / app_train_domain['AMT_INCOME_TOTAL'] # 信用额度与工资比值
app_train_domain['ANNUITY_INCOME_PERCENT'] = app_train_domain['AMT_ANNUITY'] / app_train_domain['AMT_INCOME_TOTAL'] # 没（每年）还款年金和工资的比值
app_train_domain['CREDIT_TERM'] = app_train_domain['AMT_ANNUITY'] / app_train_domain['AMT_CREDIT'] # 还款总月份
app_train_domain['DAYS_EMPLOYED_PERCENT'] = app_train_domain['DAYS_EMPLOYED'] / app_train_domain['DAYS_BIRTH'] # 上班时间和年龄的比值
# 这是加到了最初的表，和上面的特征工程没啥关系，这是DIY的，所以新的列数为248而不是279

plt.figure(figsize=(16, 20))
for i, feature in enumerate(
        ['CREDIT_INCOME_PERCENT', 'ANNUITY_INCOME_PERCENT', 'CREDIT_TERM', 'DAYS_EMPLOYED_PERCENT']):
    plt.subplot(4, 1, i + 1) # 定义子图的位置数量等
    sns.kdeplot(app_train_domain.loc[app_train_domain['TARGET'] == 0, feature], label='target == 0')
    sns.kdeplot(app_train_domain.loc[app_train_domain['TARGET'] == 1, feature], label='target == 1')

    plt.title('Distribution of %s by Target Value' % feature)
    plt.xlabel('%s' % feature);
    plt.ylabel('Density');

plt.tight_layout(h_pad=2.5)
plt.show()
'''
pad：调整边框边距
w_pad：调整横宽边距
h_pad：调整纵宽边距
'''

# 数据预处理：特征好了后，检查下整合没啥问题就建模了
Y = app_train['TARGET']
X = app_train.drop(columns = ['TARGET'])

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)

from sklearn.preprocessing import StandardScaler, MinMaxScaler
imputer = SimpleImputer(strategy='median')
std = StandardScaler()
# 填充
imputer.fit(X_train)
X_train = imputer.transform(X_train)
X_test = imputer.transform(X_test)
# 标准化
std.fit(X_train)
X_train = std.transform(X_train)
X_test = std.transform(X_test)

from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train,Y_train)

# 用混淆矩阵
predictions = classifier.predict(X_test)
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(Y_test, predictions)
# confusion_metrix = 70787/70787+6091 = 92%

# roc_auc_score
predictions_2 = classifier.predict_proba(X_test)[:,1]
from sklearn.metrics import roc_auc_score
test_auc = roc_auc_score(Y_test,predictions_2)
# test_auc = 0.7434

# Visualising the Trainning ser results
from matplotlib.colors import ListedColormap # 给不同的点上不同的颜色
X_set, Y_set = X_train, Y_train
x1, x2 = np.meshgrid(np.arange(start = X_set[:,0].min()-1, # -1 / +1 都能更方便我们看生成好的图像
                               stop = X_set[:,0].max()+1,
                               step = 0.01), # 0.01 看显示屏的参数来设定
                     np.arange(start = X_set[:,1].min()-1,
                               stop = X_set[:,1].max()+1,
                               step = 0.01))
plt.contourf(
    x1, x2, classifier.predict(
        np.array([x1.ravel(),x2.ravel()]).T).reshape(x1.shape),
    alpha = 0.75,
    cmap = ListedColormap(('red', 'green'))
    )
plt.xlim(x1.min(), x1.max())
plt.ylim(x2.min(), x2.max())
for i, j in enumerate(np.unique(Y_set)): # 画出实际存在的点
    plt.scatter(X_set[Y_set == j, 0], X_set[Y_set == j, 1],
                c = ListedColormap(('orange','blue'))(i),label=j)
plt.title('Classifier (Training Set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, Y_set = X_test, Y_test
x1, x2 = np.meshgrid(np.arange(start = X_set[:,0].min()-1,
                               stop = X_set[:,0].max()+1,
                               step = 0.01),
                     np.arange(start = X_set[:,1].min()-1,
                               stop = X_set[:,1].max()+1,
                               step = 0.01))
plt.contourf(
    x1, x2, classifier.predict(
        np.array([x1.ravel(),x2.ravel()]).T).reshape(x1.shape),
    alpha = 0.75,
    cmap = ListedColormap(('red', 'green'))
    )
plt.xlim(x1.min(), x1.max())
plt.ylim(x2.min(), x2.max())
for i, j in enumerate(np.unique(Y_set)):
    plt.scatter(X_set[Y_set == j, 0], X_set[Y_set == j, 1],
                c = ListedColormap(('orange','blue'))(i),label=j)
plt.title('Classifier (Test Set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

运行结果及报错内容

Traceback (most recent call last):
  File "<input>", line 210, in <module>
  File "/Users/iven/PycharmProjects/pythonProject/venv/lib/python3.8/site-packages/sklearn/linear_model/_base.py", line 447, in predict
    scores = self.decision_function(X)
  File "/Users/iven/PycharmProjects/pythonProject/venv/lib/python3.8/site-packages/sklearn/linear_model/_base.py", line 429, in decision_function
    X = self._validate_data(X, accept_sparse="csr", reset=False)
  File "/Users/iven/PycharmProjects/pythonProject/venv/lib/python3.8/site-packages/sklearn/base.py", line 600, in _validate_data
    self._check_n_features(X, reset=reset)
  File "/Users/iven/PycharmProjects/pythonProject/venv/lib/python3.8/site-packages/sklearn/base.py", line 400, in _check_n_features
    raise ValueError(
ValueError: X has 2 features, but LogisticRegression is expecting 243 features as input.

我的解答思路和尝试过的方法：

大概只看到这个比较类似，但不知道怎么修改自己的代码：
https://blog.csdn.net/qq_45128278/article/details/120609776

我想要达到的结果

但是同样的代码我取另一份没那么多维度的数据集来操作的时候，就能成功画出这幅图：

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

herosunly Python领域优质创作者 2022-07-29 08:12

关注

plt.contourf绘制的图是基于其中某两个特征的，需要重新构建分类器，并且选择数据集其中的某两个特征，代码以前两个特征为例，即代码中的0: 2，PS：由于代码太长，我就不一一复制了，从195行开始哈：

predictions_2 = classifier.predict_proba(X_test)[:,1]
from sklearn.metrics import roc_auc_score
test_auc = roc_auc_score(Y_test,predictions_2)
# test_auc = 0.7434

# 为了避免和之前的分类器重复，所以新起了个名字
classifier_new = LogisticRegression(random_state = 0)
classifier_new.fit(X_train[:, 0: 2], Y_train) # 0： 2表示的是前两个特征

from matplotlib.colors import ListedColormap # 给不同的点上不同的颜色
X_set, Y_set = X_train[:, 0: 2], Y_train # 0： 2表示的是前两个特征
x1, x2 = np.meshgrid(np.arange(start = X_set[:,0].min()-1, # -1 / +1 都能更方便我们看生成好的图像
                               stop = X_set[:,0].max()+1,
                               step = 0.01), # 0.01 看显示屏的参数来设定
                     np.arange(start = X_set[:,1].min()-1,
                               stop = X_set[:,1].max()+1,
                               step = 0.01))
plt.contourf(
    x1, x2, classifier_new.predict( # 这一行修改了
        np.array([x1.ravel(),x2.ravel()]).T).reshape(x1.shape),
    alpha = 0.75,
    cmap = ListedColormap(('red', 'green'))
    )
plt.xlim(x1.min(), x1.max())
plt.ylim(x2.min(), x2.max())
for i, j in enumerate(np.unique(Y_set)): # 画出实际存在的点
    plt.scatter(X_set[Y_set == j, 0], X_set[Y_set == j, 1],
                c = ListedColormap(('orange','blue'))(i),label=j)
plt.title('Classifier (Training Set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()
 
# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, Y_set = X_test[:, 0: 2], Y_test # 0：2表示的是前两个特征
x1, x2 = np.meshgrid(np.arange(start = X_set[:,0].min()-1,
                               stop = X_set[:,0].max()+1,
                               step = 0.01),
                     np.arange(start = X_set[:,1].min()-1,
                               stop = X_set[:,1].max()+1,
                               step = 0.01))
plt.contourf(
    x1, x2, classifier_new.predict(
        np.array([x1.ravel(),x2.ravel()]).T).reshape(x1.shape),
    alpha = 0.75,
    cmap = ListedColormap(('red', 'green'))
    )
plt.xlim(x1.min(), x1.max())
plt.ylim(x2.min(), x2.max())
for i, j in enumerate(np.unique(Y_set)):
    plt.scatter(X_set[Y_set == j, 0], X_set[Y_set == j, 1],
                c = ListedColormap(('orange','blue'))(i),label=j)
plt.title('Classifier (Test Set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

颜值 > 实力 2022-07-30 01:08

！我理解了 就是我在额构建Classifier时候 应该只选用X的2个特征去拟合，那就是在选用X的时候就直接选和target关联度最大的那两个特征 然后Y选Target

herosunly 回复颜值 > 实力 2022-07-30 02:25

理解了就好，加油～

编辑

预览

报告相同问题？

关注问题

PolynomialFeatures进行逻辑回归拟合
2021-10-04 15:57

乱搭巴士的博客遇到的错误： ValueError Traceback (most recent call last) in 49 50 # 结果可视化 —>...52 plt.scatter(data_X[data_y == 0, 0], data_X[data_y == 0, 1], color=‘red’) 53 plt.scatter
ValueError: X has 2 features, but LogisticRegression is expecting 5 features as input.
2022-01-24 06:49

十三先生po的博客问题背景用python的sklearn库做逻辑回归模型训练后，用一些数值去预测结果时报错，已知是多项式的逻辑回归模型 ...theta1,theta2,theta3,theta4,theta5 = LR2.coef_[0][0],LR2.coef_[0][1],LR2.coef_[0][2],LR2.coef
python注释分为_使用ScikitLearn和Python将注释分为正反两类
2021-02-03 21:16

谢鹏浩的博客 values]) #adding values for prediction prediction = prediction[0] print(prediction) 这是我得到的错误： ^{pr2}$ 我也尝试过： ^{3}$ 我得到一个错误：ValueError: X has 3 features per sample; expecting ...
python logistic实例,如何使用scikit-learn进行单实例Logistic回归预测？
2021-04-26 09:24

weixin_39782355的博客这里是我所做的：path = 'diabetes.csv'df = pd.read_csv(path, header = None)print "Classifying with Logistic Regression"values = df.valuesX = values[1:,0:8]y = values[1:,8]X_train, X_tes...
kaggle titanic （1）
2018-06-11 18:13

iceberb的博客下好了训练集测试集上传示范文件开始着手做ide 为 jupyter notebook 语言为python载入数据库import pandas as pd import matplotlib.pyplot as plt import numpy as np获取数据train = pd.read_csv('train.csv') ...
深入浅出Python机器学习13——文本数据处理
2019-09-16 11:23

至一守道的博客自然语言处理（Natural Language Processing，NLP）作为人工智能的重要分支之一，其研究的内容是如何实现人与计算机之间用自然语言进行有效的通信。本部分是 NLP 的基础知识——如何对文本数据进行处理。
罗塞塔语言包_罗塞塔代码（Rosetta Code）—揭开为世界提供动力的编程语言的奥秘
2020-08-05 14:54

cumi6497的博客罗塞塔语言包History.comHistory.com It’s no secret that the tech world is dominated by a relatively small pool of programming languages. While exact figures are difficult to obtain (and no doubt vary ...
LLMs之Baichuan2：《Baichuan 2: Open Large-scale Language Models》翻译与解读
2023-09-07 15:54

一个处女座的程序猿的博客 LLMs之Baichuan2：《Baichuan 2: Open Large-scale Language Models》翻译与解读目录相关文章《Baichuan 2: Open Large-scale Language Models》翻译与解读 Abstract摘要 1Introduction引言 ...
问题:Traceback (most recent call last): File “D:/xiangmu/python/test/test1.py“, line 100, in ＜module
2020-08-25 11:48

c l o u d的博客问题:2020-8-25 Traceback (most recent call last): File ...model_base.py”, line 273, in decision_function % (X.shape[1], n_features)) ValueError: X has 50 features per sample; expecting 70 向量设置的太小
AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读
2024-01-26 16:18

一个处女座的程序猿的博客 AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读目录《MM-LLMs: Recent Advances in MultiModal Large Language Models》翻译与解读 ...
23. Introduction to Data Visualization with ggplot2
2021-07-12 09:28

radar_sun的博客 1. Introduction 1.1 Introduction 1.2 Explore and explain 1.3 Drawing your first plot 1.4 Data columns types affect plot types 1.5 The grammar of graphics ...1.8 ggplot2 layers 1.9 Adding geome
Deep Learning Based Single Sample Per Person Face Recognition: A Survey
2020-07-26 07:28

CV_七少的博客 Deep Learning Based Single Sample Per Person Face Recognition: A Survey ICPR2020 论文地址：https://arxiv.org/abs/2006.11395 ???? Abstract Face recognition has been an active research area in the field...
七月论文审稿GPT第2.5和第3版：分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势
2024-02-04 14:04

v_JULY_v的博客我司自去年7月份成立大模型项目团队以来，至今已有5个项目组，其中所有项目均为会对外上线发布的商用项目，而论文...我们如今正在迭代第2.5版本：包括对GPT3.5 turbo 16K的微调以及llama2 13B的微调，本文也因此而成。
使用大型语言模型进行文本摘要
2023-11-11 04:24

无水先生的博客 OpenAI 发布了 ChatGPT，为大型语言模型驱动的聊天机器人树立了新的基准，并为公众提供了无与伦比的对话体验。从那时起，大型语言模型（也称为LLM）由于能够执行大量任务而受到公众的关注。
开源模型应用落地-qwen2-7b-instruct-LoRA微调-Axolotl-单机多卡-RTX 4090双卡（七）
2024-08-16 10:20

开源技术探险家的博客使用Axolotl高效微调qwen2-7b-instruct
自学大语言模型之GPT
2023-06-07 15:48

果粒橙_LGC的博客 GPT是由OpenAI于2018年发布的模型。它采用了Transformer的编码器架构，通过自回归语言模型的方式进行预训练。
Lab 2: ShellC/C++
2024-09-04 05:46

wolfminy的博客 It makes heavy use of many OS features. In this lab, you will build a simplified version of the Unix shell called the New Yet Usable SHell, or nyush for short. Please review the first lecture of MIT...
LLaMA的解读与其微调(含LLaMA 2)：Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙
2023-03-22 06:45

v_JULY_v的博客 eps self.weight = nn.Parameter(torch.ones(dim)) // x是输入 def _norm(self, x): // torch.rsqrt是开平方并取倒数 // x.pow(2)是平方 / mean(-1)是在最后一个维度(即hidden特征维度)上取平均 return x * torch....
增强大型语言模型（LLM）可访问性：深入探究在单块AMD GPU上通过QLoRA微调Llama 2的过程
2024-06-16 08:33

109702008的博客本次重点是利用QLoRA技术在单块AMD GPU上，使用ROCm微调Llama-2 7B模型。通过使用QLoRA，可以解决内存和计算能力限制方面的挑战。本次探索旨在展示如何利用QLoRA来增强对开源大型语言模型的可访问性。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月29日