按照书上用波士顿房价作为数据集进行算法比较，为什么最后的输出数据是NAN？

我的算法

filename='housing_data.xlsx'
names= ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PRTATIO','B','LSTAT','MEDV']
data = pd.read_excel(filename,names=names)
pd.set_option('display.width',120)
array = data.values
X = array[:,0:13]
Y = array[:,13]
validation_size=0.2
seed=7
X_train, X_validation, Y_train, Y_validation= train_test_split(X,Y,test_size=validation_size,random_state=seed )
num_folds = 10
seed = 7
scoring = 'neg_mean_squared_error'
models ={}
models['LR'] = LinearRegression()
models['Lasso'] = Lasso()
models['EN'] = ElasticNet()
models['KNN'] = KNeighborsRegressor()
models['CART'] =DecisionTreeClassifier()
models['SVM'] = SVR()
results = []
for key in models:
    kfold = KFold(n_splits=num_folds,shuffle=True,random_state=seed)
    cv_result = cross_val_score(models[key],X_train,Y_train,cv=kfold,scoring=scoring)
    results.append(cv_result)
print('%s: %f(%f)' % (key,cv_result.mean(),cv_result.std()))

输出结果是

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

  warnings.warn("Estimator fit failed. The score on this train-test"
SVM: nan(nan)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
生鱼同学 2023-03-17 19:23
关注
你好，这个错误基本上都是你的数据中存在一些模型无法接受的数据导致的，你是不是没有观察你的数据啊？在进行建模之前需要观察自己读取的数据是否符合要求。

我建议你检查一下自己的数据是否读取正确了，或者利用下面的代码看看是否有缺失值。

# 统计缺失值 missing = data.isnull().sum() # 筛选出大于0的属性 missing = missing[missing>0] # 排序 missing.sort_values(inplace=True) missing.plot.bar()

另外，你的数据格式不正确也可能会导致这个情况的发生。在进行模型训练之前你需要对特殊的数据格式（例如object）进行编码处理。你可以通过下面的代码检查一下是否有不是float类型的特征。

data.info()

具体的数据处理流程可以看我写的下面链接的内容，我在其中有详细的介绍：
【建议收藏】机器学习数据预处理（一）——缺失值处理方法（内附代码）
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问我哪里写错了，为什么我最后答案输出no呢？ python 数据结构算法
2022-10-29 14:42

回答 2 已采纳第八行应该是赋值，而不是判等 flag=True
如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
基于波士顿房价数据集的RMSE趋势分析报告
2023-08-18 16:38

小夕Coding的博客 将数据拆分为训练集和测试集，将数据转换为numpy数组，并为偏置项向X添加一列1：将数据拆分成训练集和试验集，转换为numpy-数组，为偏置项将一列1添加到X，如前一代码所示。MEDV随着LSTAT的分布显示出明显的负线性...
如何使用数据结构与算法优雅地实现边统计边排序？排序算法数据结构算法
2023-04-03 00:00

回答 2 已采纳堆排序吧，或者二叉排序树，也就是你说的红黑树
对于一个时间序列数据集，取样间隔不同，如何变成等间隔的？或者有更好的数据集代替吗？数据分析数据挖掘有问必答算法
2022-04-19 00:26

回答 2 已采纳序列数据先按时间排序，如果已经是排序则跳过这一步找到要计算的等间隔时间在数据集中的前后数据，用前一数据 + (前后数据之差 / 前后时间之差 * 前一时间与要计算时间之差) 即可处理成等间隔的数据py
数据结构和算法怎么学呀？ java 数据结构算法
2022-04-24 09:32

回答 1 已采纳找一个好的网课看，写代码，多实现，刷leetcode！最关键的还是写代码，还有务必画图理解！
KNN回归——Boston房价预测数据集
2023-10-16 16:39

zyang00的博客 KNN回归——Boston房价预测数据集
输入数据，链表未输出，是什么原因？ c语言算法
2021-08-06 10:53

回答 3 已采纳靓仔，你给ptr赋空间后又将其指向那个空的head了
学习数据结构与算法只看书可以吗数据结构算法
2022-07-24 14:55

回答 3 已采纳刷题做的多了就懂了光看没啥用很多细节都不知道
本人看过一边数据结构书，了解一些基础算法，秋招在进行了，想做后端，应该先系统学数据结构和算法，还是直接刷leetcode算法题目？希望大家给出合适的建议 c++ 数据结构有问必答算法
2021-08-16 04:36

回答 3 已采纳如果你真的想找后端工作就放弃C++吧，后端目前一直都是Java的天下，其次是python,php，c++虽然可以做后端，但是缺点实在是太多了，不建议使用c++做后端缺乏字符串处理，Web 开发最主
AI-机器学习-自学笔记（十一）提升算法
2021-12-29 12:52

阿尔法羊的博客提升算法也是一种提高任意给定学习算法准确度的方法，它是一种集成算法，主要通过对样本集的操作获得样本子集，然后用弱分类算法在样本子集上训练生成一系列的基分类器。它可以用来提高其它弱分类算法的识别率，也...
数据结构与算法链式表的操作集 c语言数据结构算法
2021-09-13 22:38

回答 2 已采纳你没有验证p的有效性。就是说p不仅可能为空，也有可能不是链表里的节点。
机器学习-第三方库(工具包)：scikit-learn【用于特征工程（主要分为三部分：数据预处理、特征选择、降维）】【Sklearn模块中包含常用的算法】
2020-11-17 00:55

u013250861的博客一、特征抽取 (使用scikit-learn进行数据的特征抽取) 1、字典类型数据----特征抽取使用类：sklearn.feature_extraction.DictVectorizer sklearn.feature_extraction.DictVectorizer的作用：对字典数据进行特征值化...
波士顿房价预测
2022-11-24 16:18

海洋之心的博客 波士顿房价数据总用有506个样本，每个样本的特征有14列crim：按城镇划分的人均犯罪率。zn：划作超过25,000平方英尺地段的住宅用地比例。indus：城镇非零售营业面积占比。chas：查尔斯河虚拟变量(= 1，如果土地边界...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

按照书上用波士顿房价作为数据集进行算法比较，为什么最后的输出数据是NAN？

1条回答 默认 最新

悬赏问题

1条回答默认最新