使用knn分类时出现ValueError: could not convert string to float错误

问题遇到的现象和发生背景

使用knn分类器进行训练时发生错误

问题相关代码，请勿粘贴截图

# coding=utf-8

import pandas as pd

# 创建特征列表
from sklearn import preprocessing


column_names = ["P_rect", "P_extend", "P_spherical", "P_leaf", "P_circle", "Species"]
#column_names = ['P_rect', 'P_extend', 'P_spherical', 'P_leaf', 'P_circle','P_complecate', 'Species']
data = pd.read_csv('data/data.csv', names=column_names)



#print (data.shape)

# 这个功能快要被抛弃了,分割训练和测试集
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split


X_train, X_test, Y_train, Y_test = train_test_split(data[column_names[0:5]], data[column_names[5]], test_size=0.25, random_state=33)

#print (Y_train.value_counts())
#print (Y_test.value_counts())

# 数据整理，但是整形的，需要注意
#from sklearn.preprocessing import StandardScaler
#ss = StandardScaler()
#X_train = ss.fit_transform(X_train)
#X_test = ss.transform(X_test)


from sklearn.neighbors import KNeighborsClassifier

knc = KNeighborsClassifier()
knc.fit(X_train, Y_train)
knc_y_predict = knc.predict(X_test)

from sklearn.metrics import classification_report

print ("LR 精确度：" + str(knc.score(X_test, Y_test)))
print (classification_report(Y_test, knc_y_predict, target_names=['fly','wo','jingui','zhang','zhizhu']))

# 保存训练结果，供后面直接使用
import joblib

joblib.dump(knc,'model/knc.model')

运行结果及报错内容

Traceback (most recent call last):
  File "C:\Users\Administrator\PycharmProjects\Insect_Identification\KneiborsClassfier.py", line 37, in <module>
    knc.fit(X_train, Y_train)
  File "D:\Anaconda3\lib\site-packages\sklearn\neighbors\_classification.py", line 179, in fit
    return self._fit(X, y)
  File "D:\Anaconda3\lib\site-packages\sklearn\neighbors\_base.py", line 363, in _fit
    X, y = self._validate_data(X, y, accept_sparse="csr",
  File "D:\Anaconda3\lib\site-packages\sklearn\base.py", line 433, in _validate_data
    X, y = check_X_y(X, y, **check_params)
  File "D:\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 63, in inner_f
    return f(*args, **kwargs)
  File "D:\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 871, in check_X_y
    X = check_array(X, accept_sparse=accept_sparse,
  File "D:\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 63, in inner_f
    return f(*args, **kwargs)
  File "D:\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 673, in check_array
    array = np.asarray(array, order=order, dtype=dtype)
  File "D:\Anaconda3\lib\site-packages\numpy\core\_asarray.py", line 102, in asarray
    return array(a, dtype, copy=False, order=order)
  File "D:\Anaconda3\lib\site-packages\pandas\core\generic.py", line 1993, in __array__
    return np.asarray(self._values, dtype=dtype)
  File "D:\Anaconda3\lib\site-packages\numpy\core\_asarray.py", line 102, in asarray
    return array(a, dtype, copy=False, order=order)
ValueError: could not convert string to float: 'True'

我的解答思路和尝试过的方法

尝试使用LabelEncoder ：将字符串转换为增量值但是好像没成功

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
heianduck 2022-01-23 15:13
关注
这个函数返回含有label，也就是字符串，你先print出来看看是写啥label，然后把他去除掉。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

knn算法的使用分析 python 分类有问必答聚类
2022-10-20 20:16

回答 3 已采纳 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pylab import mpl #中文乱码解决
基于knn的tensorflow2.0的MNIST分类 pycharm python tensorflow 有问必答
2021-08-11 20:03

回答 1 已采纳应该是由于在下载数据集中连接中断，导致程序终止运行，可以尝试将数据集下载到本地运行，参考： https://blog.csdn.net/u012487272/article/details/79
提升knn算法的准确率 python 人工智能机器学习
2022-09-30 18:14

回答 5 已采纳首先，手写识别的关键是特征描述，如果这一步没有做好，用什么方法，怎么调参，也不会有好的结果。将图像像素值直接作为输入向量，原则上是不适当的。推荐实现方法如下：（1）首先，样本均匀，标准化，归一化，这些
python np.loadtxt() 读取数据集时报错ValueError: could not convert string to float以及pandas.readcsv()对比
2022-10-09 13:49

一只菜得不行的鸟的博客 python np.loadtxt() 读取数据集时报错ValueError: could not convert string to float以及pandas.readcsv()对比 4、常见的两种读取csv文件方式读以下两篇文章即可：《numpy中loadtxt 的用法及参数说明》《pandas...
sklearn中knn算法中的weights=uniform时，相当于投票决定吗 python sklearn 机器学习
2023-04-05 15:31

回答 1 已采纳 uniform是均等的权重，就是说所有的邻近点的权重都是相等的，就是投票决定
importerror：vision libcudart.so.10.0 not found问题 python 神经网络
2021-04-02 12:39

回答 1 已采纳出现这种问题，可能是你版本过高的问题。如果从源码处更改，可能需要详细知道其机理。如果代码官方没有该出明确说明可以兼容cu11.2，建议你改用cuda10.x
7.28（周日）中午之前要：如何使用Matlab或python或其他语言解决机器学习中KNN与GMM的问题？ c++ python r语言机器学习神经网络
2019-07-25 08:43

回答 3 已采纳 1 Data Preparation pareto displays the first 95% of the cumulative distribution, some elements in y
利用 Scikit Learn的Python数据预处理实战指南
2017-05-25 08:37

weixin_34111790的博客应当牢记，当使用基于距离的算法时，我们必须尝试将数据缩放，这样较不重要的特征不会因为自身较大的范围而主导目标函数。此外，具有不同度量单位的特征也应该进行缩放，这样给每个特征具有相同的初始权重，最终我们...
Golang中的Knn算法
2016-05-13 03:05

回答 1 已采纳 Yes, it makes sense. It depends whether your whole stack is in golang or not. Otherwise, golang do
KNN--K近邻算法 pycharm python 有问必答
2021-06-29 09:09

回答 2 已采纳设两个集合的中心点分别为p0和p1表示二元组，方差分别为v0和v1（开方得到标准差），借助于numpy的随机化抽样子模块random很容易得到两个集合，合并为一个样本集。与之对应的标签集也不难制作。之
关于机器学习中knn算法的一些问题 python 机器学习
2022-05-21 15:34

回答 1 已采纳好家伙，你这特征数量真心不少。KNN的核心是计算距离，你这个特征这么多，计算的复杂度就会很高，不知道你用的距离算法，也不知道你CPU能不能受的住。减少特征的数量，比如颜色特征，看看能
invalid literal for int() with base 10: ‘largeDoses‘
2021-07-13 12:52

悟2020的博客在<机器学习实战>第二章中的代码样例 ''' Created on Oct 27, 2010 @author: Peter ''' from numpy import * import kNN import matplotlib ...datingDataMat,datingLabels = kNN.file2matrix('datingTestS
请问KNN需要删除不相关的特征吗？如何做特征选择呢 python 数据挖掘有问必答机器学习
2021-05-05 23:21

回答 5 已采纳如果能够剔除对结果无影响或影响甚微的变量，当然是最好的。不过，要想逐一确定哪些变量和结果之间存在较高的相关性，也并非易事。通常，降维是首选的手段，而主成分分析（PCA）是降维最常用的方法。
机器学习K-Means使用报错TypeError: unsupported operand type(s) for -: 'map' and 'map'
2019-09-25 20:42

edward_zcl的博客最近使用kmeans做一个二维数据点的聚类，发现网上的代码，要么是自己写的，各种报错，连个txt文件都读取出错，当然这里不排除可能有python版本的原因，要么是sklearn进行调包的，当然这一点，也可以去网上找到一堆...
sklearn代码9 7-KNN-salay
2021-11-01 15:48

可可茜里的传说的博客 %s expected <= 2." ValueError: could not convert string to float: 'United-States' # 方法将数据中str转换成int float从而方便计算 # map方法，apply transfrom u = X['workclass'].unique() ##所有职业属性都...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月23日

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

使用knn分类时出现ValueError: could not convert string to float错误

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新