运行KNN，预测准确率一直为1，为什么(标签-R语言)

使用R语言中蘑菇数据运行KNN时，最后预测准确率一直为1，能帮我看看是为什么吗，非常感谢。下面是我的代码


library(cba)
data(Mushroom)
Mushroom
str(Mushroom)#查看基本信息
dim(Mushroom)
Mushroom$`veil-type`<- NULL
Mushroom<- na.omit(Mushroom)
sum(is.na(Mushroom))
dim(Mushroom)
#定义因子
Mushroom$class <- as.factor(Mushroom$class)
for (i in 2:ncol(Mushroom)) {
  Mushroom[, i] <- as.numeric(factor(Mushroom[, i]))
}#转换为数值型
Mushroom
str(Mushroom)
###标准化
Mushroom[,-1] <- scale(Mushroom[,-1])
Mushroom
# 划分训练集和测试集
set.seed(123)
train_index <- sample(1:nrow(Mushroom),size=nrow(Mushroom)*0.8,replace=F)
train<- Mushroom[train_index, ]
test<- Mushroom[-train_index, ]
dim(train)
dim(test)
train
# 运行KNN算法进行分类
library(class)
knn_pred <- knn(train = train[, -1], test = test[, -1], cl = train$class, k = 5)
# 计算预测准确率
sum(knn_pred == test[,1]) /dim(test)[1]
#交叉表展示
library(gmodels)
CrossTable(x=test[,1],y=knn_pred,prop.chisq = F)
#结果
> sum(knn_pred == test[,1]) /dim(test)[1]
[1] 1
##交叉表
             | knn_pred 
   test[, 1] |    edible | poisonous | Row Total | 
-------------|-----------|-----------|-----------|
      edible |       669 |         0 |       669 | 
             |     1.000 |     0.000 |     0.593 | 
             |     1.000 |     0.000 |           | 
             |     0.593 |     0.000 |           | 
-------------|-----------|-----------|-----------|
   poisonous |         0 |       460 |       460 | 
             |     0.000 |     1.000 |     0.407 | 
             |     0.000 |     1.000 |           | 
             |     0.000 |     0.407 |           | 
-------------|-----------|-----------|-----------|
Column Total |       669 |       460 |      1129 | 
             |     0.593 |     0.407 |           | 
-------------|-----------|-----------|-----------|

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
轩Scott 人工智能领域新星创作者 2023-05-07 19:36
关注
根据您提供的代码，我发现您的KNN算法的预测准确率一直为1，可能是由于您的测试集和训练集之间存在重复数据导致的。在划分训练集和测试集时，您使用了以下代码：

train_index <- sample(1:nrow(Mushroom),size=nrow(Mushroom)*0.8,replace=F) train<- Mushroom[train_index, ] test<- Mushroom[-train_index, ]

其中，sample()函数用于随机抽取80%的数据作为训练集，剩余的20%作为测试集。但是，由于您没有设置replace参数为FALSE，因此在抽取数据时可能会出现重复数据。这会导致测试集中的某些数据在训练集中也存在，从而导致预测准确率为1。

为了解决这个问题，您可以将replace参数设置为FALSE，即：

train_index <- sample(1:nrow(Mushroom),size=nrow(Mushroom)*0.8,replace=FALSE) train<- Mushroom[train_index, ] test<- Mushroom[-train_index, ]

这样可以确保训练集和测试集之间没有重复数据，从而得到更准确的预测准确率。

另外，您还可以尝试调整K值，以获得更好的预测效果。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

提升knn算法的准确率 python 人工智能机器学习
2022-09-30 18:14

回答 5 已采纳首先，手写识别的关键是特征描述，如果这一步没有做好，用什么方法，怎么调参，也不会有好的结果。将图像像素值直接作为输入向量，原则上是不适当的。推荐实现方法如下：（1）首先，样本均匀，标准化，归一化，这些
关于#机器学习#的问题，如何解决？(语言-python) python 开发语言机器学习
2023-03-12 14:43

回答 2 已采纳这个错误提示表明，在计算距离的时候使用了字符串类型的数据，而距离计算一般是针对数值型数据的。你需要检查你的数据，看看是否有些特征是字符串类型的，如果有，你需要进行相应的处理，将其转换为数值类型，比如使
7.28（周日）中午之前要：如何使用Matlab或python或其他语言解决机器学习中KNN与GMM的问题？ c++ python r语言机器学习神经网络
2019-07-25 08:43

回答 3 已采纳 1 Data Preparation pareto displays the first 95% of the cumulative distribution, some elements in y
用kNN算法诊断乳腺癌--基于R语言
2022-08-26 09:08

小墨&晓末的博客包含讲解分析，以及算法代码和结果等。对运行结果和算法进行了详细分析讲解
knn算法不是不需要训练吗，为什么还有训练集 python 有问必答深度学习计算机视觉
2022-04-03 18:39

回答 2 已采纳 KNN是需要训练集的，只是不需要训练算法而已。KNN的原理是找到数据库里和输入样本最近的几个样本，用它们的标签来判决输入样本标签，这就需要一个存在本地的数据库，称之为训练集。按理来说这里没有训练的过程
KNN--K近邻算法 pycharm python 有问必答
2021-06-29 09:09

回答 2 已采纳设两个集合的中心点分别为p0和p1表示二元组，方差分别为v0和v1（开方得到标准差），借助于numpy的随机化抽样子模块random很容易得到两个集合，合并为一个样本集。与之对应的标签集也不难制作。之
为什么我定义了X_train程序运行时却显示X_train没有被声明 python sklearn 机器学习
2022-10-13 17:07

回答 1 已采纳
【R语言实战】——kNN和朴素贝叶斯方法实战
2024-04-27 08:00

小墨&晓末的博客该篇文章主要针对葡萄酒数据，分别采用KNN和朴素贝叶斯算法实现葡萄酒品种的多分类预测，其中涉及数据集的描述性统计、标准化处理、训练集测试集的随机划分，模型效果评估，特征主成分提取，预测效果可视化等内容。
sk-learn中KNN算法能动态的构建ball-tree吗算法
2018-02-28 02:50

回答 3 已采纳 sklearn 的 KNN 不能使用 incremental learning，每次训练都需要重新构建ball-tree。在ipython中，运行"knn.fit??"可以查看fit的具体实现。
ones在opencv中报错，如何解决？(语言-python) opencv python 人工智能
2022-08-22 08:37

回答 3 已采纳你截图里第一个是对的，把5，5用括号括起来就可以了，把两个五写在一个参数里。报错的意思是他以为形状是5数据类型也是5
怎么将Python的运行结果导出为csv格式？ python sklearn 有问必答
2021-12-01 11:17

回答 2 已采纳可以先转换为dataframe，再用to_csv保存即可。示例： import pandas as pd import numpy as np a=np.array([[2,3,4],[1,2,3]
论文翻译 | (DSP)展示-搜索-预测：为知识密集型自然语言处理组合检索和语言模型
2024-07-01 20:04

龙的爹2333的博客检索增强式上下文学习已经成为一种强大的方法，利用冻结语言模型 (LM) 和检索模型 (RM) 来解决知识密集型任务。现有工作将这些模型结合在简单的“检索-读取”流程中，其中 RM 检索到的段落被插入到 LM 提示中。为了...
使用matplotlib画图，为什么我的颜色不变？ python
2022-09-18 20:07

回答 1 已采纳因为train_y[i]一直都是0
R语言编程最佳实践：高效编写R代码
2023-07-14 01:43

光剑书架上的书的博客一直以来，R语言是一种非常流行的数据分析工具，它被认为是“统计/数据科学领域里的瑞士军刀”。R语言简洁、灵活、高效、功能强大且开源，被国内外多个高校和机构用于数据科学和机器学习。在实际工作中，大家经常会...
利用python语言实现分类算法_python实现KNN分类算法
2020-12-02 22:04

weixin_39873456的博客一、KNN算法简介邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月7日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

运行KNN，预测准确率一直为1，为什么(标签-R语言)

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新