k近邻算法疑问，分类错误，为什么与计算有差


from sklearn.neighbors import KNeighborsClassifier

# 样本数据
X = [[1, 6], [1, 2], [3, 5], [3, 6],[5, 2], [6, 5], [7, 7], [7, 1], [8, 3]]  # 每个样本有两个特征

# 标签
y = ['Left', 'Left', 'middle','middle', 'middle', 'top right', 'top right', 'bottom right', 'bottom right']  # 每个样本对应的标签

# 创建并训练K最近邻模型
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(X, y)

# 使用模型进行预测
ret = estimator.predict([[4, 1]])

print(ret)

输出是 ['Left']

如图所示，应该是离middle更近呀，为什么是left，随后问了一下文心一言，他算出来的也是middle：

文心一言的三个最小的说错了，最近的三个是[5, 2]（距离=(\sqrt{2})），[7,1] （距离=(3)）和 [1, 2]（距离=(\sqrt{10})）
这三个的标签分别是 middle、bottom right、Left ，那么按照多个不同的标签，随机取一个的说法应该是随机的，但是运行很多次都是left。为什么呢
而且为啥不是取三个中最近的middle
求大家指点，哪里有问题

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-02-22 15:10
关注
该回答引用自GPT-3.5,由博主GIS_Liu编写：

问题出在 K 最近邻算法中的距离度量方式。在默认情况下，sklearn 中的 KNeighborsClassifier 使用的是欧式距离来计算样本之间的距离。而在欧式距离下，样本 (4, 1) 更接近于左上角的点 [1, 2] 而不是中间的点 [3, 5]。

如果要根据你的直觉判断最近的点，可以使用曼哈顿距离（Manhattan Distance）来替代欧式距离，因为曼哈顿距离更符合你的直觉。你可以在创建 KNeighborsClassifier 时指定参数 metric='manhattan'，这样就会使用曼哈顿距离进行距离度量，代码如下：

from sklearn.neighbors import KNeighborsClassifier # 样本数据 X = [[1, 6], [1, 2], [3, 5], [3, 6],[5, 2], [6, 5], [7, 7], [7, 1], [8, 3]] # 每个样本有两个特征 # 标签 y = ['Left', 'Left', 'middle','middle', 'middle', 'top right', 'top right', 'bottom right', 'bottom right'] # 每个样本对应的标签 # 创建并训练K最近邻模型 estimator = KNeighborsClassifier(n_neighbors=3, metric='manhattan') estimator.fit(X, y) # 使用模型进行预测 ret = estimator.predict([[4, 1]]) print(ret)

这样应该可以得到更符合你直觉的结果。

如果该回答解决了您的问题，请采纳！如果没有，请详述问题所在！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

【Python编程基础入门】Python是一种高级的通用的开源的跨平台的编程语言，如果你想用Python实现机器学习的代码，那么你就需要学习Python
2023-08-13 00:55

光子AI的博客学习Python之前，你是否曾经在用其他编程语言进行机器学习相关任务的开发？是否有过下述疑问？是否熟悉面向对象编程？掌握基本的数据结构及数据操作方法？有哪些库可以用来进行数据分析、数据可视化、文本处理等方面...
自动驾驶的“天眼”！聊一聊高精地图领域中所有主流的制作方案
2022-09-09 07:00

3Ｄ视觉工坊的博客在实现完全自主的道路上，研究人员利用了各种传感器，如激光雷达、相机、惯性测量单元（IMU）和GPS，并开发了用于自动驾驶应用的智能算法，如目标检测、目标分割、障碍避免和路径规划。近年来，高清晰度（HD）地图...
【模式识别与人工智能】【实验报告合集】Bayes + Fisher + PCA + Decision Tree + KNN + K-Means + SVM
2022-07-21 23:19

舞果sight的博客本次投稿是为了记录本科期间我在《模式识别与人工智能》这门课上的学习收获。一共七个实验，每一个实验报告均包括实验目的、实验原理、实验内容、实验结果分析（源代码后有解释、实验结果的规律有说明和总结、变换...
AI 基础术语大全
2023-08-04 00:31

光子AI的博客没有特别难的AI模型，没有特别大的AI数据集，但很有可能可以用AI来解决一些实际的问题。AI技术不断更新迭代，拥有强大的能力，能够快速处理复杂的任务。在解决问题时，不仅仅需要熟悉AI的相关理论知识，而且还要掌握...
AI上推荐之 MIND(动态路由与胶囊网络的奇光异彩)
2022-03-27 07:39

翻滚的小@强的博客 CNN的问题源自对图像感知的泛化能力，比如一个训练好的CNN可能对同一个图像的旋转版本会识别错误，这就是为啥会使用数据增强以及pooling的操作去增加鲁棒程度： pooling操作可以随机选上一层神经元子集，使得网络...
HNSW-分层可导航小世界算法学习
2023-10-23 17:18

samoyan的博客虽然K-NN方法没有显式的学习过程，但在确定新样本的类别时，需要计算新样本与每一个已知样本的距离并找出前k个近邻，这在高维度的大数据集上的计算复杂度非常高。在NSW的基础上，HNSW利用多层的图结构来完成图的构建...
【信息科学与工程学】【管理科学】第二十二篇市场与销售管理算法/模型核心方法——产品上市与组合管理类 (EM-MKT-PM)01
2026-02-22 19:34

flyair_China的博客产品上市与组合管理
漫谈统计学习：关于基础概念那些事
2022-04-15 12:35

PaperWeekly的博客之前我与 SL 唯一的接触停留在非常走马观花的读过一遍 ISLR 那本书，积累的技能仅限于在 R 里调包来 fit 简单的 model。简单来说就是了解的东西连皮毛都算不上，更不用提个中细致的推导以及背后严谨的数学了...
【论文解读】YouTube采样修正的双塔模型论文精读
2021-06-13 00:34

风度78的博客」这是工作中使用频次很高的语言，推荐算法工程师有时也需要从大规模数据中使用Hive SQL发现问题、分析问题。这也是我们常说的推荐算法工程师要有强烈的数据敏感性。 2.3 一些Tricks （1）「最近邻搜索」：当...
PCL中3D特征描述子Shot详解
2020-09-08 07:00

点云PCL公众号博客的博客上周点云公众号开始分享群友们的反馈分享，由博主分配任务，半个月甚至一个月参与学习小伙伴的反馈给群主，并在微信交流群中进行学术交流，加强大家的阅读文献能力，并提高公众号的分享效果。已经有一...
2023年最新人工智能入门指南（学习清单）
2023-03-01 20:51

爱探索的小狐狸的博客数据库有些同学可能会好奇，对于算法工程师主要学机器学习的内容，为什么还要学习数据集，现在很多工程都是通过csv文件来导入数据，为什么还要学习数据库呢？其实，在真正的工程级的项目开发中，数据都是放在...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月22日

k近邻算法疑问，分类错误，为什么与计算有差

3条回答 默认 最新

问题事件

3条回答默认最新