knn中predict_proba的结果不准的问题

各位人才最近在学习机器学习相关的可以，遇到了一个疑惑请人才帮忙看一下，感谢~

import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

# 读取数据
dataxls = pd.read_excel('2023forfootball.xlsx', sheet_name='Sheet2')
Y = dataxls["结果"]
X = dataxls[["让球", "胜初", "平初", "负初", "胜", "平", "负"]].values

# 创建并拟合模型
knn = KNeighborsClassifier(n_neighbors=10,weights='distance')
knn.fit(X, Y)

# 新数据
new_data =  [[-1, 2.17, 3.29, 3.04,-1,1,1]]

# 获取类别名称
class_labels = ['胜', '平', '负']

# 预测新数据的概率
probabilities = knn.predict_proba(new_data)

# 打印每个类别的概率
print("新数据点的概率预测：")
for i, prob in enumerate(probabilities[0]):
    print(f"{class_labels[i]}: {prob * 100:.2f}%")

# 获取最近邻的索引
distances, indices = knn.kneighbors(new_data)

# 从原始数据中检索最近邻的完整数据
nearest_neighbors = dataxls.iloc[indices.flatten()]

# 打印最近邻的完整数据
# print("\n参考的最近邻数据：")
# print(nearest_neighbors.to_string(index=False))

# 打印最近邻数据的距离百分比
max_distance = max(distances.flatten())  # 找到最大距离
distances_percentage = [((distance / max_distance) * 100) for distance in distances.flatten()]
nearest_neighbors['Distance_Percentage'] = distances_percentage

# 格式化输出最近邻的完整数据和距离百分比
print("\n最近邻的完整数据和距离百分比：")
print(nearest_neighbors.to_string(index=False))

输出结果
新数据点的概率预测：
胜: 41.12%
平: 19.58%
负: 39.30%

 id         时间    序号   赛事    主队   客队  让球   胜初   平初   负初   胜终   平终   负终  半场  全场主  全场客 结果  胜  平  负  Distance_Percentage

1017786 2023-02-19 周日001 澳超阿德莱德联西悉尼 -1 2.03 3.25 2.97 2.20 3.20 2.69 2-1 4 4 平 -1 1 1 75.572215
1019650 2023-05-28 周六021 美职足纽约城费城 -1 2.04 3.20 2.98 2.17 3.10 2.82 1-2 1 3 负 -1 1 1 79.108822
1017534 2023-02-09 周三003 法国杯里昂里尔 -1 1.99 3.30 3.00 2.25 2.90 2.86 2-1 2 2 平 -1 1 1 86.381171
1019574 2023-05-22 周日016 葡超费雷拉里奥阿维 -1 1.98 3.25 3.08 2.30 3.00 2.70 1-1 3 1 胜 -1 1 1 92.733825
1021780 2023-11-13 周日021 葡超本菲卡里斯本 -1 2.00 3.35 2.95 2.41 3.15 2.46 0-1 2 1 胜 -1 1 1 94.255113
1019668 2023-05-29 周日018 意甲尤文图斯 AC米兰 -1 2.10 3.15 2.90 2.23 3.00 2.80 0-1 0 1 负 -1 1 1 98.233857
1021239 2023-10-11 周二004 英锦标赛切尔滕汉姆纽波特郡 -1 2.00 3.35 2.93 2.04 3.30 2.90 0-1 0 2 负 -1 1 1 98.789168
1019649 2023-05-28 周六020 美职足奥兰多城亚特联 -1 2.00 3.35 2.93 2.05 3.33 2.85 1-0 1 1 平 -1 1 1 98.789168
1022429 2023-12-17 周日009 意甲乌迪内斯萨索洛 -1 2.02 3.35 2.90 2.20 3.05 2.80 1-0 2 2 平 -1 1 1 100.000000
1022577 2023-12-23 周六016 英冠布莱克本沃特福德 -1 2.02 3.35 2.90 2.25 3.30 2.55 1-0 1 2 负 -1 1 1 100.000000

很明显这个预测结果和最近邻的完整数据的结果不一致，这是为甚，请帮忙看一些呗，感谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

24条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-06-07 10:57
关注
获得0.15元问题酬金
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

在使用 KNeighborsClassifier 的 predict_proba 方法时，预测的概率是根据最近邻的标签分布来计算的。具体来说，对于每个类别，predict_proba 计算的是该类别在 K 个最近邻中的频率。这就意味着，如果一个类别在 K 个最近邻中出现得更频繁，它的概率就会更高。

以下是一些可能的原因，解释为什么 predict_proba 的输出与最近邻数据的实际结果不一致：

数据分布不均匀：如果数据集中某个类别的样本数量远多于其他类别，那么即使最近邻中包含了其他类别的样本，概率预测可能仍然会偏向于多数类别。

K值选择不当：如果 K 值太小，那么预测可能过于依赖于少数几个最近邻的标签，这可能导致预测结果不稳定。相反，如果 K 值太大，那么预测可能过于平滑，无法捕捉到局部的模式。

特征缩放：KNN 对特征的尺度很敏感。如果特征没有进行适当的缩放，那么距离计算可能会受到影响，导致错误的最近邻被选中。

异常值：数据集中的异常值可能会对距离计算产生较大影响，从而影响最近邻的选择。

数据质量：数据中的噪声或错误也可能导致预测结果不准确。

为了解决这个问题，你可以尝试以下步骤：

检查数据：确保数据清洗和预处理得当，没有异常值或错误。
特征缩放：使用如标准化或归一化等方法对特征进行缩放。
调整 K 值：尝试不同的 K 值，以找到最佳的模型性能。
交叉验证：使用交叉验证来评估模型的稳定性和泛化能力。
探索其他模型：如果 KNN 不能满足你的需求，可以考虑其他机器学习模型。

关于代码实现，你的代码看起来已经正确地实现了 KNN 模型的拟合和预测。但是，你可以添加一些数据预处理的步骤，比如特征缩放，以及尝试调整 K 值。

至于参考资料，以下是一些有用的链接：

Scikit-learn 官方文档关于 KNeighborsClassifier 的部分：KNeighborsClassifier — scikit-learn 0.24.2 documentation
KNN 算法的一般介绍和原理：K-Nearest Neighbors (KNN) algorithm

希望这些信息能帮助你解决问题！如果还有其他问题或需要进一步的帮助，请随时告诉我。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python predict_proba_sklearn的predict_proba使用说明
2020-12-09 03:09

weixin_39639653的博客我的理解：predict_proba不同于predict，它返回的预测值为，获得所有结果的概率。(有多少个分类结果，每行就有多少个概率，以至于它对每个结果都有一个可能，如0、1就有两个概率)举例：获取数据及预测代码：from ...
predict和predict_proba带入roc_auc_score结果不同
2022-05-19 15:23

hahahaWhy的博客 predict和predict_proba带入roc_auc_score结果不同我们都知道AUC表示ROC曲线下的面积，下面两种计算格式（二分类）： # 带入预测的概率进行计算 roc1=roc_auc_score(y_test, model.predict_proba(x_test)[:, 1]) # ...
[Bug记录] sklearn中predict与predict_proba的识别结果不一致
2019-03-20 19:05

小刀丶的博客今天训练了好久的决策树模型在测试的时候发现个bug，使用predict得到的结果居然不是predict_proba中最大数值的索引！因为脚本中需要模型的置信度，所以希望拿到predict_proba的类别概率。经过胡乱分析发现predict_...
python中的predict_sklearn中predict_proba（）的用法例子(转)
2021-02-03 11:44

闫沐喜的博客原文链接：https://www.cnblogs.com/kongweisi/p/10623301.htmlpredict_proba返回的是一个n行k列的数组，第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。所以每一行的和应该等于1.举个例子>>>...
sklearn中predict()与predict_proba()用法区别
2020-06-29 20:34

小刘鸭！的博客 sklearn中predict()与predict_proba()用法区别 predict是训练后返回预测结果，是标签值。 predict_proba返回的是一个n 行 k 列的数组，第 i 行第 j 列上的数值是模型预测第 i 个预测样本为某个标签的概率，并且...
KNN.zip_knn_knn matlab_knn python
2022-07-14 17:23

通过实例化对象，设置K值和其他参数，调用`fit`方法进行训练，`predict`或`predict_proba`方法进行预测。此外，用户还可以自定义距离度量函数，增强了算法的灵活性。 KNN算法虽然简单易用，但也有其局限性，比如...
KNN算法原理和代码详解
2022-07-06 21:48

加林so cool的博客要解决这个问题，那么就可以说立着他最近的几个人家是富人多还是穷人多就可以判别了，K户人家，最近距离就是欧氏距离或者曼哈顿距离，切比雪夫距离。这是欧氏距离，在中学都有学过。advantage: 显而易见的简单以实现...
【机器学习】K-近邻算法（KNN）
2020-07-04 20:12

IT农民工1的博客它是人工智能的核心，是使计算机具有智能的根本途径。那么多余的内容就不说了，想必大家都明白，网上内容实在太多了。接下来进入正题，第一个机器学习算法——KNN。 01 原理透析 KNN算法即K-近邻算法，是机器学习...
KNN算法
2018-10-05 11:19

Ellen小七的博客 print(knn.predict_proba(np.array([[6.3, 3, 5.2, 2.3]]))) # knn_predict_iris() 范围分布如下注释：三种类型鸢尾花的数据分布范围所以，再给一株新的鸢尾花的数据，经过预测之后，看它的预测...
KNN算法及其python实现
2020-01-05 10:06

隐者之王的博客邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法不仅可以用于...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 6月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月7日

knn中predict_proba的结果不准的问题

24条回答 默认 最新

问题事件

24条回答默认最新