提升knn算法的准确率

不使用 sklearn写的knn算法，识别mnist数据集，准确率只有百分之六十，如何进一步提高识别的准确率
已经尝试过使用不同的k值和对图片进行归一化处理



def load_mnist():
    X_train = np.fromfile('mnist_data/train-images-idx3-ubyte', dtype=np.uint8, offset=16)
    X_train = X_train.reshape(int(6e4), 28, 28)
    X_test = np.fromfile('mnist_data/t10k-images-idx3-ubyte', dtype=np.uint8, offset=16)
    X_test = X_test.reshape(int(1e4), 28, 28)
    y_train = np.fromfile('mnist_data/train-labels-idx1-ubyte', dtype=np.uint8, offset=8)
    y_train = y_train.reshape(int(6e4))
    y_test = np.fromfile('mnist_data/t10k-labels-idx1-ubyte', dtype=np.uint8, offset=8)
    y_test = y_test.reshape(int(1e4))


class Knn(object):

    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X = X
        self.y = y

    def predict(self, X):
        dataset = self.X
        labels = self.y
        k = self.k
        predict_labels = []
        X = np.reshape(X, (X.shape[0], -1))
        dataset = np.reshape(dataset, (dataset.shape[0], -1))

        scalar = MaxAbsScaler()
        scalar.fit(dataset)
        dataset = scalar.transform(dataset)
        X = scalar.transform(X)

        print(dataset[0])

        dataset_size = dataset.shape[0]
        for i in tqdm(range(X.shape[0])):
            diff_mat = np.tile(X[i], (dataset_size, 1)) - dataset
            sq_diff_mat = diff_mat ** 2
            sq_distances = sq_diff_mat.sum(axis=1)
            distances = sq_distances ** 0.5
            sorted_dist_indicies = distances.argsort()
            class_count = {}
            for j in range(k):
                vote_label = labels[sorted_dist_indicies[i]]
                class_count[vote_label] = class_count.get(vote_label, 0) + 1
            sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
            predict_labels.append(sorted_class_count[0][0])
        predict_labels = np.array(predict_labels)
        return predict_labels

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
youcans_ 人工智能领域优质创作者 2022-10-03 23:15
关注
首先，手写识别的关键是特征描述，如果这一步没有做好，用什么方法，怎么调参，也不会有好的结果。
将图像像素值直接作为输入向量，原则上是不适当的。
推荐实现方法如下：
（1）首先，样本均匀，标准化，归一化，这些必要的准备工作就不说了，
（2）特征提取，或者说特征向量构造，将字符图像转换为特征向量作为模型的输入，
（3）KNN，可以选择不同的K值，2～5之间有些影响，5 以上没必要。
关于特征构造，推荐两种方法：
1，HOG，方向梯度直方图
2，小波特征，例如Haar
我查了一下以前的程序，检验集识别准确率大约 80～90%。
给出一段 HOG 特征描述符的构造例程，这类似于SIFT的特征描述符，效果不错。

import cv2 as cv # (2) 构造 HOG 描述符 # HOGDescriptor winSize = (20, 20) blockSize = (10, 10) blockStride = (5, 5) cellSize = (5, 5) nbins = 8 derivAperture = 1 winSigma = -1. histogramNormType = 0 L2HysThreshold = 0.2 gammaCorrection = 1 nlevels = 16 signedGradients = True hog = cv.HOGDescriptor(winSize, blockSize, blockStride, cellSize, nbins, derivAperture, winSigma, histogramNormType, L2HysThreshold, gammaCorrection, nlevels) p = (1+(20-10)//5)*(1+(20-10)//5)*(10//5)*(10//5)*8 # 特征描述符长度，288

参考结果：

Recognition of handwritten digits by KNN-HOG k=2, correct=938, accuracy=93.80% k=3, correct=939, accuracy=93.90% k=4, correct=940, accuracy=94.00% k=5, correct=938, accuracy=93.80%
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

提升knn算法的准确率 python 人工智能机器学习
2022-09-30 18:14

回答 5 已采纳首先，手写识别的关键是特征描述，如果这一步没有做好，用什么方法，怎么调参，也不会有好的结果。将图像像素值直接作为输入向量，原则上是不适当的。推荐实现方法如下：（1）首先，样本均匀，标准化，归一化，这些
knn算法的使用分析 python 分类有问必答聚类
2022-10-20 20:16

回答 3 已采纳 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pylab import mpl #中文乱码解决
knn算法不是不需要训练吗，为什么还有训练集 python 有问必答深度学习计算机视觉
2022-04-03 18:39

回答 2 已采纳 KNN是需要训练集的，只是不需要训练算法而已。KNN的原理是找到数据库里和输入样本最近的几个样本，用它们的标签来判决输入样本标签，这就需要一个存在本地的数据库，称之为训练集。按理来说这里没有训练的过程
KNN算法实例
2023-10-09 18:50

NayNuhcIem的博客文章目录 KNN算法实例一、案例二、具体实现代码实现 1.准备数据 2.分析数据：使用Matplotlib创建散点图 3. 对数据进行归一化 4.测试算法：分类器的实现 5.使用算法：输入数据进行测试三、数据的分析四、模型优化...
knn算法 用python 有人留下代码吗 python 机器学习
2020-09-27 10:29

回答 3 已采纳 ```python #!/usr/bin/python # coding=utf-8 ######################################### # kNN: k Ne
关于机器学习中knn算法的一些问题 python 机器学习
2022-05-21 15:34

回答 1 已采纳好家伙，你这特征数量真心不少。KNN的核心是计算距离，你这个特征这么多，计算的复杂度就会很高，不知道你用的距离算法，也不知道你CPU能不能受的住。减少特征的数量，比如颜色特征，看看能
Golang中的Knn算法
2016-05-13 03:05

回答 1 已采纳 Yes, it makes sense. It depends whether your whole stack is in golang or not. Otherwise, golang do
用kNN算法诊断乳腺癌--基于R语言
2022-08-26 09:08

小墨&晓末的博客包含讲解分析，以及算法代码和结果等。对运行结果和算法进行了详细分析讲解
sk-learn中KNN算法能动态的构建ball-tree吗算法
2018-02-28 02:50

回答 3 已采纳 sklearn 的 KNN 不能使用 incremental learning，每次训练都需要重新构建ball-tree。在ipython中，运行"knn.fit??"可以查看fit的具体实现。
KNN--K近邻算法 pycharm python 有问必答
2021-06-29 09:09

回答 2 已采纳设两个集合的中心点分别为p0和p1表示二元组，方差分别为v0和v1（开方得到标准差），借助于numpy的随机化抽样子模块random很容易得到两个集合，合并为一个样本集。与之对应的标签集也不难制作。之
sklearn中knn算法中的weights=uniform时，相当于投票决定吗 python sklearn 机器学习
2023-04-05 15:31

回答 1 已采纳 uniform是均等的权重，就是说所有的邻近点的权重都是相等的，就是投票决定
【机器学习】KNN算法实现
2022-11-27 18:56

TiTainEE的博客 knn实现自定义数据集图像分类，算法缺陷分析与优化
关于python的KNN算法，刚开始我就遇到了一个问题，就是在把excel转化成字典的时候，会报错 python 有问必答深度学习神经网络
2021-05-29 11:54

回答 2 已采纳 excel文件与csv文件不是同一种格式，你这里使用的是csv方式读取了.xls（excel）文件，自然会报错。解决方式是使用pandas.read_excel()，读取excel文件。该函数的使
KNN算法小结
2021-06-27 18:57

退红时雨的博客使用编程语言：python3；目录一、kNN代码实现 1、classify0函数实现KNN算法（对应程序清单2-1） 2、file2matrix函数转换文本记录（对应程序清单2-2） 3、autoNorm函数归一化特征值（对应程序清单2-3） 4、...
图解机器学习算法(3) | KNN算法及其应用（机器学习通关指南·完结）
2022-03-10 00:24

ShowMeAI的博客 KNN算法（K近邻算法）是一种很朴实的机器学习方法，既可以做分类，也可以做回归。本文详细讲解KNN算法相关的知识，包括：核心思想、算法步骤、核心要素、缺点与改进等。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月30日

悬赏问题

¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题
¥30 酬劳2w元求合作写文章
¥15 在现有系统基础上增加功能

提升knn算法的准确率

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新