纪修染367 2026-05-20 17:30 采纳率: 78.6%

机器学习运行报编码错误但是其他的机器学习程序又能正常运行


# -*- coding: utf-8 -*-
import sys
import io
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler

# 设置默认编码为 UTF-8（解决中文输出问题）
sys.stdout = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8')

def iris_knn_grid_search():
    # 1. 加载数据
    data = load_iris()
    X = data.data
    y = data.target

    # 2. 划分训练集、测试集
    x_train, x_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    # 3. 数据标准化（KNN基于距离，必须做！）
    scaler = StandardScaler()
    x_train = scaler.fit_transform(x_train)
    x_test = scaler.transform(x_test)

    # 4. 定义基础模型
    knn = KNeighborsClassifier()

    # 5. 定义要搜索的超参数网格（核心！）
    param_grid = {
        "n_neighbors": [1, 3, 5, 7, 9, 11],  # 要搜索的邻居数量
        "weights": ["uniform", "distance"],  # 权重：均匀/距离加权
        "p": [1, 2]  # 距离度量：1=曼哈顿距离，2=欧氏距离
    }

    # 6. 网格搜索 + 5折交叉验证
    # cv=5：把训练集分成5份做交叉验证
    grid_search = GridSearchCV(
        estimator=knn,    # 要调参的模型
        param_grid=param_grid,  # 超参数范围
        cv=5,  # 5折交叉验证
        n_jobs=-1  # 调用所有CPU核心加速
    )

    # 7. 在训练集上搜索最优参数
    grid_search.fit(x_train, y_train)

    # 8. 输出网格搜索最优结果
    print("="*50)
    print(f" 交叉验证最优准确率：{grid_search.best_score_:.4f}")
    print(f" 最优超参数组合：{grid_search.best_params_}")
    print(f" 最优模型：{grid_search.best_estimator_}")
    print("="*50)

    # 9. 用最优模型在测试集上评估
    best_model = grid_search.best_estimator_
    test_acc = best_model.score(x_test, y_test)
    print(f" 最优模型在测试集上的准确率：{test_acc:.4f}")

if __name__ == '__main__':
    iris_knn_grid_search()

运行时报编码错误UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-19: ordinal not in range(128)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

檀越@新空间 2026-05-20 17:33

关注

下午好🌅🌅🌅
本答案参考通义千问

你遇到的错误是：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-19: ordinal not in range(128)

这个错误通常发生在 输出中文字符时，系统默认使用的是 ASCII 编码，而你的代码中包含了中文字符（例如 print("="*50) 中的 = 符号虽然不是中文，但可能在某些系统中会引发编码问题），或者是在输出内容中包含非 ASCII 字符。

✅ 重点原因分析：

错误发生的原因是：
Python 默认的 stdout 编码不是 UTF-8，导致在打印中文或特殊字符时抛出 UnicodeEncodeError。

你尝试通过以下代码设置标准输出为 UTF-8：

sys.stdout = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8')

但是这行代码的作用是 将输入流转换为 UTF-8，而不是设置输出流的编码。因此，它并不能真正解决输出时的编码问题。

✅ 解决方案：

1. 正确设置 stdout 的编码为 UTF-8

你需要重新定义 sys.stdout 为一个支持 UTF-8 的 TextIOWrapper，而不是从 stdin 转换而来。修改如下：

import sys
import io

# 正确设置 stdout 的编码为 UTF-8
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8', newline='')

注意： 使用 sys.stdout.buffer 是为了获取原始字节流，再包装成 UTF-8 编码的文本流。

2. 确保文件保存为 UTF-8 编码格式

请确认你的 Python 文件（如 your_script.py）是以 UTF-8 格式保存的。如果使用了其他编码（如 GBK、Latin-1 等），也会导致编码错误。

3. 避免在 print 中使用非 ASCII 字符

如果你的代码中有中文字符（如注释、字符串等），请确保它们被正确处理。比如：

print("最优模型在测试集上的准确率：", test_acc)

或者：

print(f" 最优模型在测试集上的准确率：{test_acc:.4f}")

这些语句本身不会有问题，但需要确保整个运行环境支持 UTF-8。

✅ 修改后的完整代码示例：

# -*- coding: utf-8 -*-
import sys
import io
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler

# 正确设置 stdout 的编码为 UTF-8
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8', newline='')

def iris_knn_grid_search():
    # 1. 加载数据
    data = load_iris()
    X = data.data
    y = data.target

    # 2. 划分训练集、测试集
    x_train, x_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    # 3. 数据标准化（KNN基于距离，必须做！）
    scaler = StandardScaler()
    x_train = scaler.fit_transform(x_train)
    x_test = scaler.transform(x_test)

    # 4. 定义基础模型
    knn = KNeighborsClassifier()

    # 5. 定义要搜索的超参数网格（核心！）
    param_grid = {
        "n_neighbors": [1, 3, 5, 7, 9, 11],  # 要搜索的邻居数量
        "weights": ["uniform", "distance"],  # 权重：均匀/距离加权
        "p": [1, 2]  # 距离度量：1=曼哈顿距离，2=欧氏距离
    }

    # 6. 网格搜索 + 5折交叉验证
    grid_search = GridSearchCV(
        estimator=knn,
        param_grid=param_grid,
        cv=5,
        n_jobs=-1
    )

    # 7. 在训练集上搜索最优参数
    grid_search.fit(x_train, y_train)

    # 8. 输出网格搜索最优结果
    print("=" * 50)
    print(f" 交叉验证最优准确率：{grid_search.best_score_:.4f}")
    print(f" 最优超参数组合：{grid_search.best_params_}")
    print(f" 最优模型：{grid_search.best_estimator_}")
    print("=" * 50)

    # 9. 用最优模型在测试集上评估
    best_model = grid_search.best_estimator_
    test_acc = best_model.score(x_test, y_test)
    print(f" 最优模型在测试集上的准确率：{test_acc:.4f}")

if __name__ == '__main__':
    iris_knn_grid_search()

✅ 总结步骤：

正确设置 stdout 编码为 UTF-8，使用 sys.stdout.buffer 包装。
确认文件保存为 UTF-8 格式。
避免在 print 中使用非 ASCII 字符，或确保它们被正确编码。
检查是否在代码中存在中文字符，并确保其正确显示。

✅ 如果仍然报错？

你可以尝试以下方法：

import os
os.environ['PYTHONIOENCODING'] = 'utf-8'

放在脚本开头，可以强制 Python 使用 UTF-8 编码处理输入输出。

如有更多问题，欢迎继续提问！

报告相同问题？

关注问题

基于机器学习的Python自动缩进插件.zip
2026-01-11 11:31

在当今快速发展的编程环境中，自动化...这个基于机器学习的Python自动缩进插件项目是人工智能与软件开发相结合的产物，它不仅展示了机器学习技术在实际应用中的潜力，也体现了开发者对于提高编码效率和质量的不懈追求。
如何利用R语言学习机器学习？
2025-05-27 10:45

cda2024的博客通过上述介绍相信大家已经对如何利用R语言学习机器学习有了较为全面的认识。从基础理论到具体实践，再到进阶技巧，每一个环节都至关重要。希望各位读者能够保持好奇心和求知欲，在这条充满挑战却又无比精彩的道路上...
【一起啃西瓜书】机器学习-期末复习（不挂科）
2021-12-09 15:23

硬核科技工作室的博客【机器学习-期末复习爆肝2w字笔记整理分享】《机器学习》致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据（经验）中产生“模型”，用于对新的情况给出判断（利用此模型预测未来...
机器学习之基础知识（全）
2022-08-06 23:37

幼儿园的高财生的博客学习机器学习前必备知识体系，比较全面，该系列课程笔记会一直更新。本文包括机器学习里涉及到的基本概念，环境的安装，Matplotlib,numpy,pandas的讲解。
机器学习(一)Spark机器学习基础
2023-10-12 16:40

秒懂AI+的博客走到水果摊旁，挑了个色泽青绿、敲起来声音浊响的青绿西瓜，一边期待着西瓜皮薄肉厚瓤甜的爽落感，一边愉快地想着，明天学习Python机器学习一定要狠下功夫，基础概念搞得清清楚楚，案例作业也是信手拈来，我们的学习...
2024年机器学习编程语言排行榜：必须了解的7种
2024-01-17 13:49

Mr数据杨的博客经过深入探讨，我们发现每种语言都有其独特的优势和适用场景。Python以其易用性和强大的库支持在机器学习领域占据着...正如艺术家选择画笔一样，机器学习的工程师们也需要根据项目的具体需求，选择最合适的编程语言。
一文彻底搞懂什么是机器学习
2025-03-24 22:00

码上飞扬的博客 机器学习（Machine Learning）是人工智能（AI）...机器学习（Machine Learning）是人工智能（AI）领域的一项重要技术，它让计算机通过自动学习经验、从数据中识别模式，并进行推理和预测，而不依赖于传统的硬编码规则。
机器学习：监督学习、无监督学习、半监督学习、强化学习
2023-07-31 10:37

源启智能的博客 机器学习是一种人工智能领域的技术，它旨在让计算机通过学习数据和模式，而不是明确地进行编程来完成任务。机器学习分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-...
机器学习入门基础（万字总结）（建议收藏！！！）
2022-12-04 22:36

subsistent的博客本文章涵盖了机器学习的基础知识，主要包括机器学习的概述、回归、分类、聚类、神经网络、文本分析、图像分析、深度学习等经典的机器学习基础知识，还包括深度学习入门等拔高内容。介绍机器学习的基础概念和知识，...
机器学习使用什么编程语言_什么是机器学习项目的最佳编程语言
2020-05-02 05:13

dfsgwe1231的博客 机器学习使用什么编程语言 …以及为什么是Python。 Python是机器学习使用的事实上的编程语言。这是由于它的简单性和可读性，它使用户可以专注于算法和结果，而不是浪费时间在有效地构造代码并保持可管理性上。 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日