随机森林调优时精确率为空值

机器学习中，使用随机森林建模，并调优，没有报错，但是为什么精确率和f1值计算为空值

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-05-20 19:16
关注
引自免费微信小程序：皆我百晓生

在您提供的代码中，看起来您正在使用随机森林进行分类任务，并且尝试对模型进行调优。从您给出的结果来看，测试集的精度（Precision）和召回率（Recall）显示为 NaN，这通常意味着在某些类别中没有预测正确的样本，导致分母为零。

解决这个问题的方法包括：

检查数据分布：确保您的数据集中每个类别的样本都有足够的数量，特别是对于少数类。如果某个类别的样本数量过少，可能会导致上述问题。
调整模型参数：尝试调整模型的超参数，比如减少树的数量（n_estimators），增大最小分裂样本数(min_samples_split)，增大最小叶子节点样本数(min_samples_leaf)等，这样可能会使得模型更保守，从而避免过拟合，提高泛化能力。
使用其他评估方法：当类别不平衡时，F1分数可能不是一个很好的评价指标。可以考虑使用其他的评估方式，如AUC-ROC（曲线下面积）或平均精确率（Average Precision）。

根据您提供的信息，让我们首先检查数据分布，然后尝试调整模型参数并重新评估。

为了演示如何执行这些步骤，这里是一个完整的代码示例：

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.datasets import fetch_20newsgroups from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV # 加载一个示例数据集 twenty_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes')) twenty_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes')) # 文本特征提取 vectorizer = TfidfVectorizer() x_train = vectorizer.fit_transform(twenty_train.data) x_test = vectorizer.transform(twenty_test.data) y_train = twenty_train.target y_test = twenty_test.target # 划分训练集和验证集 x_train_tfidf, x_val_tfidf, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=1) # 定义参数网格 param_grid = { 'n_estimators': list(range(10, 400, 5)), 'max_depth': list(range(1, 400, 5)), 'max_leaf_nodes': list(range(1, 400, 5)), 'min_samples_split': list(range(2, 200, 5)), 'min_samples_leaf': list(range(1, 100, 5)) } # 使用GridSearchCV进行参数优化 grid_search = GridSearchCV(RandomForestClassifier(random_state=1), param_grid, cv=5, scoring='accuracy') grid_search.fit(x_train_tfidf, y_train) # 获取最佳参数 best_params = grid_search.best_params_ print("最优参数:", best_params) # 使用最佳参数构建新的随机森林模型 best_rfc = RandomForestClassifier(**best_params, random_state=1) best_rfc.fit(x_train_tfidf, y_train) # 训练集评估 y_pred_train = best_rfc.predict(x_train_tfidf) print("训练集结果:") print("Accuracy:", accuracy_score(y_train, y_pred_train)) print("Precision:", precision_score(y_train, y_pred_train, average='weighted')) print("Recall:", recall_score(y_train, y_pred_train, average='weighted')) print("F1 Score:", f1_score(y_train, y_pred_train, average='weighted')) print("AUC-ROC:", roc_auc_score(y_train, y_pred_train)) # 验证集评估 y_pred_val = best_rfc.predict(x_val_tfidf) print("\n验证集结果:") print("Accuracy:", accuracy_score(y_val, y_pred_val)) print("Precision:", precision_score(y_val, y_pred_val, average='weighted')) print("Recall:", recall_score(y_val, y_pred_val, average='weighted')) print("F1 Score:", f1_score(y_val, y_pred_val, average='weighted')) print("AUC-ROC:", roc_auc_score(y_val, y_pred_val))

这个例子使用了20Newsgroups数据集，这是一个预处理过的文本分类数据集。您可以将这部分替换为您实际的数据集。通过使用GridSearchCV进行参数搜索，我们能获得一组更好的超参数，然后基于这些参数构建的模型应该能够提供更有意义的评估指标。注意在计算精度和召回率时，我们使用了average='weighted'，这意味着结果会根据各个类别的权重进行加权求和，有助于处理类别不平衡的问题。

如果您仍然遇到精度和召回率为NaN的情况，请检查您的数据是否存在类别分布严重不均衡的问题，或者模型是否过拟合。在这种情况下，您可能需要进一步探索正则化、欠采样、过采样或SMOTE技术来改善模型性能。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

随机森林模型：基于天气数据集的分类任务全流程解析
2025-09-15 15:22

数据夜航船的博客 sklearn.preprocessing 分类型特征编码（LabelEncoder） sklearn.model_selection 数据集拆分（训练集 / 测试集） sklearn.metrics 分类模型评估（准确率、精确率、F1 值等）三、随机森林核心原理铺垫在实战前，先...
基于Python的智能决策支持系统：实现智能化决策的关键要素
2023-07-23 01:15

光子AI的博客 Python作为一种高效、灵活且功能强大的编程语言，提供了丰富的库和工具，极大地推动了智能决策支持系统的发展。随着大数据和人工智能技术的不断发展，基于Python的智能决策支持系统将在更多领域得到应用和推广。
通过一个经典且非常适合初学者的机器学习项目——泰坦尼克号生还者预测，来完整地走一遍机器学习的全流程。让Python语言实现“机器学习”小项目教程案例
2025-10-16 09:46

zzywxc787的博客采用随机森林算法建模，在验证集上达到82%准确率；最后生成预测结果。项目重点训练了Python数据处理（Pandas）、可视化（Matplotlib/Seaborn）和建模（Scikit-learn）技能，同时演示了如何利用AI辅助编程。该案例为...
人工智能发展历史与常见名词解释
2022-07-23 14:25

Lvan的前端笔记的博客常用算法： Find-S 决策树 随机森林算法神经网络深度学习机器学习发展发展，就出现了很多新的方法，例如深度学习，DeepLearning，简称DL。深度学习是机器学习的众多方法之一。深度学习是机器学习研究中的一个新...
Titanic_ML_Competitons：使用Titanic Dataset的ML项目，这是Kaggle的入门比赛（描述为土耳其语，因为该比赛有很多英语来源）
2021-03-03 16:40

在 Titanic 项目中，常见的模型包括逻辑回归、决策树、随机森林、支持向量机、梯度提升机（如 XGBoost 或 LightGBM）以及神经网络。每个模型都有其优缺点，选择哪种模型取决于问题的性质和数据的特性。模型训练通常...
数据科学赛道夺冠关键：Python+Pandas+机器学习模型调优实战
2025-10-02 10:01

GatherLume的博客掌握数据科学赛道夺冠关键，从Python+Pandas到机器学习模型调优全覆盖。本篇作为「编程挑战赛备战指南:各赛道技术栈与获奖技巧解析」核心章节，详解特征工程、交叉验证与模型融合等实战技巧，提升算法效率与得分稳定...
Python机器学习：从入门到精通
2025-07-18 17:01

莲华君的博客当您翻开此书，您正踏入一场数据与智慧的修行。机器学习，并非冰冷的符码，而是机器模拟人类洞察...愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂、化繁为简的“智慧之眼”。现在，让我们一同启程。
datasets
2021-03-09 13:47

常见的模型有线性回归、逻辑回归、支持向量机、决策树、随机森林和神经网络等。 5. 评估：训练完成后，需要使用验证集或交叉验证来评估模型的性能。常见的评估指标有准确率、精确率、召回率、F1分数、AUC-ROC曲线等...
Python深度学习：从入门到精通
2025-07-21 15:39

莲华君的博客本书将带您从最基础的数学原理出发，亲手搭建神经网络，驾驭Transformer等前沿模型，最终将智慧转化为现实世界的价值。请放下畏惧，保持好奇。这不仅是一次知识的学习，更是一场思维的远行。来，随我一起，开启这趟...
DS/ML：数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
2022-12-31 23:47

一个处女座的程序猿的博客 ML之FE：特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其代码实现 3.2、模型搭建与训练 3.2.1、选择算法...
为什么顶尖科技公司都在用Clang做代码检测？真相令人震惊
2026-01-01 14:59

InstrIsle的博客第一章：为什么顶尖科技公司都在...MTTR降至8分钟人工日志排查 NLP日志聚类分析异常识别效率提升7倍智能告警闭环流程：监控采集 → 特征提取 → 模型推理（随机森林） → 告警分级 → 自动工单创建 → 执行预案脚本
机器学习入门基础（万字总结）（建议收藏！！！）
2022-12-04 22:36

subsistent的博客数据挖掘在商业智能中有许多应用，特别是在决策辅助、流程优化和精确营销中。例如：广告公司可以使用用户的浏览历史记录、访问记录、点击记录和购买信息来准确地宣传广告。采用舆论分析，尤其是情感分析，可以提取...
Python实战：构建自动股票交易系统
2025-06-14 19:57

Nate Hillick的博客 Python作为一门广泛应用于数据科学和金融分析的语言，以其简洁的语法、强大的库支持和活跃的社区，成为开发自动化交易系统的首选。机器学习，作为数据分析和预测的强大工具，在股票价格预测领域应用广泛。其模型通常...
如何在30分钟内用Open-AutoGLM完成一次完整的AutoML任务？
2025-12-24 16:35

ByteShoal的博客快速掌握AutoML全流程，无需编程基础。通过Open-AutoGLM web操作网页，在30分钟内完成数据上传、模型训练与结果分析，适用于分类、回归等常见任务。自动化特征工程与超参优化提升效率，降低AI应用门槛。值得收藏的...
人工智能与专家系统：导论与实践
2025-08-10 03:36

王小约的博客它通常通过计算机科学构建复杂系统，这些系统能够执行任务通常需要人类智能，例如视觉感知、语音识别、决策和语言翻译等。AI之所以重要，是因为它能够提高效率、减少人为错误、处理大规模数据，并且为诸如自动驾驶...
华为杯数学建模D题：乳腺癌药物优化模型解答
2025-08-08 23:45

宁南山的博客 精确率专注于模型的正类别预测的准确程度，它能告诉我们在预测为正类别的实例中，真正为正类别的比例有多高。召回率衡量的是模型能够识别出所有正类别的实例的比例。它对于那些漏掉正类别样本代价很高的情况特别...
Open-AutoGLM实战评测：3大核心功能让零代码AI建模成为现实
2025-12-27 09:56

QuickProceed的博客 Open-AutoGLM 使用体验显示，其三大核心功能助力零代码AI建模。适用于金融预测、智能客服等场景，通过自动化特征工程、模型选择与调参提升效率。操作直观，无需编程基础，快速部署AI应用，值得收藏并点击了解。
汽车贷款信用评级分析及模型构建实战
2025-06-06 13:33

丰雅的博客 3.3 模型评估与诊断 3.3.1 模型性能评估指标在评估逻辑回归模型时，常用的指标包括准确率、精确率、召回率、F1分数和ROC曲线等。这些指标能够从不同角度衡量模型的性能，对于信贷评级模型尤其需要关注的是ROC-AUC...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日

随机森林调优时精确率为空值

4条回答 默认 最新

问题事件

4条回答默认最新