关于随机森林多分类的问题

最近在学习随机森林做多分类，做的是多类型的设备识别，代码是自己摸索着写的，求帮我看看代码有问题吗？有没有什么错误的地方？

import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
import pickle
import pandas as pd
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc


input_directory = "IoT_Labels_Extend"
all_files = sorted(os.listdir(input_directory))
counter = 1
data = None
labels = None

for i, item in enumerate(all_files, start=1):
    print(f"{i}: {item[:-4]}")

for item in all_files:
    if counter == 1:
        # 加载目标设备
        data = np.genfromtxt(os.path.join(input_directory, item), delimiter='\t')
        labels = [counter] * (data.shape[0])
    else:
        temp_data = np.genfromtxt(os.path.join(input_directory, item), delimiter='\t')
        temp_labels = [counter] * (temp_data.shape[0])
        # 合并训练集
        data = np.concatenate((data, temp_data), axis=0)
        # 合并标签
        labels.extend(temp_labels)
    counter = counter + 1
x_train, x_test, y_train, y_test = train_test_split(data, labels, test_size=0.3, random_state=42)
# 一百棵树，并且计算袋外准确度
rf = RandomForestClassifier(n_estimators=100, class_weight='balanced', oob_score=True)
# 训练
rf.fit(x_train, y_train)
# 使用测试集作为输入，进行预测
predicted = rf.predict(x_test)
print(predicted)
# 根据标签计算准确率
accuracy = accuracy_score(y_test, predicted)
# 输出袋外准确度
print(rf.oob_score_)
# 输出预测准确率
print(accuracy)
# 打印分类报告
print(classification_report(y_test, predicted))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-03-12 09:55
关注
引自免费微信小程序：皆我百晓生

根据您提供的代码，我注意到您在使用随机森林进行多分类时的一些关键点。首先，让我们分析并确认代码逻辑是否正确：

您从指定目录下读取多个文件，并将数据合并到一个numpy数组data中，同时将对应的标签存储在列表labels中。每个文件对应一类设备，通过循环和计数器counter来标记类别。

数据预处理部分看起来没有明显问题，但需要注意的是，labels的值应当是各个类别的标识符（如0、1、2等），而不是文件读取顺序的计数器。确保在加载文件时，将counter映射到实际类别ID上。

将数据划分为训练集和测试集，并使用RandomForestClassifier进行训练。这里设置了100棵树，并启用了袋外(out-of-bag, OOB)评估。

训练模型后，预测测试集结果，并计算准确率和其他评价指标。

针对可能出现的问题及改进意见：

标签编码：确保标签labels被适当地编码为数值类型，例如对于多分类任务，通常会将其转换为0、1、2...n的形式，n为类别总数。

# 假设类别总数为 n_classes n_classes = len(all_files) label_mapping = {i: idx for idx, i in enumerate(range(1, n_classes + 1))} labels = [label_mapping[cls_id] for cls_id in counter_list]

检查数据格式：确保输入数据的特征与目标变量之间具有正确的对应关系。您的代码中直接使用了np.genfromtxt读取的数据，需要保证每列数据都能作为有效特征用于分类。

模型评估：目前代码中只计算了准确率和OBB得分，针对多分类任务，还可以考虑绘制ROC曲线或计算每个类别的精度、召回率和F1分数。

以下是修改后的代码片段，用于对标签进行正确编码（假设类别编号从0开始）：

# ... unique_labels = list(set(counter_list)) # 获取所有不同的类别标签 n_classes = len(unique_labels) label_mapping = {i: idx for idx, i in enumerate(unique_labels)} labels = [label_mapping[label] for label in labels] # 确保y_train和y_test也是编码后的类别标签 y_train = np.array([label_mapping[lbl] for lbl in y_train]) y_test = np.array([label_mapping[lbl] for lbl in y_test]) # ...

最后，您可以尝试调整随机森林中的参数以优化模型性能，例如max_depth、min_samples_split等。另外，由于您提到是多类型的设备识别，如果类别不平衡，启用class_weight='balanced'是一个好的选择，不过也要视具体情况而定。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于随机森林的分类算法的matlab简单实现
2022-02-15 18:57

本项目提供的资源包含了一个简单的随机森林分类算法实现，以及相关的数据集和M文件，使得初学者能够快速理解和应用这一强大的机器学习模型。 随机森林的核心概念包括以下几个方面： 1. **决策树**：随机森林的基础...
分类算法：随机森林算法原理与应用
2024-07-14 08:48

kkchenjj的博客 随机森林通过集成多个决策树，利用自助抽样和随机特征选择来增加模型的多样性，从而提高预测的准确性和稳定性。...通过以上步骤，随机森林成为了一种强大且灵活的机器学习算法，适用于各种分类和回归任务。
分类算法系列⑥：随机森林
2023-09-04 20:10

逐梦苍穹的博客本文介绍机器学习当中一个非常重要的内容：随机森林。
数据结构与算法——知识点总结
2022-06-02 17:36

卷不动的程序猿的博客本文包含数据结构与算法主要的基本知识点，便于知识的梳理和回顾。如需详细了解具体知识点请自行结合课本或者网上查阅。目录 1、概述 2、线性表 3、栈 4、队列 5、串 6、多维数组和广义表 7、树和二叉树 ...
数据处理和分析之分类算法：随机森林(RandomForest)：随机森林算法原理
2024-10-03 20:30

kkchenkx的博客在实际应用中，随机森林经常被用于分类和回归任务，特别是在数据集特征较多或样本量较大的情况下。注意：上述总结部分是应您的要求而省略的，但在实际教程中，总结部分能够帮助读者回顾和巩固所学知识，是很有价值的...
数据处理和分析之分类算法：随机森林(RandomForest)：特征选择与降维
2024-10-03 20:31

kkchenkx的博客 随机森林(Random Forest)是一种集成学习方法，由Leo Breiman在2001年提出。...随机森林的每个决策树都是在数据集的随机子集上训练的，同时在每个节点选择特征时也采用随机方式，这使得模型具有很高的多样性和鲁棒性。
数据处理和分析之分类算法：随机森林(RandomForest)：数据预处理技术
2024-10-03 20:28

kkchenkx的博客在本节中，我们将使用一个经典的分类数据集——Iris数据集，来演示数据预处理技术在随机森林模型中的应用。Iris数据集包含了150个样本，每个样本有4个特征：萼片长度、萼片宽度、花瓣长度和花瓣宽度，以及一个分类...
【王道考研】王道数据结构与算法详细笔记（全）
2023-06-08 21:56

小强在学习的路上的博客线性表是具有相同数据类型的n(n>0)个数据元素的有限序列。(其中n为表长，当n=0时线性表是一个空表。若用L命名线性表，则其一般表示为)1. 存在惟一的第一个元素。2. 存在惟一的最后一个元素。3. 除第一个元素之外，每...
基于随机森林的鸢尾花（iris）数据集分类
2025-07-09 21:06

研小僧二期第二年的博客本文通过构建决策树数量为100的随机森林模型对鸢尾花数据集进行分类，通过混淆矩阵对测试效果进行可视化，验证了模型的识别准确率较为理想，通过特征分析提取重要特征，再将训练过程中决策树数量与误差率的关系进行...
数据处理和分析之分类算法：随机森林(RandomForest)：随机森林模型构建
2024-10-03 20:30

kkchenkx的博客具体来说，随机森林算法在构建每棵树时，都会从原始数据集中通过有放回的抽样方式生成一个新的数据集，这个过程称为自助抽样(Bootstrap Sampling)。同时，对于每个节点的分裂，算法只考虑特征子集中的最佳分裂，而...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月12日

关于随机森林多分类的问题

5条回答 默认 最新

问题事件

5条回答默认最新