多分类任务的分类效果极差

读取csv文件并进行8分类
csv文件数据集如下：

最后一列为label：1-8，即8分类
尝试：dag-SCM/简单的深度学习nn
问题：如果不进行normalization，则完全不学习，分类效果极差，acc=10，结果如下图：

进行normalization，prediction为0，无标签，混淆矩阵如下

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-02-28 07:19
关注
参考GPT和自己的思路，首先，您提到的csv文件似乎有一些格式问题。网络列之间似乎缺少空格或逗号分隔符，可能是由于剪切和粘贴时发生了错误。另外，您的第7列似乎也被拆分成了“network”和“8”的两个单词。如果您可以将数据格式化并重新发布，这将有助于更好地理解您的数据。

其次，您提到如果不进行数据标准化，分类效果很差，这是可以理解的。对于基于距离或相似度的算法（如SVM），如果不对输入数据进行标准化，则其中一些特征的值范围可能会远远大于其他特征。这将导致某些特征对距离度量的影响远大于其他特征，从而影响分类器的性能。

您提到尝试了两种算法：dag-SCM和简单的深度学习nn。无论您使用哪种算法，都应该在输入数据之前对其进行标准化。如果您使用的是深度学习算法，则通常会将数据标准化为均值为0，标准差为1的标准正态分布。如果您使用的是SVM等算法，则可以使用min-max标准化将所有特征缩放到0到1之间。

最后，关于您的混淆矩阵：如果分类器的预测结果与真实标签相差太远，那么混淆矩阵可能会变得非常不平衡。在这种情况下，精度不一定是最好的性能度量。您可以考虑使用其他度量，如F1分数或ROC曲线下面积（AUC），以更好地了解分类器的性能。
以下是使用Python中的pandas和scikit-learn库进行数据读取、归一化、训练和预测的示例代码：

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from sklearn.metrics import accuracy_score, confusion_matrix # 读取CSV文件 df = pd.read_csv('data.csv') # 分割特征和标签 X = df.iloc[:, :-1] y = df.iloc[:, -1] # 将数据集分割成训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 归一化特征数据 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 训练SVM分类器 clf = SVC(kernel='rbf', C=0.03125, gamma=3.0517578125e-05) clf.fit(X_train, y_train) # 在测试集上进行预测 y_pred = clf.predict(X_test) # 计算预测准确率和混淆矩阵 acc = accuracy_score(y_test, y_pred) cm = confusion_matrix(y_test, y_pred) print('Test accuracy:', acc) print('Confusion matrix:', cm)

请注意，上述示例代码中的SVM参数是使用GridSearchCV进行超参数优化后得到的最佳参数。您可以根据需要更改SVM的参数和超参数优化的方法。此外，如果您使用的是其他分类算法（例如神经网络），则需要相应地更改代码。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

xgboost二分类预测概率为什么二极化？数据挖掘机器学习
2019-12-24 14:22

回答 3 已采纳看你的激活函数，它是非线性的，所以可以让结果更偏向一边，这是故意为之，你不希望结果出来大部分都是0.5附近模棱两可的，对吧。
如何用python实现根据图片内圈定内容给批量相似度极高的图片分类 python 人工智能有问必答机器学习
2021-05-30 12:34

回答 2 已采纳最简单是用opencv的特征提取，找一个样本的图片，提取特征，然后去其他图片里面匹配。
机器学习中数据标准差极小的预处理策略人工智能数据挖掘机器学习深度学习
2019-09-05 11:16

回答 1 已采纳在吴恩达的机器学习教学中说过，归一化后-0.3到0.3的数据是极好的。肉眼看是没什么区分度，但是当你的数据特征维度稍大一些，比如十维，二十维，三十维，那么在对应的维度空间里，样本和样本之间的距离还是很
小白系列（1） | 计算机视觉之图像分类
2022-11-07 20:58

一点人工一点智能的博客这篇文章，是对图像分类的技术做了一个简单的入门级的介绍，包括图像分类的重要性、基于机器学习/深度学习的图像分类介绍、实际的应用方向等等。
Excel 一张表格到下一个列的极差
2015-07-30 09:15

回答 1 已采纳如果数据在A列，那么输入以下数据，得到相应结果最大值=MAX(A:A) 最小值=MIN(A:A) 极差=MAX(A:A)-MIN(A:A)
不理解书上于对极大似然估计的描述人工智能机器学习深度学习
2023-03-23 22:30

回答 2 已采纳 1、首先讨论楼主的第一个问题，为什么机器学习算法f(x)可以假设为概率函数？个人理解：结合楼主提供的图片信息，这里的机器学习算法应该是特指分类的算法，本图中的机器学习算法用大白话说就是，给定一个输入，
如何对用极差法数据框中的两列进行归一化处理至0~1 python
2022-12-27 21:25

回答 2 已采纳望采纳。可以使用 scikit-learn 中的 MinMaxScaler 类来将数据归一化到指定的范围。要只对数据帧中的某几列进行归一化，可以先选择这几列，然后再使用 MinMaxScaler 进
自然语言处理—文本分类综述/什么是文本分类
2021-11-22 15:19

Suprit的博客最近在学习文本分类，读了很多博主的文章，要么已经严重过时（还在一个劲介绍SVM、贝叶斯)，要么就是机器翻译的别人的英文论文，几乎看遍全文，竟然没有一篇能看的综述，花了一个月时间，参考了很多文献，特此写下此...
逻辑回归中的sigmoid函数为什么可以用来表示概率 python 分类回归有问必答
2022-06-08 21:52

回答 2 已采纳 sigmoid函数是一个常用的激活函数，它的表达式为它的图像为它可以把输入的连续实值转换为0到1之间的数字并输出，有两条渐近线分别为0和1，而此处0到1就表示分类的概率，它负责将神经元的输入映射
梯度下降的实现，如找二次函数的极小值点 python 人工智能机器学习
2022-10-11 15:24

回答 1 已采纳都一样，加法就是减法。他们一般用负梯度方向，因为国际上凸函数指的是往下凸的那种，所以一般常用负梯度方向，这样➕的话就相当于➖
关于边缘检测中canny算法中极大值抑制的问题人工智能自动驾驶
2020-04-08 11:55

回答 1 已采纳 https://blog.csdn.net/u010551600/article/details/80507271
CCF大数据与计算智能大赛-基于人工智能的漏洞数据分类冠军方案
2023-05-17 12:09

余俊晖的博客本文提出一种多任务文本分类算法，通过共享BERT embedding，设计多任务的损失函数，端到端的解决漏洞数据分类问题。最后通过大量的实验及相关模型优化，最终获得本次大赛冠军。
非极大值抑制在faster-rcnn的那个阶段 tensorflow 人工智能机器学习深度学习神经网络
2020-07-29 09:16

回答 1 已采纳 https://blog.csdn.net/tabsong_coke/article/details/94052984
图像分类方法总结
2022-05-15 10:29

程子的小段的博客因为VOC数据集是不同物种类别的数据集，所以本文主要研究讨论跨物种语义级别的图像分类任务。通常图像分类任务存在以下技术难点：（1）视角变化：同一个物体，摄像机可以从多个角度来展现。（2）大小变
Pytorch之ResNet图像分类
2023-09-30 15:21

Super.Bear的博客 2015 年，微软亚洲研究院何凯明等人发表了基于 Skip Connection 的深度残差...101 和 ResNet-152 等模型，甚至成功训练出层数达到 1202 层的极深层神经网络，斩获当年ImageNet竞赛中分类任务第一名，目标检测第一名。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月27日

悬赏问题

¥15 python变量和列表之间的相互影响
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 关于大棚监测的pcb板设计
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)

多分类任务的分类效果极差

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新