多标签分类模型循环问题

问题遇到的现象和发生背景

循环训练模型。我在循环训练模型的时候，随机打乱了训练数据，最后得到的结果都是一样的。我尝试单独运行5和10迭代次数，结果不一样。按理来说循环结果应该是不一样的，但是出现了结果完全相同的结果。

问题相关代码，请勿粘贴截图

# 随机选取训练集，并训练模型，并得到各个模型预测结果
def train_m(m):
    """
    :param m: 设置模型数目
    :return: 返回m个模型
    """
    model = {}  # 设置空的字典，用以存储模型或预测结果
    pred = {}
    i = 0
    while i < m:
        row_rand = np.random.permutation(train)  # 打乱数据顺序（使链排序为随机）
        row_rand_data = row_rand[..., 0:74]
        row_rand_label = row_rand[..., 74:134]

        # 训练模型，将所有模型存储在字典中
        clf = ClassifierChain(LGBMClassifier())
        clf_i = clf.fit(row_rand_data, row_rand_label)
        clf_i_copy = copy.copy(clf_i)
        model['%s'%i] = clf_i_copy

        # 预测，将所有预测结果存储在字典中，并将结果转换为数组toarray()
        pred_i = clf_i.predict(test_data).toarray()
        pred_i_copy = copy.copy(pred_i)
        pred['%s'%i] = pred_i_copy

        i = i + 1

    return model, pred

# 计算权重，得到最终预测结果
def w_pred_get(prediction_all, ft):
    w = prediction_all['0']
    num = 0
    i = j = 0
    # 统计预测标签数目
    while i < np.shape(prediction_all['0'])[0]:
        while j < np.shape(prediction_all['0'])[1]:
            for value in prediction_all.values():
                if value[i, j] == 1:
                    num = num + 1
            w[i, j] = num
            num = 0
            j = j + 1
        j = 0
        i = i + 1
    w = w/len(prediction_all) # 得到权值

    # 设置阈值ft，得到最终预测结果
    condition = w < ft
    condition2 = w >= ft
    prediction = np.where(condition, w, 1)
    prediction = np.where(condition2, prediction, 0)

    return prediction, w


# 查看不同迭代次数对于acc的影响，并进行可视化
for t in np.arange(5, 20, 5):
    model_it, pred_it = train_m(t)
    pred_w, w = w_pred_get(pred_it, 0.5)
    Subset_Accuracy = accuracy_score(pred_w, test_label)
    print(t, Subset_Accuracy)
    t = t + 5

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
herosunly Python领域优质创作者 2022-07-29 10:30
关注
我先确认个问题哈，train的行现在的物理含义是什么？一般来说，行代表样本，列表示特征。但如果是这样的话就是不对的，对样本的顺序进行打乱以后并不会改变分类器的效果，这个是需要对列的顺序进行打乱。比如昨天帖子里的from skmultilearn.problem_transform import ClassifierChain，本质上是先根据x预测y1，然后再根据x、y1预测y2，以此类推，所以需要对y的顺序进行重排。所以您先确认一下行与列的物理含义对不对，如果是对的话，我再看看别的问题。

row_rand = np.random.permutation(train) # 打乱数据顺序（使链排序为随机） row_rand_data = row_rand[..., 0:74] row_rand_label = row_rand[..., 74:134]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

多标签分类模型循环问题 python 分类机器学习
2022-07-28 20:44

回答 3 已采纳我先确认个问题哈，train的行现在的物理含义是什么？一般来说，行代表样本，列表示特征。但如果是这样的话就是不对的，对样本的顺序进行打乱以后并不会改变分类器的效果，这个是需要对列的顺序进行打乱。比如昨
多标签文本分类模型训练后在验证集上F1值为0 pytorch 分类自然语言处理
2023-04-16 13:55

回答 2 已采纳你好，根据你提供的信息，可能有以下几个原因：数据集问题：可能训练集和验证集的数据分布不一致，导致模型在验证集上表现不佳。建议检查一下数据集是否存在标签分布不均衡的情况。模型问题：可能预训练模型Ro
ANN模型多项分类的问题？ tensorflow 机器学习深度学习神经网络
2021-01-08 03:03

回答 7 已采纳都不用看代码，就这句“最后得出来的数据在（0,1）这个范围，然后0-0.33的归类为0, 0.33-0.67的归类为0.5, 0.67-1的归类为1” 就不对了。二分类出来的其实也
【论文精度】CodeBERT——基于自然语言和编程语言的预训练模型
2022-12-28 23:51

marasimc的博客【论文精度】CodeBERT，一种用于编程语言（PL）和自然语言（NL）的双模态预训练模型CodeBERT，CodeBERT学习了通用表示，支持自然语言代码搜索、代码文档生成等下游NL-PL任务。
想知道最新的New bing的语言模型版本人工智能自然语言处理语言模型
2023-03-09 21:01

回答 1 已采纳 Bing AI可能会利用微软深度学习框架中的预训练语言模型，例如Bert和GPT等。Bing AI也会结合自己的算法和数据集，不断优化和改进语言模型的性能，微软研究团队在不久前推出了最新的预训练语言模
高斯混合模型分类结果 r语言分类
2022-12-28 20:21

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！我之前是使用 mclust 包中的 predict() 函数对数据进行预测，该函数会返回每个数据点属于哪一类的类别标签。代码如下先安装并导入 mcl
【R语言】加权线性回归模型，PSU问题 r语言线性回归
2023-03-01 23:28

回答 1 已采纳其中一个层（第 65 层）中只有一个 PSU（主要抽样单位），这导致调查设计出现问题。你参考一下这个： # Filter out Stratum 65 d_rec_filtered <- d_r
大语言模型LLM
2023-07-26 19:11

noobiee的博客 2020年1月，OpenAI发表了论文《Scaling Laws for Neural Language Models》，研究了基于交叉熵损失的语言模型性能的经验尺度法则，并且发现：大模型使用样本的效率显著更高，因此最优的高效训练方式是在中等数据集上...
关于fluxion语言选择误选怎么解决问题 linux 有问必答用户咨询语言模型
2023-02-07 01:11

回答 4 已采纳建议你看下这篇博客👉 ：fluxion部分功能的使用
多标签分类数据集问题——如果训练集中多标签图像很少，多标签分类是否可行？图像处理机器学习深度学习
2022-05-24 18:07

回答 3 已采纳 1、训练集中大部分图像只包含一种动物，只要整个训练集能较好的覆盖所要分类的动物种类，就可以进行分类。如果大部分图像都是某一种动物——猫，而其它种类动物的样本都很少，则训练效果不好。如果虽然每张图片中包
R语言bacon年龄深度模型指导 r语言有问必答
2022-03-18 19:51

回答 2 已采纳建议通过学习和研究文档来做。参考：https://mirrors.sjtug.sjtu.edu.cn/cran/web/packages/rbacon/vignettes/intro.htmlhttp
数据标签化：如何通过标签化数据进行文本分类和自然语言处理自然语言处理教程
2023-07-18 00:42

禅与计算机程序设计艺术的博客在自然语言处理中，词性标注、命名实体识别、句法分析、语义理解、语音合成、信息检索、文档摘要等功能需要对输入文本进行分析处理。这些任务通常都涉及到大量的数据处理工作。例如，给定一个文本序列（如一段话或一...
yolov5训练模型出问题 python 分类深度学习
2023-04-23 21:55

回答 2 已采纳分类请运行yolov5/classify/train.py这个文件，而不是yolov5/train.py,这两个是不一样的
Dennis Ritchie—— Unix之父, C 编程语言设计者
2023-07-28 01:11

禅与计算机程序设计艺术的博客 Dennis Ritchie - Unix之父,编程语言设计者》, 作者丹尼斯·里奇，美国计算机科学家、实验室教授、编程语言设计者、著名UNIX系统管理员、开源运动领袖。本书对Unix历史以及UNIX生态系统进行了完整的梳理，并结合...
大型语言模型综述（一）
2023-05-27 08:31

静静AI的博客作为一种主要的语言建模方法，在过去的二十年中，语言建模在语言理解和生成方面得到了广泛的研究，从统计语言模型发展到神经语言模型。最近，通过在大规模语料库上预训练Transformer模型，人们提出了预训练语言模型...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月28日

悬赏问题

¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示

多标签分类模型循环问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新