联邦学习vgg修改最后一个全连接层报错（默认是1000个输出，我的改为11就报错，改为200就没问题）

联邦学习代码，我想实现vgg16训练自己的数据集，我的数据集28*28的灰度图，共11个类别，只要把
model.classifier[6] = nn.Linear(4096,1000,bias=True)
改为
model.classifier[6] = nn.Linear(4096,11,bias=True)
就会报错（resnet50 和alexnet就没这个问题）

Assertion `t >= 0 && t < n_classes` failed.
  torch.ones_like(out, memory_format=torch.preserve_format)
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

而我如果改成：
model.classifier[6] = nn.Linear(4096,200,bias=True)就不报错
各位老哥帮忙解决一下
下面的是我有问题的vgg模型



VGG(
  (features): Sequential(
    (0): Conv2d(1, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (18): ReLU(inplace=True)
    (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (20): ReLU(inplace=True)
    (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (22): ReLU(inplace=True)
    (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (25): ReLU(inplace=True)
    (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (27): ReLU(inplace=True)
    (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (29): ReLU(inplace=True)
    (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(7, 7))
  (classifier): Sequential(
    (0): Linear(in_features=25088, out_features=4096, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.8, inplace=False)
    (3): Linear(in_features=4096, out_features=4096, bias=True)
    (4): ReLU(inplace=True)
    (5): Dropout(p=0.8, inplace=False)
    (6): Linear(in_features=4096, out_features=11, bias=True)
  )
)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-12 14:42
关注
获得0.75元问题酬金
引自免费微信小程序：皆我百晓生

针对您遇到的问题，您在尝试将VGG16模型的最后一个全连接层（model.classifier[6]）的输出维度从1000修改为11时，遇到了特定的运行时错误。根据您提供的信息，错误提示包括一个设备端断言触发（CUDA error: device-side assert triggered）以及与类别的数量有关的断言失败（Assertion t >= 0 && t < n_classes failed.）。您提到ResNet50和AlexNet在同样的修改操作下没有问题，这表明问题可能与VGG16模型结构或您的训练设置有关。

以下是针对您描述的问题，可能的排查步骤及解决方案：

检查数据标签：确保您的数据集标签（ground truth labels）都是有效的整数索引，并且范围在0到10之间（对应于您数据集的11个类别）。如果存在标签超出此范围的情况，可能会触发上述错误。可以使用以下代码检查数据集中标签的有效性：

import numpy as np # 假设您的标签存储在一个numpy数组labels中 labels = ... # 获取您的标签数据 invalid_labels = np.where((labels < 0) | (labels >= 11))[0] if len(invalid_labels) > 0: print(f"发现{len(invalid_labels)}个无效标签：{invalid_labels}") else: print("所有标签有效")

检查损失函数：确认您使用的损失函数是否适用于多分类任务且与您的修改后的输出维度兼容。对于多分类问题，常用的损失函数如CrossEntropyLoss应能正确处理不同数量的类别。查看您的训练代码，确认损失函数的定义和使用：

from torch.nn import CrossEntropyLoss criterion = CrossEntropyLoss()

如果您使用了其他自定义损失函数或参数，请确保它们与新的输出维度相匹配。

检查优化器状态：如果您在修改模型结构前已经对模型进行过预训练或微调，那么优化器可能保存了与原模型结构相关的状态。在修改模型后，需要重新初始化优化器，以避免潜在的不匹配问题：

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum, weight_decay=weight_decay)

验证模型在CPU上的行为：将模型和数据转移到CPU上进行训练，以排除可能的CUDA相关问题。如果在CPU上训练没有问题，那可能是CUDA环境或版本导致的异常。您可以尝试更新PyTorch版本或检查CUDA安装。

逐步调整输出维度：为了进一步定位问题，可以尝试逐步减小输出维度（如从1000到500、250等），观察在哪个点开始出现错误。这有助于确定是否存在特定输出维度值导致的问题。

启用CUDA_LAUNCH_BLOCKING=1：根据错误提示，可以尝试在运行训练脚本时设置环境变量CUDA_LAUNCH_BLOCKING=1，以便在发生CUDA错误时获取更准确的堆栈跟踪，有助于定位问题所在：

export CUDA_LAUNCH_BLOCKING=1 python your_training_script.py

如果以上步骤未能解决问题，请分享更多关于训练设置（如损失函数、优化器、数据加载等）和完整的错误堆栈信息，以便进行更深入的分析。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何将三通道改为一通道 python pytorch 机器学习
2023-03-14 21:53

回答 3 已采纳若要将AlexNet的三通道调整为一通道，可以在模型定义时修改第一层卷积层的输入通道数。具体地，在BuildAlexNet类中，找到self.features，即AlexNet的特征提取部分，将其中的
keras 二分类预测结果几乎全是一个值 keras python 有问必答深度学习
2021-06-18 20:41

回答 2 已采纳应该是这个吧，你训练之后得到的模型是H，prediction = H.predict(img)
为什么在pytorch中使用VGG16不用预训练，自己从头训练猫狗分类，正确率只有74%就上不去了？ pytorch 深度学习神经网络
2021-10-21 23:53

回答 1 已采纳官方pretrain的模型数据集是imagenet，样本数是你这个数据集的很多倍，这样的vgg网络卷积层的参数基本收敛到比较好的一个情况，你直接用来finetune只要稍微微调一下最后的fc层就可以得
Pytorch中的VGG实现修改最后一层FC
2020-12-23 03:05

如果想要修改最后一层全连接层，以适应新的类别数，可以直接访问并替换VGG19模型中对应的Sequential模块的最后一个元素。例如，如果需要将分类数从100改为8，可以按照以下方式操作： ```python import torch.nn as ...
【深度学习】使用自己写的VGG16网络训练精度不提升 pytorch 深度学习神经网络
2022-05-30 00:00

回答 2 已采纳删除最后的softmax层，在内个relu之前加归一化就好了
Vgg16模型分析图片输出的向量维度可以改变吗？机器学习深度学习自然语言处理
2023-03-18 02:20

回答 5 已采纳参考GPT和自己的思路： Vgg16模型是一个预训练的深度卷积神经网络，它由若干个卷积层和池化层构成。在输入一张图片后，模型会输出一个特征向量，该向量的维度通常为1000，用来表示该图片的分类信息。这
ModuleNotFoundError: No module named 'vgg'明明有VGG，还出现这个错误 python pytorch 神经网络
2021-08-31 20:17

回答 2 已采纳 ?你import了么
pytorch: 学习笔记6, pytorch( 实现 )修改VGG16网络的全连接层为线性回归网络
2020-08-02 14:30

漫索之路的博客 pytorch实现VGG16网络的全连接层 import numpy as np import torch import torch.utils.data as Data import torch.nn.functional as F # 定义模型 : input-->fc1-->fc2-->predict # 25088-->4096--&...
关于fasterrcnn的train.py报错“段错误，核心已转储” pytorch 机器学习深度学习
2022-04-15 11:00

回答 1 已采纳错误请截取完整错误信息，就一个段错误，谁知道你是哪里的段错误
请问为什么我的精度能达到九十以上，但预测的结果值却不到0.5呢？ python 神经网络迁移学习
2022-05-24 11:49

回答 3 已采纳你这不像过拟合，不至于说几个epoch就过拟合了，你这是数据集有问题吧，要么数据集过小，要么训练集和验证集分布不均匀或者验证集过小，数据集重新整理下吧。还有就是加点数据增强的东西进去吧，简单的旋转转置
tensorflow2.x 深度学习使用相同梯度进行梯度下降的两个相同神经网络，得到的结果却不同 tensorflow 深度学习神经网络
2021-03-12 00:07

回答 2 已采纳在上面给的代码的第164行处插入 optimizer = optimizers.Adam(lr=1e-4) 重新初始化optimizer，这样两个模型训练后的测试结果就一样了，望采纳
卷积和全连接层的模型参数计算详解，详细到神经元个数一个个算，天啊，以VGG16为例
2022-10-06 10:04

小林同学记录的博客卷积层、全连接层参数计算，看一遍必会，详细到神经元一个个计算，oh my god
vgg16每次跑出的结果都相同 tensorflow 深度学习神经网络
2022-04-01 02:02

回答 1 已采纳可以调整参数，多运行几次（cpu跟gpu不影响结果，只是gpu运行快一点）
神经网络学习笔记（一）：全连接层的作用是什么？
2019-08-26 12:27

Dr Xplorer的博客以下是我看过最好的全连接层的解释！原文链接：卷积神经网络（CNN）入门讲解关注专栏以上图为例，我们仔细...当我第一次看到这个全连接层，我的第一个问题是：它是怎么样把3x3x5的输出，转换成1x4096的形式？ ...
VGG16网络结构修改全连接层可以实现输入图像尺寸的限制
2020-04-17 14:24

Godlovesea的博客 Q:因为权重文件的参数数量是提前预设好了的，如果改变输入图像的尺寸，那么在最后一层卷积层的输出就不是7*7*512 ，全连接层为1*1*4096 所需参数个数为 7*7*512*4096+4096 对224x224x3的输入，最后一层卷积可得...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月12日

悬赏问题

¥15 Stata链式中介效应代码修改
¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 添加组件无法加载页面,某块加载卡住
¥15 网络科学导论，网络控制
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错

联邦学习vgg修改最后一个全连接层报错（默认是1000个输出，我的改为11就报错，改为200就没问题）

21条回答 默认 最新

问题事件

悬赏问题

21条回答默认最新