动手深度学习AlexNet问题提问

以下是我的代码，请问运行后为何会出现DataLoader worker (pid(s) 28432, 17060, 10920, 24856) exited unexpectedly的错误，该如何修改呢？是否和我的电脑硬件是cpu的配置有关？

import time
import torch
from torch import nn,optim
import torchvision

import sys
sys.path.append("C:/Users/zyx20/Desktop/深度学习编程/pythonProject")
import d2lzh_pytorch as d2l
device=torch.device('cuda' if torch.cuda.is_available() else 'cpu')
class Alexnet(nn.Module):
    def __init__(self):
        super(Alexnet,self).__init__()
        self.conv=nn.Sequential(nn.Conv2d(1,96,11,4),
                                nn.ReLU(),
                                nn.MaxPool2d(3,2),
                                nn.Conv2d(96,256,5,1,2),
                                nn.ReLU(),
                                nn.MaxPool2d(3,2))
        self.fc=nn.Sequential(
            nn.Linear(256*5*5,4096),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(4096,4096),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(4096,10)
        )
    def forward(self,img):
        feature=self.conv(img)
        output=self.fc(feature.view(img.shape[0],-1))
        return output
net=Alexnet()

def load_data_fashion_mnist(batch_size,resize=None,root='C:/Users/zyx20/Desktop/深度学习编程/MNIST/raw'):
    #Download the fashion minst dataset and then load into memory#
    trans=[]
    if resize:
        trans.append(torchvision.transforms.Resize(size=resize))
    trans.append(torchvision.transforms.ToTensor())

    transform=torchvision.transforms.Compose(trans)
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True,download=True, transform=transform)
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False,download=True, transform=transform)

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=4)
    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=4)

    return train_iter,test_iter

batch_size=128
train_iter,test_iter=load_data_fashion_mnist(batch_size,resize=124)
#训练
lr,num_epochs=0.001,5
optimizer=torch.optim.Adam(net.parameters(),lr=lr)
d2l.train_ch5(net,train_iter,test_iter,num_epochs,batch_size,optimizer,device,num_epochs)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-02-28 10:35
关注
引自免费微信小程序：皆我百晓生

在您的代码中，您尝试使用 torch.utils.data.DataLoader 并设置了 num_workers=4，这意味着您希望启动 4 个工作进程来并行加载数据。当出现 "DataLoader worker (pid(s) ...) exited unexpectedly" 错误时，这通常是由于以下几个原因：

环境问题：多进程模式下，Python 的子进程可能由于某些环境因素（如资源限制、权限不足或系统信号处理异常）而意外退出。
资源共享冲突：例如，如果您在 CPU 环境下运行，并且 CPU 资源紧张，或者数据集文件被多个worker同时访问导致I/O冲突，可能会导致 worker 进程崩溃。
数据预处理错误：如果数据预处理过程中存在未捕获的异常，当 worker 进程尝试对某个批次的数据进行预处理时，异常可能导致该进程终止。
CUDA 初始化问题：尽管您已经正确地根据设备情况选择是否使用 CUDA，但在多进程环境下，每个 worker 都需要能够安全地初始化 CUDA。有时候，即使是在 CPU 上运行，也会因全局 CUDA 状态的管理不当而导致问题。

解决此问题的步骤可以是：

减少工作进程数：首先，您可以尝试将 num_workers 设置为0，以确保问题不是由多进程引起的：

train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=0) test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=0)

检查代码和数据完整性：确保数据预处理函数没有未处理的异常，以及数据集中不存在损坏或无法读取的图片文件。

环境调整：对于多进程，确保您的操作系统支持足够的并发进程，适当增加系统资源或检查是否有其他程序占用过多资源。

CUDA与multiprocessing配合：如果之前有在同一个进程中初始化过CUDA上下文，那么在多进程环境下需要特别注意。可以尝试在每个 worker 中显式初始化 CUDA。

异常捕获：在数据加载的worker进程中添加适当的异常捕获机制，这样即便发生错误也能正常结束进程而不是崩溃。

请注意，在实际调试中，上述每一步都需结合实际情况逐一排查。对于CPU配置的机器，理论上不应该因为硬件配置直接导致此问题，但确实有可能因资源分配不合理或其他软件层面的因素造成。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python深度学习：从入门到精通
2025-07-21 15:39

莲华君的博客我们即将探索的，是深度学习的宇宙——一个由数据、算法与算力构筑的奇妙世界。它既是严谨的科学，也是创造的艺术，更是一条通往未来智慧的修行之路。本书将带您从最基础的数学原理出发，亲手搭建神经网络，驾驭...
深度学习的学习心法
2025-06-18 11:12

Snail_on_the_way的博客本文由AI生成, 是本人在学习深度学习过程中询问AI所得. 看了觉得很不错, 解决了我对深度学习以及AI学习的一些困惑, 故拿来分享给大家, 供有缘看到的朋友分享.
深度学习工程应用快速入门
2018-07-01 03:45

蔚1的博客然而，在实际的工程设计中，深度学习研发者总会面临着各种问题与困惑，比如：我们在设计深度网络的时候有什么技巧和原则吗？ VGG、ResNet 网络如何应用在实际的芯片上？ BN 层应该放在哪里比较合理？网络越深越好...
入门篇--人工智能发展史-2-什么是深度学习，深度学习的前世今生？
2025-12-18 11:10

weisian151的博客 深度学习是机器学习的一个分支，核心是构建“深层神经网络”来模拟人类大脑的神经元连接结构。输入：图片、文字、语音等原始数据；加工：通过多层网络（比如卷积层、全连接层）逐层提取特征——从边缘、纹理等简单...
Python深度学习：从零基础到项目实战
2026-01-04 13:29

莲华君的博客我们即将探索的，是深度学习的宇宙——一个由数据、算法与算力构筑的奇妙世界。它既是严谨的科学，也是创造的艺术，更是一条通往未来智慧的修行之路。本书将带您从最基础的数学原理出发，亲手搭建神经网络，驾驭...
深度学习相关文章
2024-03-14 20:42

瞻邈的博客介绍: 此书是斯坦福大学概率图模型大牛Daphne Koller所写，主要涉及的是贝叶斯网络和马尔科夫逻辑网络的learning和inference问题，同时又对PGM有深刻的理论解释，是学习概率图模型必看的书籍。迈克尔·I.乔丹是知名...
Python机器学习：从入门到精通
2025-07-18 17:01

莲华君的博客机器学习，并非冰冷的符码，而是机器模拟人类洞察世界的法门。本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿...
Python机器学习：从零基础到深度实战
2025-12-16 10:47

幻云2010的博客机器学习，并非冰冷的符码，而是机器模拟人类洞察世界的法门。本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿...
【深度学习Deep Learning】资料大全
2018-05-30 15:13

青豆1113的博客最近在学深度学习相关的东西，在网上搜集到了一些不错的资料，现在汇总一下：Free Online BooksDeep Learning66 by Yoshua Bengio, Ian Goodfellow and Aaron CourvilleNeural Networks and Deep Learning42 by ...
机器学习，深度学习的资料和工具库大全
2017-08-28 09:49

广告与算法的博客介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning. 《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月28日

动手深度学习AlexNet问题提问

3条回答 默认 最新

问题事件

3条回答默认最新