训练集意外中断在训练

训练自己的训练集中间中断了，在使用代码python mytrain.py --epochs 2000 --resume runs/train/exp9/weights/last.pt
训练显示
AssertionError: runs\train\exp9\weights\last.pt training to 2000 epochs is finished, nothing to resume.
Start a new training without --resume, i.e. 'python train.py --weights runs\train\exp9\weights\last.pt'
可是并没有训练完只训练了400多次

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-03-16 23:57
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：在训练自己的训练集时，中间中断了，然后使用命令“python mytrain.py --epochs 2000 --resume runs/train/exp9/weights/last.pt”恢复训练，但是出现了错误信息：AssertionError: runs\train\exp9\weights\last.pt training to 2000 epochs is finished, nothing to resume. 提示已经完成训练2000轮，无需恢复训练，而实际上只训练了400多轮。解决方案：该问题的原因是自己在训练时中断了训练，而并没有重新保存模型参数，导致在恢复训练时出现了错误信息。因此，需要重新训练模型，并保存模型参数。正确的命令应该是“python mytrain.py --epochs 2000 --weights runs/train/exp9/weights/last.pt”，即不使用--resume参数，手动指定模型参数的路径，而不是使用--resume参数自动获取参数路径。代码示例：
import torch from torch.utils.data import DataLoader from torch.optim import Adam def train_model(dataset, model, device='cuda'): train_loader = DataLoader(dataset, batch_size=32, shuffle=True) optimizer = Adam(model.parameters(), lr=1e-3) criterion = torch.nn.CrossEntropyLoss() # 加载预训练模型路径 pretrained_path = 'runs/train/exp9/weights/last.pt' if pretrained_path: state_dict = torch.load(pretrained_path, map_location=device) model.load_state_dict(state_dict) # 训练模型 model.to(device) for epoch in range(1, 2001): model.train() for idx, (inputs, labels) in enumerate(train_loader): inputs = inputs.to(device) labels = labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() if idx % 50 == 0: print('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}'.format( epoch, 2000, idx, len(train_loader), loss.item())) if epoch % 100 == 0: # 保存模型参数 save_path = 'runs/train/exp9/weights/last.pt' torch.save(model.state_dict(), save_path) if __name__ == '__main__': # 加载数据集和模型 dataset = MyDataset() model = MyModel() # 训练模型 train_model(dataset, model)

在训练模型时，需要手动指定预训练模型的路径，并在每轮训练后保存模型参数。这样就可以避免训练过程中中断时导致参数无法恢复的问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

训练集和测试集比例设置问题 python 人工智能神经网络
2021-11-11 11:34

回答 2 已采纳单纯的增加训练集 理论上因为泛化性更强了，更多情况下测试结果会有提高，实际场景中一般8：2 、 9：1都有的，这种一般都可以自己调控的训练时候可以都运行下，还有交叉验证啥的只有去跑模型对比才知道
训练集效果比验证集效果差自然语言处理语言模型
2022-06-15 15:37

回答 1 已采纳这种情况要么就是模型本身参数设置和结构的问题，要么就是数据集少了，一般不会出现训练集比测试集还差
训练集和测试集几乎一样，该怎么划分人工智能
2021-09-17 09:55

回答 1 已采纳监控视频里面截取的？如果几乎一摸一样，建议删除掉这部分重复的吧，留下一些就可以，多余的对于数据集来说没有多大的意义，反而训练时间变长了。对于数据集来说，最终要的是要看数据的分布情况而不是数量，分布越广
AI训练Checkpoint对存储的影响
2024-06-17 22:38

古猫先生的博客数据并行训练中的效率考虑：在数据并行的设置下，由于所有GPU上运行的是模型的相同副本，只需保存一个GPU上的模型实例即可，无需为每个GPU都保存一份完整的内存状态。顺序读取检查点文件：通常情况下，检查点文件是...
为什么在有的Yolov5数据集只划分了训练集和验证集机器学习计算机视觉
2022-05-09 19:49

回答 1 已采纳 训练集相当于课后的作业，用于日常的知识巩固验证集相当于月考，用来纠正和强化学到的知识测试集相当于期末考试，用来最终评估学习效果测试集并不会影响模型最终的性能。
如何预处理图片划分训练集和测试集 pytorch 机器学习计算机视觉
2023-01-23 18:01

回答 3 已采纳比如你的网络需要输入width x height 的灰度图那么你将所有图片读入变量images中，不管是jpg或者bmp或者别的格式；然后将images中的所有图片判断其通道，不是单通道就转换通道，
神经网络训练集添加高斯噪声 python 开发语言神经网络
2021-02-01 11:00

回答 1 已采纳 1，如果网路中使用了normalization层，则不需要重新归一化； 2，如果不放心，可以使用“截断”，让小于0的变成0，大于1的变成1即可。
在手写数字识别MNIST上实现模型固定间隔的保存以及意外中断的恢复训练！
2024-07-14 15:19

Andy--Dufresne的博客 2.训练意外中断时从保存的最近检查点恢复训练；这两个目的。所以就从最简单的CNN手写数字识别任务上做了尝试，这份代码应该是直接copy就能跑通的，大家可以训一半epoch自己中断一下(ctrl+c)再重新训试试，应该是可以...
神经网络训练集损失值降为0而且一直保持 python 深度学习神经网络
2022-02-25 12:13

回答 1 已采纳（1）你没有给出模型，数据情况，谁也分析不了（2）训练误差小，测试误差大，这是典型的过拟合（3）损失值降为 0，还是下降很快，接近于 0，这是完全不同的，从问题描述和图中看不出来
swin transformer训练数据集如何添加负样本人工智能深度学习目标检测
2023-03-17 18:46

回答 7 已采纳参考GPT和自己的思路，1.添加负样本的方法负样本是指不属于目标类别的样本，一般用于训练分类器或检测器来增加模型的泛化能力。添加负样本的方式可以是随机采样、手动选择或者从其他数据集中选择。在训练过程中
LSTM模型可以训练怎样的数据集？人工智能深度学习神经网络自然语言处理
2020-04-18 17:08

回答 1 已采纳 LSTM主要用来学习序列，并且序列的变化的影响因子和序列本身有关或者周期性波动。比如说文本预测，每天每周每年的销量别的也可以学，但是效果未必很好。
VGG16实现Cifar10分类训练模型
2022-02-04 21:02

这有助于防止训练过程中的意外中断，或者当发现模型在验证集上的性能开始下降时，可以从之前的最优状态恢复。在训练过程中，可能会遇到过拟合的问题。为了缓解过拟合，可以使用正则化技术，如L1或L2正则化，或者...
R语言弄训练集和验证集出错 r语言
2021-08-17 01:03

回答 1 已采纳解决好了，用管理员身份启动r studio就可以下载了
yolov8训练
2023-11-14 11:04

图灵追慕者的博客训练深度学习模型包括向其提供数据并调整其参数，以便其能够做出准确的预测。Ultralytics YOLOv8中的训练模式旨在充分利用现代硬件功能，对目标检测模型进行有效和高效的训练。本指南旨在涵盖使用YOLOv8强大的一组...
YOLOv5如何训练自己的数据集
2022-11-30 21:06

qq_42475191的博客 487行：断续训练，如果说在训练过程中意外地中断，那么下一次可以在这里填True，会接着上一次runs/exp继续训练 496行：GPU加速，填0是电脑默认的CUDA，前提是电脑已经安装了CUDA才能GPU加速训练，安装过程可查博客 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月16日

悬赏问题

¥30 模拟电路 logisim
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价

训练集意外中断在训练

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新