yolov11m进行自己数据集的训练时报错CUDA超出存储

我在使用yolov11的官方文档中的模型yolo11m进行自己数据集的训练时，总是报出下面的错误：
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 200.00 MiB. GPU 0 has a total capacity of 11.76 GiB of which 64.44 MiB is free. Process 3506601 has 11.69 GiB memory in use. Of the allocated memory 11.15 GiB is allocated by PyTorch, and 346.56 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
我不知道是不是因为我的数据集过大，有一万多张，而且在运行时我的GPU上只有这一个模型在跑，12G的显卡不知道怎么就被占用了11.69 G的存储，而且在监测GPU存储使用情况时只有几百M被使用。另外，使用yolo11n模型不会报错，使用yolo11s也会报错。如果使用yolo11m训练只有4张图片的coco数据集时也可以正常使用。
我在网络上找了相关问题的解决方案，但是都没有用。希望能得到大佬的指导。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-12-31 01:59
关注
该回答引用自GPT-deepseek, 由博主 GISer Liu 编写：

问题分析

用户在训练YOLOv11m模型时遇到了CUDA内存不足的错误。具体表现为：

错误信息：torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 200.00 MiB. GPU 0 has a total capacity of 11.76 GiB of which 64.44 MiB is free.
GPU使用情况：GPU总容量为11.76 GiB，当前已使用11.69 GiB，剩余64.44 MiB。
模型表现：
使用YOLOv11n模型时不会报错。
使用YOLOv11s模型时会报错。
使用YOLOv11m模型训练只有4张图片的COCO数据集时正常。

问题定位

模型复杂度：YOLOv11m模型比YOLOv11n模型更复杂，需要更多的显存。YOLOv11s模型介于两者之间，但依然可能导致显存不足。
数据集大小：用户的数据集有一万多张图片，训练时显存需求较大。
显存管理：PyTorch在显存管理上可能存在碎片化问题，导致显存无法充分利用。

解决方案

1. 减少批量大小（Batch Size）

批量大小是影响显存使用的主要因素之一。减少批量大小可以显著降低显存需求。

# 修改训练脚本中的批量大小 batch_size = 8 # 原批量大小 new_batch_size = 4 # 新批量大小

2. 使用梯度累积（Gradient Accumulation）

如果减少批量大小影响训练效果，可以使用梯度累积来模拟更大的批量大小。

# 修改训练脚本中的梯度累积步数 accumulation_steps = 2 # 梯度累积步数 optimizer.zero_grad() for i, (images, targets) in enumerate(train_loader): outputs = model(images) loss = criterion(outputs, targets) loss = loss / accumulation_steps loss.backward() if (i + 1) % accumulation_steps == 0: optimizer.step() optimizer.zero_grad()

3. 使用混合精度训练（Mixed Precision Training）

混合精度训练可以减少显存使用并加速训练。

from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() for images, targets in train_loader: optimizer.zero_grad() with autocast(): outputs = model(images) loss = criterion(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

4. 设置PyTorch显存管理环境变量

根据错误信息提示，可以设置PYTORCH_CUDA_ALLOC_CONF环境变量来优化显存管理。

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

5. 使用更小的模型或剪枝

如果以上方法仍无法解决问题，可以考虑使用更小的模型（如YOLOv11n）或对模型进行剪枝。

总结

通过减少批量大小、使用梯度累积、混合精度训练、优化显存管理等方法，可以有效解决CUDA内存不足的问题。如果问题依然存在，建议进一步检查数据集和模型结构，或考虑使用更大显存的GPU。

参考文档

PyTorch显存管理文档
混合精度训练文档

希望以上解决方案能帮助您顺利训练YOLOv11m模型！

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

YOLOv11【第三章：高阶应用与落地篇·第13节】医学图像格式详解——DICOM 与 NIfTI 格式转 YOLOv11 数据集！
2026-05-05 18:01

bug菌¹的博客本文收录于专栏《YOLOv11...本专栏围绕 YOLOv11 的改进、训练、部署与工程优化展开，系统梳理并复现当前主流的 YOLOv11 实战案例与优化方案，内容目前已覆盖分类、检测、分割、追踪、关键点、OBB 检测等多个方向。
YOLOv8【第十三章：模型压缩与极致优化篇·第11节】训练后量化（PTQ）：校准数据集的选择与精度恢复技巧！
2026-03-20 11:56

bug菌¹的博客本文收录于《YOLOv8实战：从入门到深度优化》专栏。该专栏系统复现并梳理全网各类 YOLOv8 改进与实战案例（当前已覆盖分类 / 检测 / 分割 / 追踪 / 关键点 / OBB 检测等方向），坚持持续更新 + 深度解析，质量分...
YOLOv8实战保姆级教程：从数据集标注到模型部署，自定义训练全流程避坑指南
2025-11-17 06:44

程序员威哥的博客作为一名常年和计算机视觉打交道的开发者，我发现很多同学在入门YOLOv8时，都会卡在“自定义数据集训练”这一步——要么是标注格式不对导致训练报错，要么是参数调得稀里糊涂导致mAP惨不忍睹，甚至有人连数据集目录...
YOLOv11训练日志分析要点
2025-12-29 16:19

LikYu-餘力的博客结合PyTorch-CUDA容器环境，系统解析YOLO训练日志中的损失、精度与硬件指标，提取可操作的调优信号。通过可视化分析和自动化判断，实现高效、可复现的目标检测模型训练，推动MLOps落地。
YOLOv11【第一章：零基础入门篇·第2节】一把搞定，数据集制作与标注完全指南！
2026-03-28 22:07

bug菌¹的博客本文收录于专栏《YOLOv11...本专栏围绕 YOLOv11 的改进、训练、部署与工程优化展开，系统梳理并复现当前主流的 YOLOv11 实战案例与优化方案，内容目前已覆盖分类、检测、分割、追踪、关键点、OBB 检测等多个方向。
yolov5—四万字深入浅出yolov5训练全过程！从未见过注释比代码还多的源码解析
2023-06-12 00:25

QTreeY123的博客 yolov5训练部分，非常详细的剖析每一行代码
YOLO11训练时的显存不足（CUDA OOM）问题解决：提供调整Batch Size、图像尺寸、使用梯度累积等解决方案
2025-12-22 13:33

Clf丶忆笙的博客当我们在训练YOLO11这类大型目标检测模型时，经常会遇到这个问题，尤其是在处理高分辨率图像或大批量数据时。从技术角度来看，CUDA OOM错误通常发生在以下几种情况：模型参数过大，超出GPU显存容量训练时的中间...
使用AutoDL训练YOLOv12计算机视觉网络模型（AutoDL+Xftp+VS Code），附详细操作步骤
2025-03-04 21:12

Limiiiing的博客 AutoDL AI算力云是一个提供人工智能算力服务的云平台。丰富的GPU资源：提供多种GPU型号，包括NVIDIA的A100A800L40V100RTX 4090RTX 3090等，能满足我们在不同场景下的需求，无论是进行大规模的AI训练还是复杂的科学...
告别手动复制粘贴！用Python脚本一键搞定Labelme标注转YOLOv8训练集（附自动划分数据集）
2026-04-02 09:51

Ais_ha_9的博客本文详细介绍了如何利用Python脚本将Labelme标注数据自动转换为YOLOv8训练集，包括数据标准化处理、智能转换算法、数据集划分策略及YOLOv8模型训练全流程。通过自动化处理，大幅提升计算机视觉项目中的数据标注和...
【YOLOv11工业级实战】30. 端到端优化实战：电池表面缺陷检测全流程（从数据标注到TensorRT部署，附完整可运行代码）
2025-10-07 17:09

元算子的博客摘要：本文针对新能源电池厂“人工质检效率低、漏检率高”的核心痛点，提供一套从数据采集到模型部署的完整工业级解决方案。以锂电池表面6类缺陷（划痕、凹陷、污染等）检测为目标，涵盖数据工程（采集、标注、增强...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月30日

yolov11m进行自己数据集的训练时报错CUDA超出存储

3条回答 默认 最新

问题分析

问题定位

解决方案

1. 减少批量大小（Batch Size）

2. 使用梯度累积（Gradient Accumulation）

3. 使用混合精度训练（Mixed Precision Training）

4. 设置PyTorch显存管理环境变量

5. 使用更小的模型或剪枝

总结

参考文档

问题事件

3条回答默认最新