m0_74946741 2024-03-06 18:53 采纳率: 75%
浏览 8
已结题

训练模型时显存使用问题

深度学习训练模型时,gpu占用率很高,有九十几,但是显存使用(memory usage)为N/A这种是什么情况哇,感谢大家帮忙

img

  • 写回答

4条回答 默认 最新

  • 专家-赤兔[在线] 全栈领域优质创作者 2024-03-06 18:54
    关注

    引自免费微信小程序:皆我百晓生

    在深度学习训练过程中,如果你发现GPU占用率很高(例如达到90%以上),但是显存使用(memory usage)显示为N/A,这可能是因为:

    1. 监控工具问题:你所使用的GPU监控工具(如nvidia-smi或TensorBoard等)可能没有正确报告显存使用情况。尝试重启监控工具或者确保其权限设置可以访问到正确的GPU信息。

    2. 库或框架未报告显存:某些深度学习框架在不显式调用时可能不会自动报告当前的显存使用情况。例如,在PyTorch中,你可以通过torch.cuda.memory_allocated()torch.cuda.memory_cached()来获取详细的显存使用数据。

    3. 动态内存分配:深度学习库通常会动态地分配和释放显存资源,尤其是在模型正向传播、反向传播及优化步骤之间。如果模型在训练过程中显存分配不稳定,可能会导致监控工具无法准确抓取实时显存占用值。

    4. CUDA版本或驱动问题:确保你的CUDA版本与GPU驱动程序兼容,并已更新至最新版,以避免因软件层面的问题导致显存无法正常报告。

    解决策略:

    • 手动检查显存使用:可以通过编程方式查看显存使用情况:
    import torch
    
    # 获取当前设备上的总显存
    total_memory = torch.cuda.get_device_properties(0).total_memory / 1024 ** 3  # 单位转换为GB
    
    # 查看当前已经分配的显存
    used_memory = torch.cuda.memory_allocated() / 1024 ** 3
    
    print(f"Total GPU memory: {total_memory:.2f} GB")
    print(f"Currently allocated GPU memory: {used_memory:.2f} GB")
    
    • 优化模型与训练参数:即便监控不到显存使用,你也应关注是否出现“Out of Memory”错误,如果有,则需要考虑减少批次大小(batch size)、模型剪枝(prune the model)、梯度累积(gradient accumulation)等方法来降低单次迭代所需的显存。

    • 监视并清理缓存:在训练循环前后,显存中的部分空间会被临时占用作为缓存,尽管这部分理论上会在不需要时自动释放,但有时手动进行显存管理可以更高效。在PyTorch中,可以使用如下代码清空缓存:

    torch.cuda.empty_cache()
    

    总之,请先确认监测工具和环境配置无误,然后结合实际代码运行情况进行排查和优化。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 3月21日
  • 已采纳回答 3月13日
  • 创建了问题 3月6日

悬赏问题

  • ¥15 单纯型python实现编译报错
  • ¥15 c++2013读写oracle
  • ¥15 c++ gmssl sm2验签demo
  • ¥15 关于模的完全剩余系(关键词-数学方法)
  • ¥15 有没有人懂这个博图程序怎么写,还要跟SFB连接,真的不会,求帮助
  • ¥15 PVE8.2.7无法成功使用a5000的vGPU,什么原因
  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音