Leowang980 2024-05-27 01:48 采纳率: 0%
浏览 151

训练时gpu占用率低

ML初学者,在用电脑跑李宏毅HW2时,已使用cuda,但cuda占用率只有四五十,且显存占用也很少

操作环境、软件版本等信息

vscode+anaconda+pytorch+rtx4080laptop

尝试过的解决方法

已关闭设置里的gpu优化

我想要达到的结果

不知道这种情况正不正常,风扇都不怎么转,训练速度也很慢,训练一次要接近二十分钟。如果不正常需要怎么解决,我知道可以用colab这些,但是想在本地环境试一下。

  • 写回答

4条回答 默认 最新

  • 檀越@新空间 2024-05-27 01:48
    关注

    上午好☀️☀️☀️️
    本答案参考ChatGPT-3.5

    首先,你需要确保你的硬件配置满足训练模型的需求,包括GPU的性能和显存容量。其次,你需要检查你的PyTorch和TensorFlow是否已经正确地安装,并且版本号与你的模型要求一致。

    1. 更新GPU驱动:如果可能的话,尝试更新你的显卡驱动到最新版本。

    2. 检查GPU利用率:你可以使用以下命令查看你的GPU在训练过程中的利用率:

    nvidia-smi
    
    1. 优化GPU资源:你可以通过以下方式来提高你的GPU利用率:

      • 使用CUDA API来优化模型的计算密集型操作。

      • 如果你有足够的显存空间,可以考虑减少你的模型参数的数量。

      • 如果你的CPU核心数量不足,也可以考虑增加它。

      • 在GPU的使用高峰期,你可以使用OpenMP来优化多核的计算。

    2. 设置合适的超参数:在训练过程中,你可能需要调整一些超参数来优化你的模型性能,如学习率、批次大小、优化器类型等。

    3. 调整设置:最后,确保你在“GPU”和“Other”选项中都设置了正确的选择,以便你看到GPU的利用率和状态。

    4. 避免其他任务阻塞GPU:如果你正在运行多个任务,确保你已经停止了其他进程,以防止它们消耗掉所有的 GPU 内存。

    5. 测试和优化:运行实验,确定哪些步骤没有起作用,并使用这些更改来优化你的模型。

    解决方案可能会有所不同,但上述步骤应该可以帮助你找到问题的原因并找到解决方案。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 5月27日