Navy1228 2023-09-02 20:45 采纳率: 43.3%
浏览 2107
已结题

4090+13900 跑 yolov8,gpu 效率上不去,cpu 频率高但是占用率不高

请问 yolov8 模型用 coco2017 数据集进行训练,为啥 gpu 运算效率没法一直稳定很高

大概情况就是 gpu 效率从 1%~5% 在 2 秒内涨到 70% 左右,然后运算效率就回到 1%~5%,然后再等上 5 秒左右再上去
 
期间 cpu 占用率也不高,但是 cpu 频率很高
 
数据集是在固态上面的,workers=16
 
之前也了解了下这种情况,有一种说法是可能总线异常导致数据送入 gpu 很慢,gpu 等数据送来后两下就运算完了,然后等待新的数据到来。
 
如果是总线异常导致的,那么总线部分该如何检测呢,是否还有其他异常的可能。
 
本来按照运算单位来看不到 4 分钟就能跑完一个 epoch,然而实际上跑一个 epoch 得 17 分多
 
期间 nvidia-smi 的输出也不是实时的,大概就是只有 gpu 在运算时才是实时显示(这个可能只是 gpu 因为没工作,所以没输出信息)
 

img


同样的模型和数据集,我在 1080ti 上应该是出于正常跑的状态,gpu 效率基本都在 80~90%甚至更高徘徊,cpu 还是个 1700x,反而频率没有太高
 
而且 nvidia-smi 输出是动态实时的

  • 写回答

4条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-09-02 22:23
    关注

    【相关推荐】




    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 9月28日
  • 修改了问题 9月3日
  • 修改了问题 9月3日
  • 修改了问题 9月2日
  • 展开全部