请问 yolov8 模型用 coco2017 数据集进行训练,为啥 gpu 运算效率没法一直稳定很高
大概情况就是 gpu 效率从 1%~5% 在 2 秒内涨到 70% 左右,然后运算效率就回到 1%~5%,然后再等上 5 秒左右再上去
期间 cpu 占用率也不高,但是 cpu 频率很高
数据集是在固态上面的,workers=16
之前也了解了下这种情况,有一种说法是可能总线异常导致数据送入 gpu 很慢,gpu 等数据送来后两下就运算完了,然后等待新的数据到来。
如果是总线异常导致的,那么总线部分该如何检测呢,是否还有其他异常的可能。
本来按照运算单位来看不到 4 分钟就能跑完一个 epoch,然而实际上跑一个 epoch 得 17 分多
期间 nvidia-smi 的输出也不是实时的,大概就是只有 gpu 在运算时才是实时显示(这个可能只是 gpu 因为没工作,所以没输出信息)

同样的模型和数据集,我在 1080ti 上应该是出于正常跑的状态,gpu 效率基本都在 80~90%甚至更高徘徊,cpu 还是个 1700x,反而频率没有太高
而且 nvidia-smi 输出是动态实时的