cock_coke
2022-08-13 16:38
采纳率: 100%
浏览 159

关于网络训练过程中cpu使用率过低的问题

描述一下我的情况。我训一个CNN网络时单个物体差不多一万张数据的时候,num_worker取的是8,pin_memory也设置为true,第一个epoch比较慢,差不多20分钟;但之后cpu6个核心的使用率都能接近百分百,而gpu的使用率基本保持在90以上,训得飞快,基本一个1个epoch3分钟就拿下了,那是多么赏心悦目啊。
可是当我不变化配置地喂入全部8个物体约八万条数据后cpu总体使用率就一直比较低,通过top指令查看在20%以下(20%!以下!),自然也就导致显卡使用率也上不去,大多数时候都是个位数,偶尔跳到90几(每0.5s观测nvidia-smi)。第一个epoch三个半小时,其后的每个epoch一个半小时,整个训练速度不成比例的变慢了好多,并且没跑其他程序。这个问题已经折腾两天了,算上之前懵懵懂懂地以为就只能这么快的时间就更长了。我加上了监视器的两张图片,链接在下(不大会发图片)。期待能有站友解决我的疑惑
https://weibo.com/u/7639430630?from=feed&loc=avatar&is_all=1
配置:3060显卡,驱动515.65,cuda11.1, cudnn8.0.5, 主板芯片组:B365颜色分类:i5 9600KF+B365M AORUS ELITE, 内存容量:8GBx2根

1条回答 默认 最新

相关推荐 更多相似问题