在这行代码报错CUDA error: device kernel image is invalid
ema = deepcopy(vqvae).to(device)
这之前vqvae在cpu上,完成了模型初始化,数据加载的部分,输出参数也在cpu上:VQVAE Model Parameters: 11,254,212
已经排查过多次版本问题
nvidia-smi CUDA 11.8
nvcc: NVIDIA (R) Cuda compilation tools, release 11.8, V11.8.89
安装的是torch2.4.1 cu11.8 NCCL version 2.20.5+cuda11.8
也排查过支持sm_80(卡的算力)
运行了小的测试代码,简单模型的 deepcopy+.to(device)操作成功
问大模型:实际项目中的错误(cuDA error:device kernel image is invalid)是由 模型初始化或设备管理逻辑不一致 导致,而非环境问题。
求友友们提一下思路!