2301_81601613 2024-07-14 23:37 采纳率: 40%
浏览 13

运行模型,cuda 报错,求解决方法

cuda=10.0,pytorch=1.0.1
出现下列问题:
cublas runtime error : the GPU program failed to execute at /opt/conda/conda-bld/pytorch_1550796191843/work/aten/src/THC/THCBlas.cu:258
后来我把pytorch先后更改为1.2.0、1.4.0又出现以下问题
CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)
请教怎么解决

  • 写回答

4条回答 默认 最新

  • 阿里嘎多学长 2024-07-14 23:37
    关注

    以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:


    解决 CUDA 和 PyTorch 相关的错误通常需要进行一系列的排查和测试。以下是一些可能的解决步骤:

    1. 确认 CUDA 和 cuDNN 兼容性

      • 确保你安装的 CUDA 和 cuDNN 版本与 PyTorch 版本兼容。你可以在 PyTorch 官网的安装指南中找到相关的兼容性信息。
    2. 更新 GPU 驱动

      • 使用 nvidia-smi 命令来检查你的 GPU 驱动版本,并确保它是最新的。如果需要,从 NVIDIA 官网下载并安装最新的驱动。
    3. 检查 PyTorch 安装

      • 确保 PyTorch 是通过正确的方式安装的,比如使用 condapip,并且是为你的 CUDA 版本构建的。
    4. 检查代码和数据

      • 确保你的模型和数据加载没有问题,没有内存泄漏或溢出。检查所有张量操作是否具有正确的数据类型和维度。
    5. 查看错误日志

      • 仔细阅读错误日志,它可能提供了关于问题原因的线索。例如,cuBLAS 错误可能与输入矩阵的维度不匹配有关。
    6. 搜索社区和论坛

      • 在 PyTorch 论坛、Stack Overflow 或其他相关社区搜索类似的问题和解决方案。
    7. 创建最小化示例

      • 如果问题依旧存在,创建一个最小化的代码示例,重现问题,并考虑向 PyTorch 开发团队或社区求助。
    8. 调试和错误处理

      • 在代码中添加调试语句,比如打印出在执行 cublasSgemm 之前和之后的相关变量和状态。
      • 使用 Python 的异常处理机制来捕获运行时错误,并记录详细的错误信息。
    9. 考虑环境变量

      • 检查环境变量,如 CUDA_VISIBLE_DEVICES,确保它们正确设置,以控制 PyTorch 使用哪些 GPU。
    10. 尝试不同的 PyTorch 版本

      • 如果问题与特定版本的 PyTorch 相关,尝试使用不同的版本,看是否能解决问题。
    11. 硬件检查

      • 确保 GPU 没有过热或硬件故障,这可能会导致执行失败。

    如果上述步骤都无法解决问题,你可能需要更详细的错误信息或日志来进行进一步的调试。在某些情况下,问题可能是由于 PyTorch 的内部错误或与特定硬件的兼容性问题,这时向 PyTorch 的开发者报告问题可能是必要的。记得在报告问题时提供尽可能多的信息,包括你的操作系统、CUDA 版本、PyTorch 版本、错误日志和最小化的问题重现代码。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 7月14日

悬赏问题

  • ¥100 速求!商品购买力最优化问题(用遗传算法求解,给出python代码)
  • ¥15 虚拟机检测,可以是封装好的DLL,可付费
  • ¥15 kafka无法正常启动(只启动了一瞬间会然后挂了)
  • ¥30 使用matlab将观测点聚合成多条目标轨迹
  • ¥15 Workbench中材料库无法更新,如何解决?
  • ¥20 如何推断此服务器配置
  • ¥15 关于github的项目怎么在pycharm上面运行
  • ¥15 内存地址视频流转RTMP
  • ¥100 有偿,谁有移远的EC200S固件和最新的Qflsh工具。
  • ¥15 有没有整苹果智能分拣线上图像数据