cublas runtime error

使用allennlp训练模型时出错

RuntimeError: cublas runtime error : the GPU program failed to execute at /opt/conda/conda-bld/pytorch_1565272271120/work/aten/src/THC/THCBlas.cu:331

OS: Linux
Pytorch: 1.2.0
CUDAToolkit: 10.0
allennlp: 0.9.0
NVIDIA-SMI 515.65.01 Driver Version: 515.65.01 CUDA Version: 11.7
GPU RTX3090

详细报错

2022-12-21 18:11:05,577 - INFO - allennlp.training.trainer - Training
  0%|          | 0/16148 [00:00<?, ?it/s]Traceback (most recent call last):
  File "/data/yutian/anaconda3/envs/py37_2/bin/allennlp", line 8, in <module>
    sys.exit(run())
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/run.py", line 18, in run
    main(prog="allennlp")
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/commands/__init__.py", line 102, in main
    args.func(args)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/commands/train.py", line 124, in train_model_from_args
    args.cache_prefix)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/commands/train.py", line 168, in train_model_from_file
    cache_directory, cache_prefix)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/commands/train.py", line 252, in train_model
    metrics = trainer.train()
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/training/trainer.py", line 478, in train
    train_metrics = self._train_epoch(epoch)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/training/trainer.py", line 320, in _train_epoch
    loss = self.batch_loss(batch_group, for_training=True)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/training/trainer.py", line 261, in batch_loss
    output_dict = self.model(**batch)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "./model.py", line 187, in forward
    joint_embedding = self.word_embedder(joint_tokens)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/modules/text_field_embedders/basic_text_field_embedder.py", line 118, in forward
    token_vectors = embedder(*tensors, **forward_params_values)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/allennlp/modules/token_embedders/bert_token_embedder.py", line 175, in forward
    attention_mask=util.combine_initial_dims(input_mask))
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/pytorch_pretrained_bert/modeling.py", line 733, in forward
    output_all_encoded_layers=output_all_encoded_layers)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/pytorch_pretrained_bert/modeling.py", line 406, in forward
    hidden_states = layer_module(hidden_states, attention_mask)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/pytorch_pretrained_bert/modeling.py", line 391, in forward
    attention_output = self.attention(hidden_states, attention_mask)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/pytorch_pretrained_bert/modeling.py", line 349, in forward
    self_output = self.self(input_tensor, attention_mask)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "/data/yutian/anaconda3/envs/py37_2/lib/python3.7/site-packages/pytorch_pretrained_bert/modeling.py", line 309, in forward
    attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
RuntimeError: cublas runtime error : the GPU program failed to execute at /opt/conda/conda-bld/pytorch_1565272271120/work/aten/src/THC/THCBlas.cu:331
  0%|          | 0/16148 [00:12<?, ?it/s]

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱晚乏客游 2022-12-22 09:24
关注
获得7.50元问题酬金

楼上一堆人都不看环境说明的吗
你这个问题很简单，就是30系显卡不支持cuda11.0以前的版本，但是你的cuda是10.0的，所以就会这样。驱动你已经是支持11.7的cuda了，所以不用管，你需要重新安装cuda（这个版本由你要安装的pytorch确定）和cudnn，然后安装对应的pytroch，torchvision和torchaudio。
如果你的低版本的pytroch无法兼容cuda11.0以上的版本，要么自己折腾下编译源码（坑多，不好搞，需要研究），要么升级下torch版本到有11.0以以上cuda的版本。我比较建议升级torch版本，因为pytorch版本之间的兼容性不错，基本上都不需要修改源码。

解决 2
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx 解决方案
2023-06-04 09:49

爱编程的喵喵的博客本文主要介绍了RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx 解决方案，希望能对学习pytorch的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案
如何解决 RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling cublasCreate(handle) 错误
2025-03-21 08:37

猫头虎的博客如何解决 RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling cublasCreate(handle) 错误在深度学习的训练过程中，使用CUDA加速运算是常见的做法。但有时，我们可能会遇到 RuntimeError: CUDA ...
NVIDIA CUDA并行编程语言及其矢量相加实例——一文带你快速入门
2023-10-10 19:36

张小殊.的博客 ✍️CUDA 是 2007 年由NVIDIA 公司推出的只能运行在本公司各种型号 GPU 上的并行编程语言，使用扩展的 C 语言来进行 GPU 编程。自 2007 年 CUDA 1.0 版本诞生后，由于大大降低了 GPU 通用编程的难度，因此大量的研究...
本地部署Qwen2大模型之三：编译CPU版vLLM
2024-12-24 03:13

康顺哥的博客在本地部署Qwen2大模型之二：vLLM方式...packages/vllm/config.py", line 1433, in __init__ raise RuntimeError("Failed to infer device type") RuntimeError: Failed to infer device type Exception ignored in: ...
003-C++ AI 编程助手
2025-02-02 00:00

小宝哥Code的博客 C++ 是高性能计算和底层开发的首选语言，许多 AI 框架和工具都提供了对 C++ 的支持。以下内容将介绍如何在 C++ 中构建 AI 应用、常用的 AI 库，以及相关的开发工具。通过上述内容，C++ 的 AI 开发能力可以在性能、...
深入浅出之CUDA编程 Hello World
2024-10-15 15:20

浩瀚之水_csdn的博客 //定义cudaError，默认为cudaSuccess(0) cudaError_t err = cudaSuccess; err=cudaMalloc((void **)&dev_a, sizeof(int)*512); err=cudaMalloc((void **)&dev_b, sizeof(int)*512); err=cudaMalloc((void **)&dev_c...
cuBLAS使用2
2023-03-15 11:17

蓝天巨人的博客目录使用的cuBLAS相关的API Errort status cuBLAS 内容 Thread Safety 结果重现 Scalar Parameters 并发流 Cache Configuration() Static Library Support GEMM Algorithms Numerical Behavior Tensor Core Usage ...
CUDA编程入门之错误检查
2023-12-05 15:41

痛&快乐着的博客本文介绍了CUDA运行时API的常见错误类型(cudaError_t)及其检测方法，包括cudaSuccess、cudaErrorInvalidValue等常见错误码。文章提供了两种错误检测函数(cudaGetErrorName/GetErrorString)的使用方法，并展示了封装...
Halcon20--C#与Halcon联合编程时深度学习报错问题记录
2021-11-29 17:04

NCUTer的博客 1、VS下调用算子分类算子ApplyDIClassifier时，提示“Halcon error#7718: For this operation thecuDNN library needs to be available(see installation guide)”，但是Hdevelop环境下运行没有任何问题。...
2.python/pytorch编程debug
2020-05-10 13:22

外卖猿的博客 16.`TypeError: **func（） got an unexpected keyword argument ***` 17.`RuntimeError: pad should be smaller than half of kernel size, but got padW = 1, padH = 1, kW = 1, kH = 1` 18.`RuntimeError: **.pt...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月21日

cublas runtime error

cublas runtime error

使用allennlp训练模型时出错

详细报错

6条回答 默认 最新

问题事件

6条回答默认最新