cuda.jit加速报错

python报错：
我在使用numba中的cuda.jit加速时，函数出现如下报错：
numba.core.errors.TypingError: Failed in cuda mode pipeline (step: nopython frontend)
non-precise type array(pyobject, 0d, C)
During: typing of argument at D:\big_num_calculating\calculating.py (31)

File "calculating.py", line 31:

@cuda.jit

其中代码的第31行为：@cuda.jit

报错的函数代码块为：

from numba import cuda
import math
A = 712109216148475924002260208280426602040082602280
A_device = cuda.to_device(A)
B = 969363330882741444824008280206888408688882266224
B_device = cuda.to_device(B)
P_point_x = 652884557691898644204408046028266446228466204200
P_point_x_device = cuda.to_device(P_point_x)
Q_A_point_x = 242592654818097002466006644842440682466444846404
Q_A_point_x_device = cuda.to_device(Q_A_point_x)
p_y = 0
Q_y = 1
# p = 1004782375664996008484828206862404846062606288466
p = 2*10**6
p_device = cuda.to_device(p)
threads_per_block = 1024
blocks_per_grid = math.ceil(p / threads_per_block)

@cuda.jit
def P_yy(p, x):
    idx = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
    if idx < p:
        for k in range(0, p):
            if (k ** 2) % p == (x ** 3 + A_device * x + B_device) % p:
                return k
            else:
                continue

if __name__ == "__main__":
    start_time = time.time()

   
    P_point_y = P_yy[blocks_per_grid, threads_per_block](p_device, P_point_x_device)
    cuda.synchronize()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

12条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2023-12-04 11:17
关注
获得0.75元问题酬金
引自强大而免费的微信小程序：皆我百晓生。

这个报错是因为Numba无法推断出函数P_yy的返回类型。在Numba中，cuda.jit函数需要指定返回类型，以便在编译时生成正确的CUDA代码。你可以尝试修改代码，将返回类型添加到函数定义中。以下是可能的解决方法：

@cuda.jit def P_yy(p, x) -> int: ...

将int替换为你期望的返回类型。这样，Numba就能正确地进行类型推断并生成CUDA代码。
解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用Python Numba库写CUDA程序（一）
2020-07-23 11:31

jeueuey的博客 Numba库 Numba，将Python代码编译生成优化后的机器码，提高...for execution on CUDA-capable GPUs, provides Python developers with an easy entry into GPU-accelerated computing and a path for using increasingl
使用numba cuda 加速Python运算
2023-11-20 20:41

外卖猿的博客 python版cuda的使用
CUDA功能和通用功能
2020-12-26 14:18

wujianming_110117的博客为了支持CUDA程序的编程模式，CUDA Vectorize和GUVectorize无法产生常规的ufunc。而是返回类似ufunc的对象。该对象是一个近似的对象，但与常规的NumPy ufunc不完全兼容。CUDA ufunc增加了对传递设备内阵列（已在GPU...
libtroch部署之torch.jit.script Module踩坑之旅
2020-05-07 10:36

jiaken2660的博客 Pytorch1.2 cuda 10.0 Windows 10 Anaconda libtorch1.2 release cuda version VS2017 2. 描述对比Tensortflow框架，pytorch在深度学习模型的研究和产品化方面做了一个快速转换的通道，将算法设计人员和程序...
vs进行cuda编程失败，报错“the provided PTX was compiled with an unsupported toolchain.”
2022-03-01 15:53

The pure land的博客最常见的原因是PTX是由比CUDA驱动程序和PTX JIT编译器支持的编译器更新的编译器生成的。解决：更新显卡驱动。更新方法： 1.进入英伟达官网页面，网址https://www.nvidia.cn/Download/index.aspx?lang=cn，搜索自己...
Numba模块的用法(高性能计算)
2025-05-26 20:56

zoujiahui_2018的博客核心功能包括：@jit/njit装饰器实现快速编译（推荐nopython模式），@cuda.jit支持GPU加速，@vectorize实现向量化操作。性能优化建议使用NumPy数组、预分配内存和类型注解。Numba特别适合数值计算密集型任务，但对...
【pytorch】深度学习模型在迁移学习、模型微调和模型部署时函数加载 torch.load()
2024-06-11 11:54

云天徽上的博客【pytorch】pytorch模型加载函数torch.load() 欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的...
Dr.Jit 项目常见问题解决方案
2024-12-03 11:55

诸余煦的博客 Dr.Jit 项目常见问题解决方案一、项目基础介绍 Dr.Jit 是一个用于普通和可微分计算的低时延（JIT）编译器。该项目最初作为 Mitsuba 3 渲染器的数值基础而被创建，Mitsuba 3 是一个可微分的蒙特卡洛渲染器。然而，Dr...
Numba 综合指南：加速 Python 数值计算
2025-04-13 00:07

hiquant的博客 Numba 是一个开源的、针对 Python 的即时编译器 (Just-In-Time, JIT)，主要由 Anaconda 公司支持。它专注于加速数值计算密集型的 Python 代码，尤其是那些使用了 NumPy 数组和循环的部分。为什么用？核心价值在于让...
GPU加速02:超详细Python Cuda零基础入门教程，没有显卡也能学！
2022-12-16 12:07

GPT5.0的博客 Python Numba库可以调用CUDA进行GPU编程，CPU端被称为主机，GPU端被称为设备，运行在GPU上的函数被称为核函数，调用核函数时需要有执行配置，以告知CUDA以多大的并行粒度来计算。使用GPU编程时要合理地将数据在主机...
GPU加速的编程思想，图解，和经典案例，NVIDIA Python Numba CUDA大法好
2018-08-29 23:56

sicolex的博客这篇博客深入浅出讲解了使用Python Numba CUDA进行GPU编程。图文并茂，并附上矩阵相乘的源代码。矩阵相乘是GPU编程界的Hello world。
PyTorch-CUDA镜像加速自动驾驶感知模型迭代
2025-11-24 21:38

岑秋苑的博客本文介绍如何利用PyTorch-CUDA镜像解决自动驾驶感知模型开发中的环境配置难题，通过容器化、cuDNN优化、自动混合精度（AMP）和分布式训练等技术，实现高效、可复现的模型迭代，显著提升研发效率。
详解PyTorch编译并调用自定义CUDA算子的三种方式
2021-03-29 14:58

3Ｄ视觉工坊的博客点击上方“3D视觉工坊”，选择“星标”干货第一时间送达在上一篇教程中，我们实现了一个自定义的CUDA算子add2，用来实现两个Tensor的相加。然后用PyTorch调用这个算子，分析对比...
基于C++与CUDA的N卡GPU并行程序——在python中使用numba库编写GPU程序
2020-06-19 08:51

遂古之初，谁传道之的博客在python中使用numba编写CUDA程序时会有一个报错 NvvmSupportError: libNVVM cannot be found. Do conda install cudatoolkit: 这一般是关于CUDA的环境变量没有识别出来,所以需要在bashrc或/etc/profile中加入...
GPU编程基础-CUDA实现图像处理
2023-08-16 21:07

知识海洋遨游机器人（壹号）的博客 GPU编程基础-CUDA实现图像处理 1. 相关基础概念 1.1 Host和Device程序 1.2 Kernel程序 1.3 SIMT和SIMD 1.4 GPU计算的 Occupancy指标 1.5 GPU计算的基本流程 2. GPU计算框架与过程说明 3. 一个基于CUDA的图像处理例子...
gpu_burn在使用cuda13中遇到的编译问题
2025-09-18 20:31

d1z888的博客摘要：使用gpu_burn工具进行GPU加压测试时，在CUDA 13环境下编译出现错误。主要问题是cuCtxCreate函数在新版本中需要4个参数，而代码中只传入了3个参数。解决方法是将创建上下文的方式改为cuDevicePrimaryCtxRetain...
用Numba加速Python代码，变得像C++ 一样快
2022-11-01 10:06

宋宋讲编程的博客如果你加上 nopython=True的装饰器失败并报错，你可以用简单的 @jit 装饰器来编译你的部分代码，对于它能够编译的代码，将它们转换为函数，并编译成机器码。通过使用 @vectorize 装饰器，你可以对仅能对标量操作的...
轻松实现GPU加速推理：PyTorch-CUDA镜像应用指南
2025-11-24 18:46

云山雾村的博客本文介绍如何利用PyTorch-CUDA容器镜像快速实现GPU加速的深度学习训练与推理，避免环境配置难题。通过Docker一键部署，支持多卡训练和生产级服务，提升AI工程化效率。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 12月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月4日

cuda.jit加速报错

12条回答 默认 最新

问题事件

12条回答默认最新