使用numba的cuda.jit进行GPU加速

问题遇到的现象和发生背景

需要加速的代码，是两个嵌套的for循环，单次循环之间可以并行处理，没有数据依赖，应该是可以用GPU进行加速的。

问题相关代码，请勿粘贴截图

import msgpack
import torch
from torch.nn.utils.rnn import pad_sequence
from pathlib import Path
import csv
import queue
import threading
import time
from concurrent.futures import ThreadPoolExecutor
from numba import cuda, jit
from numba.typed import List
import numpy as np

with open('/home/suned/data/giscup_2021_1/msgpack/20200801.msgpack', 'rb') as f1:
    dct1 = msgpack.unpackb(f1.read())

with open('/home/suned/data/giscup_2021_1/totalmsgpack/1_2.msgpack', 'rb') as f2:
    dct2 = msgpack.unpackb(f2.read())


def batch2tensor(batch, name, log_trans=False, long_tensor=False):  # 将数据处理成张量形式。

    if long_tensor == True:
        x = torch.LongTensor([int(item[name]) for item in batch])
    else:
        x = torch.FloatTensor([item[name] for item in batch])

    if log_trans == True:
        x = torch.log(x)

    return x


eta_min, eta_max, eta_mean, eta_std = (2.3978952727983707, 9.371353167823885, 6.553886963677842, 0.5905307292899195)
simple_eat_min, simple_eat_max, simple_eat_mean, simple_eat_std = (
    0.6931471805599453, 9.320180837655714, 6.453206241137908, 0.5758803681400783)  # simple_eta是出发时刻平均通行时间求和。

eta1 = (batch2tensor(dct1, 'eta',
                     log_trans=True) - eta_mean) / eta_std  # 计算标准化值，给出一组数据中各数值的相对位置。是一种标准化处理，平均数为0，标准差为1。这里的eta实际是ata，即训练的标签值。
eta2 = (batch2tensor(dct2, 'eta', log_trans=True) - eta_mean) / eta_std
simple_eta1 = (batch2tensor(dct1, 'simple_eta', log_trans=True) - simple_eat_mean) / simple_eat_std
# simple_eta2 = (batch2tensor(dct2, 'simple_eta', log_trans=True) - simple_eat_mean)/simple_eat_std

link_start = [torch.LongTensor(list([item['link_id'][0]])) for item in dct1]
link_start5 = [torch.LongTensor(list(item['link_id'][0:10])) for item in dct2]
link_start = pad_sequence(link_start, batch_first=True)
link_start5 = pad_sequence(link_start5, batch_first=True)
# print('link_start:',link_start)
# print('link_start5',link_start5)

link_end = [torch.LongTensor(list([item['link_id'][-1]])) for item in dct1]
link_end5 = [torch.LongTensor(list(item['link_id'][-10:])) for item in dct2]
link_end = pad_sequence(link_end, batch_first=True)
link_end5 = pad_sequence(link_end5, batch_first=True)

eta1 = eta1.numpy()
eta2 = eta2.numpy()
simple_eta1 = simple_eta1.numpy()

link_start = link_start.numpy()
link_start5 = link_start5.numpy()

link_end = link_end.numpy()
link_end5 = link_end5.numpy()


@jit(nopython=True)
def traj_judge(link_start, link_start5, link_end, link_end5, eta):
    trajO = np.empty(shape=(0, 10))
    trajD = np.empty(shape=(0, 10))
    trajOD = np.empty(shape=(0, 20))
    etaOD = np.empty(shape=(0, 1))
    etaODavg = np.empty(shape=(0, 1))

    for j in range(0, len(link_start5)):
        if ((link_start == link_start5[j]).sum()) >= 1 and ((link_end == link_end5[j]).sum()) >= 1:
            trajO = np.append(trajO, [link_start == link_start5[j]], axis=0)
            trajD = np.append(trajD, [link_end == link_end5[j]], axis=0)
            etaOD = np.append(etaOD, [[eta[j]]], axis=0)
        '''elif((link_start==link_start5[j]).long().sum())==0 or ((link_end==link_end5[j]).long().sum())==0:
            trajO1=[torch.tensor([False, False, False, False, False, False, False, False, False, False])]
            trajD1=[torch.tensor([False, False, False, False, False, False, False, False, False, False])]
            etaOD1=[torch.tensor([0])]'''

    if len(trajO) == 0:
        trajO = np.array([[False, False, False, False, False, False, False, False, False, False]])

    if len(trajD) == 0:
        trajD = np.array([[False, False, False, False, False, False, False, False, False, False]])

    trajOD = np.concatenate((trajO, trajD), axis=1)
    etaODavg = etaOD.mean()


    return etaODavg,trajOD


'''@jit('float64()',nopython=True)
def var1():
    trajlen1 = np.empty(shape=(0, 1))
    return trajlen1
@jit('float64()',nopython=True)
def var2():
    etaODAVG1 = np.empty(shape=(0, 1))
    return etaODAVG1'''


@cuda.jit
def gpurun(N, etaODAVG, trajlen, trajOD, etaODavg,trajO,trajD,etaOD,etaODavg1,link_start, link_start5, link_end, link_end5, eta):
    idxWithinGrid = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    gridStride = cuda.gridDim.x * cuda.blockDim.x

    for i in range(idxWithinGrid, N, gridStride):
        for j in range(0, len(link_start5)):
            if ((link_start[i] == link_start5[j]).sum()) >= 1 and ((link_end[i] == link_end5[j]).sum()) >= 1:
                trajO = np.append(trajO, [[link_start[i] == link_start5[j]]], axis=0)
                trajD = np.append(trajD, [[link_end[i] == link_end5[j]]], axis=0)
                etaOD = np.append(etaOD, [[eta[j]]], axis=0)
            '''elif((link_start==link_start5[j]).long().sum())==0 or ((link_end==link_end5[j]).long().sum())==0:
                trajO1=[torch.tensor([False, False, False, False, False, False, False, False, False, False])]
                trajD1=[torch.tensor([False, False, False, False, False, False, False, False, False, False])]
                etaOD1=[torch.tensor([0])]'''

        if len(trajO) == 0:
            trajO = np.array([[False, False, False, False, False, False, False, False, False, False]])

        if len(trajD) == 0:
            trajD = np.array([[False, False, False, False, False, False, False, False, False, False]])

        trajOD = np.concatenate((trajO, trajD), axis=1)
        etaODavg = etaOD.mean()
    if len(trajOD) == 1:
        etaODavg = simple_eta1[i]
    else:
        etaODavg = etaODavg
    etaODAVG = np.append(etaODAVG, etaODavg, axis=0)
    trajlen = np.append(trajlen, [[len(trajOD)]], axis=0)
    print('write:', i, 'trajlen:', len(trajOD), 'etaODAVG:', etaOD.mean(), 'simpale_eta:', simple_eta1[i], 'eta1:',
          eta1[i])


def main():
    etaODAVG = cuda.device_array(shape=(0, 1))
    trajlen = cuda.device_array(shape=(0, 1))
    trajOD = cuda.device_array(shape=(0, 20))
    etaODavg = cuda.device_array(shape=(0, 1))
    trajO = cuda.device_array(shape=(0, 10))
    trajD = cuda.device_array(shape=(0, 10))
    etaOD = cuda.device_array(shape=(0, 1))
    etaODavg1 = cuda.device_array(shape=(0, 1))
    gpurun[12, 256](len(link_start) + 1, etaODAVG, trajlen, trajOD, etaODavg,trajO,trajD,etaOD,etaODavg1,link_start, link_start5, link_end, link_end5, eta2)


if __name__ == '__main__':
    main()

    msg_path1 = Path('/home/suned/data/giscup_2021_1/totalmsgpack/20200801avg.msgpack')
    msg_path1.parent.mkdir(parents=True, exist_ok=True)  # parents：如果父目录不存在，是否创建父目录。exist_ok：只有在目录不存在时创建目录，目录已存在时不会抛出异常。
    msg_path2 = Path('/home/suned/data/giscup_2021_1/totalmsgpack/20200801trajlen.msgpack')
    msg_path2.parent.mkdir(parents=True, exist_ok=True)

    with open(msg_path1, 'wb') as f1:
        packed = msgpack.packb(etaODAVG)  # msgpack.packb是一种数据打包的方式，类似JSON,但是更简单且数据量更小
        f1.write(packed)

    with open(msg_path2, 'wb') as f2:
        packed = msgpack.packb(trajlen)  # msgpack.packb是一种数据打包的方式，类似JSON,但是更简单且数据量更小
        f2.write(packed)

运行结果及报错内容

在没有用cuda.jit装饰之前，代码是可以正常运行的，只是比较慢，而且目前用到的只是测试数据，后期可能会使用更大的数据。

我想要达到的结果

目前调试遇到很多问题，貌似主要是对数据类型的不支持，不知道是否有擅长这方面的朋友可以帮忙解决一下。
数据在此：链接: https://pan.baidu.com/s/1J7ii31wCm3nhp9mNuZ4Akw 提取码: mi63

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
歇歇 2022-03-24 03:05
关注
不是所有运算都可以加速
from numba import cuda
import numpy as np
@cuda.jit
def multiply_kernel(x, out):
idx = cuda.grid(1) #创建线程的一维网格
out[idx] = x[idx] * 2
n = 4096
x = np.arange(n).astype(np.int32)
d_x = cuda.to_device(x)
d_out = cuda.device_array_like(d_x) #创建输出数组
blocks_per_grid= 32 #每个网格中的数字块
threads_per_block = 128 #每个块中的线程数
multiply_kernel[blocks_per_grid, threads_per_block](d_x, d_out)
cuda.synchronize() #等待GPU完成任务
print(d_out.copy_to_host()) #将数据从GPU拷贝到CPU/主机

解决
无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【高性能计算】基于Numba的CUDA并行算法开发：Python中@cuda.jit实现向量矩阵运算与内存优化部署
2026-02-23 15:16

内容概要：本文详细介绍了如何利用Numba库中的@cuda.jit装饰器，在Python环境中实现CUDA并行计算，降低传统CUDA编程的复杂性。文章涵盖CUDA与Numba集成的技术背景、环境配置、核心概念（如线程层次结构、内存模型）...
使用numba cuda 加速Python运算
2023-11-20 20:41

外卖猿的博客 python版cuda的使用
使用 CUDA 提升你的 Python 代码使用 Numba 的 CUDA JIT 轻松定位您的 GPU
2024-11-28 08:37

知识大胖的博客 DR 是我展示了如何使用 Numba 显著提高 Python 代码的速度。Numba 是一个高性能 Python 库，旨在优化代码速度。Numba 的核心是一个即时 (JIT) 编译器，它将 Python 和 NumPy 代码的子集转换为快速机器代码。这个过程...
python使用numba库实现gpu加速
2021-10-18 23:11

苹果挨炮的博客 Numba是一个针对Python的开源JIT编译器，由Anaconda公司主导开发，可以对Python原生代码进行CPU和GPU加速。Numba对NumPy数组和函数非常友好。使用Numba非常方便，只需要在Python原生函数上增加一个装饰器...
爽！python加速for循环计算【numba.jit】
2023-06-06 21:45

JM1307hhh的博客 python中如何加速计算，例如for循环等大量计算的过程
python GPU加速以numba为例
2024-03-06 17:29

朔漠君的博客本文主要在于记录针对于cuda的基础知识学习，在通过numba的实际例子了解如何在python中进行GPU运算
python的CUDA加速编程科普
2021-12-26 22:39

Briwisdom的博客 3.GPU的硬件结构 4.CUDA的线程层次 5.CUDA程序的编写 6.CUDA线程索引 7.实际编程 7.1 向量相加 7.2 图像亮度调整 7.3 矩阵相乘 7.4 卷积操作对图像进行模糊 1.什么是CUDA？ CUDA Compute Unified ...
CUDA 与 Numba：Python GPU 加速全解析
2025-05-23 17:47

荣华富贵8的博客 CUDA 与 Numba：Python GPU 加速全解析
通过Numba调用CUDA用GPU为Python加速：进阶理解网格跨步、多流、共享内存
2019-12-03 15:06

ikeepo的博客前导知识理解本文需要先了解：计算机底层基础知识，CPU、...Python代码与GPU加速的关系《Python程序如何用GPU加速：Tesla、CUDA、Numba》在CPU入门numba《Python代码在CPU下加速：Numba入门》在GPU入门numba《...
Numba 的 CUDA 示例（1/4）：踏上并行之旅
2024-05-29 07:45

茶桁的博客 GPU（图形处理单元），顾名思义，最初是为计算机图形学开发的。从那时起，它们几乎在每个需要高计算吞吐量的领域都...在 CPU 上进行并行化需要同时使用其多个内核（物理或虚拟标准的现代计算机具有 4-8 个内核。
python加速方法对比 numba numb.cuda triton pycuda cupy
2025-09-30 21:59

我是李武涯的博客库核心思想编程范式抽象级别最佳应用场景Numba将 Python 函数 JIT 编译为CPU机器码保持 Python 循环语法中加速无法向量化的 CPU 密集型循环CuPyNumPy 的 GPU 替代品高级 API 调用，向量化高将现有的 NumPy/SciPy ...
用Python Numba库写CUDA程序（一）
2020-07-23 11:31

jeueuey的博客 Numba库 Numba，将Python代码编译生成优化后的机器码，提高代码效率。 Numba, a Python compiler from Anaconda that can compile Python code for execution on CUDA-capable GPUs, provides Python developers ...
numba中的numba.core.errors.TypingError问题解决和@cuda.jit的使用
2023-02-19 17:37

一台电脑走天下的博客还有这种问题TypeError: No matching definition for argument type(s) array(int32, 2d, C)，原因是参数没用匹配到或者匹配不正确。但是这个函数如何调用，官网并没用讲。...接下来是关于numba中@cuda.jit的使用：从。
从头开始进行CUDA编程：Numba并行编程的基本概念
2022-11-04 12:36

deephub的博客在 CPU 上进行并行化需要同时使用其多个内核（物理或虚拟）。例如一般的计算机有 4-8 个内核，而GPU 拥有数千个计算核心。有关这两者的比较，请参见下面的图 1。GPU 内核通常速度较慢，且只能执行简单的指令，但它们...
使用 Numba 的 CUDA 加速 Python 代码
2024-11-30 12:15

具身机器人曾小健的博客本文介绍了如何通过 Numba 的 CUDA 加速 Python 代码，只需少量努力即可获得显著的性能提升。需要注意的是，我们从已经使用 Numba JIT 优化的代码开始，因此性能提升的基础水平已经非常高。例如，看看卢卡斯数计算的...
CUDA-Numba
2024-07-31 03:11

三七驿馆的博客这次都是找的python代码哈以后还要找写c的用哦 ,还有基础都是搬来的勿怪技术以外勿扰GPU...这一发展是由GPGPU(通用GPU)接口的开发实现的，它允许我们使用GPU进行通用计算编程。这些接口中最常见的是CUDA，其次是O...
超过Numpy的速度有多难？试试Numba的GPU加速
2021-08-24 17:40

DechinPhy的博客虽然我们也可以自己使用Cython或者是在Python中调用C++的动态链接库，但是我们自己实现的方法不一定有Numpy实现的快，这得益于Numpy对于SIMD等技术的深入实现，把CPU的性能发挥到了极致。因此我们只能考虑弯道超车，...
python numba cuda,CUDA函数不会在带有Numba的Python上执行For循环
2020-12-24 00:50

田仲政的博客 I'm trying to run a simple update loop of a simulation on the GPU. Basically there are a bunch of "creatures" represented by circles that in each update loop will move and then there will be a check o...
适用于CUDA GPU的Numba例子
2020-12-26 14:31

wujianming_110117的博客 • 适用于CUDA GPU的Numba例子矩阵乘法这是使用CUDA内核的矩阵乘法的简单实现： @cuda.jit def matmul(A, B, C): “”“Perform square matrix multiplication of C = A * B “”” i, j = cuda.grid(2) if i <...
基于C++与CUDA的N卡GPU并行程序——在python中使用numba库编写GPU程序
2020-06-19 08:51

遂古之初，谁传道之的博客在python中使用numba编写CUDA程序时会有一个报错 NvvmSupportError: libNVVM cannot be found. Do conda install cudatoolkit: 这一般是关于CUDA的环境变量没有识别出来,所以需要在bashrc或/etc/profile中加入...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月22日