在GPU进行最小值归约运行时间比CPU长

函数实现目的：求大小为100的一维数组最小值的下标，使用的归约运算

出现问题：GPU总比CPU运行时间久（GPU：MX150，CPU：i5 8th）

@cuda.jit
def arggetmin(Fitness, IN_index, OutResult, OutIndex, n):
    tid = cuda.threadIdx.x;
    idx = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    tmp = cuda.shared.array(shape=BLOCK_SIZE, dtype=float32)
    index = cuda.shared.array(shape=BLOCK_SIZE, dtype=int32)
    tmp[tid] = MAX
    if (tid > n): return

    #将数据传入共享内存
    if (idx < n):
        tmp[tid] = Fitness[idx]
        index[tid] = IN_index[idx]
    else:
        tmp[tid] = MAX
        index[tid] = IN_index[idx]

    cuda.syncthreads();

    #没个块内进行归约处理
    stride = int(cuda.blockDim.x / 2)
    while stride > 0:
        if (tid < stride):
            if (tmp[tid] > tmp[tid + stride]):
                tmp[tid] = tmp[tid + stride]
                index[tid] = index[tid + stride]
        cuda.syncthreads()
        stride = int(stride / 2)

    if (tid == 0):
        OutResult[cuda.blockIdx.x] = tmp[0]
        OutIndex[cuda.blockIdx.x] = index[0]

def main():
    n = 100        #数组大小
   
   #生成数组和下标
    a = getRamdomlist(n)
    index = getIndex(n)
    
    #传入到GPU中
    a_device = cuda.to_device(a)
    index_device = cuda.to_device(index)

    threads_per_block = BLOCK_SIZE
    block_per_grid = math.ceil(n / threads_per_block)
    gpu_result = cuda.device_array(shape=block_per_grid, dtype=float) 
    gpu_index = cuda.device_array(shape=block_per_grid, dtype=int)

    #GPU部分
    time1 = perf_counter()
    arggetmin[block_per_grid, threads_per_block](a_device, index_device, gpu_result, gpu_index, n)
    cuda.synchronize()
    time2 = perf_counter()
    print("matmul GPU time :", (time2 - time1))
  
    #CPU部分
    start = perf_counter()
    innn = np.argmin(a)
    end = perf_counter()
    print("matmul CPU time :", (end - start))


if __name__ == "__main__":
    main()

GPU运算时间0.5s左右，CPU运算时间0.0005s左右

使用过“循环展开”的方法，但结果更加糟糕。（运行Nvidia官方的“矩阵乘法”的代码时，使用共享内存的代码比不使用共享内存的代码要慢）

为什么会出现这种情况，一直不太明白

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

GISer Liu 2023-02-16 19:22

关注

以下答案引用自GPT-3大模型,请合理使用：

示例，谢谢

这可能是因为使用了不正确的共享内存的实现，或者由于没有考虑到适当的优化。如果要使用共享内存，则需要确保使用一致的数据结构和传输方式，以便每个线程可以快速访问内存中的数据。这样可以减少CPU和GPU之间的交互，大大加快计算性能。

此外，还有一些实用的优化技巧，比如常量表达式计算，以及使用特定于 GPU 的指令集和函数，可以使代码更加有效。以下是一个示例，实现本问题的优化版本：

@cuda.jit
def arggetmin_opt(Fitness, IN_index, OutResult, OutIndex, n):
    tid = cuda.threadIdx.x;
    idx = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    tmp = cuda.shared.array(shape=BLOCK_SIZE, dtype=float32)
    index = cuda.shared.array(shape=BLOCK_SIZE, dtype=int32)
    tmp[tid] = MAX
    if (tid > n): return

    #将数据传入共享内存
    if (idx < n):
        tmp[tid] = Fitness[idx]
        index[tid] = IN_index[idx]
    else:
        tmp[tid] = MAX
        index[tid] = IN_index[idx]

    cuda.syncthreads();

    #没个块内进行归约处理
    stride = cuda.blockDim.x 
    while stride > 0:
        if (tid < stride):
            if (tmp[tid] > tmp[tid + (stride >>1)]):
                tmp[tid] = tmp[tid + (stride >>1)]
                index[tid] = index[tid + (stride >>1)]
        cuda.syncthreads()
        stride = (stride >> 1) 

    if (tid == 0):
        OutResult[cuda.blockIdx.x] = tmp[0]
        OutIndex[cuda.blockIdx.x] = index[0]

如果我的回答解决了您的问题，请采纳我的回答

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

CUDA编程学习＜2＞——归约算法的7种优化方法详解
2022-02-16 03:05

鸿儒517的博客原文章只介绍了归约算法的一般形式，而PPT中则对比了几种归约算法，但是PPT写的不够完整，不便于系统的运行起来。为了学习CUDA及其优化技巧，特此整理 Nvidia官网归约ppt （英文）中文PPT 关于代码核函数的部分可以...
Stream-K: Work-centric Parallel Decomposition for Dense Matrix-Matrix Multiplication on the GPU
2024-05-31 10:18

图波列夫的博客在这里插入图片描述几个月后公开的 Stream-K: Work-centric Parallel Decomposition for Dense Matrix-Matrix Multiplication on the GPU 论文对其进行了更详细的介绍。CUTLASS 的 GEMM 实现由三大
CUDA C编程权威指南第3章 CUDA执行模型
2024-06-15 04:06

青禾子的夏的博客 CUDA编程模型中两个主要的抽象概念：内存层次结构和线程层次结构。它们能够控制大规模并行GPU。GPU架构是围绕一个流式多处理器（SM）的可扩展阵列搭建的。GPU中每一个SM都能支持数百个线程并发执行，每个GPU通常有多...
GPU计算（一）
2020-07-07 14:42

亦心ll的博客图形处理、也就是显示核心，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器。用途是将计算机系统所需要的显示信息...
51c~GPU合集1
2024-11-27 02:58

whaosoft-143的博客 NVIDIA 的数据中心 GPU 管理器(DCGM) 是一套功能强大的工具，专为管理和监控集群环境中的 NVIDIA 数据中心 GPU 而设计。
PyTorch深度学习实战（26）—— PyTorch与Multi-GPU
2024-08-29 07:39

shangjg3的博客至此，网络完成了一次反向传播，网络参数仅在GPU-0上进行更新。在上述流程中，只需要GPU-0将数据与模型加载至多块GPU上，各GPU就可以并行地进行前向传播与反向传播，也就是说并行中的一个epoch完成了单个GPU多个...
那些年CUDA编程那些事（三）
2021-09-15 14:40

小落叶不憨的博客使用CUDA和OpenCV将图像进行分块处理1、概述2、实现步骤2.1 使用OpenCV输入一张8000*1000的单通道图像2.2 为CUDA数组分配内存2.3 分配线程和线程，执行核函数2.4 结果输出与程序结束3、核函数的具体实现过程3.1 定义...
OpenCL 平台模型 - 执行模型 - 内存模型 - 编程模型
2020-08-16 15:16

Yongqiang Cheng的博客创建将在平台上运行的指令块 (内核)。建立并管理计算中涉及的内存对象。在系统中正确的组件上按正确的顺序执行内核。收集最终结果。上述步骤通过 OpenCL 中的一系列 API 再加上一个面向内核的编程环境来完成，...
Hugging Face高效训练技术一：单 GPU 高效训练（Gradient Accumulation、Gradient Checkpointing、混合精度训练、优化其选择）
2023-11-05 17:16

神洛华的博客介绍了单GPU训练的优化技巧
量化神经网络的有效部署
2021-09-01 09:30

Linux基金会AI&Data基金会的博客整体上对比 TVM-fp32，QNN-int8 在 Intel Cascade Lake CPU 和 Nvidia T4 GPU 上分别取得了 2.35 和 2.13 倍的加速效果，在 ARM Raspberry Pi3 和 Pi4 上分别取得了 1.35 和 1.40 倍的加速效果。 Fig.5 QNN 在服务器...
6.CUDA编程手册中文版---附录A&B
2022-04-16 01:32

扫地的小何尚的博客附录A 支持GPU设备列表 https://developer.nvidia.com/cuda-gpus 列出了所有支持 CUDA 的设备及其计算能力。可以使用运行时查询计算能力、多处理器数量、时钟频率、设备内存总量和其他属性（参见参考手册）。附录B...
CUDA编程第三章: CUDA执行模型
2021-02-03 03:59

Janus_V的博客通过上一章的练习, 你已经学会了如何在网格和线程块中组织线程以获得最佳的性能. 尽管可以通过反复试验找到最佳的执行配置, 但你可能仍然会感到疑惑, 为什么选择这样的执行配置会更好. 你可能想知道是否有一些选择...
基于Atlas进行项目-step3.2 算子开发-2：基于Atlas-310等NPU系列AI芯片实现自定义算子开发（Tensor与Kernel的区别）。
2024-10-20 09:35

Aiooooooooo的博客 ctx = tvm.context("cce", 0) # 使用 llvm 进行模拟func = tvm.build(schedule, [data_1, data_2, op_result], target="cce") # 修改为 llvm这里有几个注意的点。首先是tvm.contest（）这个是决定你用NPU跑还是用CPU...
13.TensorRT中文版开发教程-----TensorRT的最佳性能实践与性能调优
2022-05-10 00:55

扫地的小何尚的博客在开始使用 TensorRT 进行任何优化工作之前，必须确定应该测量什么。没有衡量标准，就不可能取得可靠的进展或衡量是否取得了成功 Latency 网络推理的性能度量是从输入呈现给网络到输出可用所经过的时间。这是单个...
Halide：一种用于优化图像处理管道中的并行性、局部性和重新计算的语言和编译器
2020-10-18 15:30

philosophia_OsO的博客给定一个时间表，我们的编译器会自动合成用于x86和ARM cpu的高质量并行矢量代码（SSE/AVX和NEON），以及与主机管理代码交织在一起的CUDA内核图形，以执行混合GPU。它使用简单但通用的区间分析自动推断所有内部分配...
(四）、CUDA环境安装与程序编写
2023-08-16 06:24

Wmpreturn的博客这是一个固定值，对于整个网格都是相同的 7、CUDA程序性能检测工具-nvprof nvprof是NVIDIA提供的一个命令行工具，可以被用于收集关于CUDA应用程序的性能指标数据，例如GPU利用率、内存带宽、运行时间和延迟等信息。...
Pregel原理与代码实例讲解
2024-05-31 19:14

AGI大模型与大数据研究院的博客 Pregel原理与代码实例讲解 ...在现代大数据时代,图计算扮演着越来越重要的角色。从社交网络到推荐系统,从金融风控到生物信息学,图数据无处不在。高效地处理和分析海量图数据,成为了众多行业和领域的迫切需求。
[CUDA 学习笔记] 如何优化 CUDA 矩阵乘内核以获得类似 cuBLAS 的性能: 工作日志
2024-04-21 07:17

PeakCrosser的博客写这篇文章的经历与我上一篇关于优化 CPU 上的 SGEMM的文章类似: 迭代优化 SGEMM 是深入了解硬件性能特征的最佳方法之一. 对于编写 CUDA 程序, 我感到惊讶的是, 一旦我对希望的内核工作方式进行很好地可视化后, 实现...
没有解决我的问题, 去提问