在GPU进行最小值归约运行时间比CPU长

函数实现目的：求大小为100的一维数组最小值的下标，使用的归约运算

出现问题：GPU总比CPU运行时间久（GPU：MX150，CPU：i5 8th）

@cuda.jit
def arggetmin(Fitness, IN_index, OutResult, OutIndex, n):
    tid = cuda.threadIdx.x;
    idx = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    tmp = cuda.shared.array(shape=BLOCK_SIZE, dtype=float32)
    index = cuda.shared.array(shape=BLOCK_SIZE, dtype=int32)
    tmp[tid] = MAX
    if (tid > n): return

    #将数据传入共享内存
    if (idx < n):
        tmp[tid] = Fitness[idx]
        index[tid] = IN_index[idx]
    else:
        tmp[tid] = MAX
        index[tid] = IN_index[idx]

    cuda.syncthreads();

    #没个块内进行归约处理
    stride = int(cuda.blockDim.x / 2)
    while stride > 0:
        if (tid < stride):
            if (tmp[tid] > tmp[tid + stride]):
                tmp[tid] = tmp[tid + stride]
                index[tid] = index[tid + stride]
        cuda.syncthreads()
        stride = int(stride / 2)

    if (tid == 0):
        OutResult[cuda.blockIdx.x] = tmp[0]
        OutIndex[cuda.blockIdx.x] = index[0]

def main():
    n = 100        #数组大小
   
   #生成数组和下标
    a = getRamdomlist(n)
    index = getIndex(n)
    
    #传入到GPU中
    a_device = cuda.to_device(a)
    index_device = cuda.to_device(index)

    threads_per_block = BLOCK_SIZE
    block_per_grid = math.ceil(n / threads_per_block)
    gpu_result = cuda.device_array(shape=block_per_grid, dtype=float) 
    gpu_index = cuda.device_array(shape=block_per_grid, dtype=int)

    #GPU部分
    time1 = perf_counter()
    arggetmin[block_per_grid, threads_per_block](a_device, index_device, gpu_result, gpu_index, n)
    cuda.synchronize()
    time2 = perf_counter()
    print("matmul GPU time :", (time2 - time1))
  
    #CPU部分
    start = perf_counter()
    innn = np.argmin(a)
    end = perf_counter()
    print("matmul CPU time :", (end - start))


if __name__ == "__main__":
    main()

GPU运算时间0.5s左右，CPU运算时间0.0005s左右

使用过“循环展开”的方法，但结果更加糟糕。（运行Nvidia官方的“矩阵乘法”的代码时，使用共享内存的代码比不使用共享内存的代码要慢）

为什么会出现这种情况，一直不太明白

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

GISer Liu 2023-02-17 03:22

关注

以下答案引用自GPT-3大模型,请合理使用：

示例，谢谢

这可能是因为使用了不正确的共享内存的实现，或者由于没有考虑到适当的优化。如果要使用共享内存，则需要确保使用一致的数据结构和传输方式，以便每个线程可以快速访问内存中的数据。这样可以减少CPU和GPU之间的交互，大大加快计算性能。

此外，还有一些实用的优化技巧，比如常量表达式计算，以及使用特定于 GPU 的指令集和函数，可以使代码更加有效。以下是一个示例，实现本问题的优化版本：

@cuda.jit
def arggetmin_opt(Fitness, IN_index, OutResult, OutIndex, n):
    tid = cuda.threadIdx.x;
    idx = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    tmp = cuda.shared.array(shape=BLOCK_SIZE, dtype=float32)
    index = cuda.shared.array(shape=BLOCK_SIZE, dtype=int32)
    tmp[tid] = MAX
    if (tid > n): return

    #将数据传入共享内存
    if (idx < n):
        tmp[tid] = Fitness[idx]
        index[tid] = IN_index[idx]
    else:
        tmp[tid] = MAX
        index[tid] = IN_index[idx]

    cuda.syncthreads();

    #没个块内进行归约处理
    stride = cuda.blockDim.x 
    while stride > 0:
        if (tid < stride):
            if (tmp[tid] > tmp[tid + (stride >>1)]):
                tmp[tid] = tmp[tid + (stride >>1)]
                index[tid] = index[tid + (stride >>1)]
        cuda.syncthreads()
        stride = (stride >> 1) 

    if (tid == 0):
        OutResult[cuda.blockIdx.x] = tmp[0]
        OutIndex[cuda.blockIdx.x] = index[0]

如果我的回答解决了您的问题，请采纳我的回答

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

在GPU进行最小值归约运行时间比CPU长 python 算法
2023-02-16 23:35

回答 3 已采纳以下答案引用自GPT-3大模型,请合理使用：示例，谢谢这可能是因为使用了不正确的共享内存的实现，或者由于没有考虑到适当的优化。如果要使用共享内存，则需要确保使用一致的数据结构和传输方式，以便每个
CUDA编程学习＜2＞——归约算法的7种优化方法详解
2022-02-16 11:05

鸿儒517的博客原文章只介绍了归约算法的一般形式，而PPT中则对比了几种归约算法，但是PPT写的不够完整，不便于系统的运行起来。为了学习CUDA及其优化技巧，特此整理 Nvidia官网归约ppt （英文）中文PPT 关于代码核函数的部分可以...
GPU计算（一）
2020-07-07 22:42

亦心ll的博客图形处理、也就是显示核心，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器。用途是将计算机系统所需要的显示信息...
那些年CUDA编程那些事（三）
2021-09-15 22:40

小落叶不憨的博客使用CUDA和OpenCV将图像进行分块处理1、概述2、实现步骤2.1 使用OpenCV输入一张8000*1000的单通道图像2.2 为CUDA数组分配内存2.3 分配线程和线程，执行核函数2.4 结果输出与程序结束3、核函数的具体实现过程3.1 定义...
OpenCL 平台模型 - 执行模型 - 内存模型 - 编程模型
2020-08-16 23:16

Yongqiang Cheng的博客创建将在平台上运行的指令块 (内核)。建立并管理计算中涉及的内存对象。在系统中正确的组件上按正确的顺序执行内核。收集最终结果。上述步骤通过 OpenCL 中的一系列 API 再加上一个面向内核的编程环境来完成，...
6.CUDA编程手册中文版---附录A&B
2022-04-16 09:32

扫地的小何尚的博客附录A 支持GPU设备列表 https://developer.nvidia.com/cuda-gpus 列出了所有支持 CUDA 的设备及其计算能力。可以使用运行时查询计算能力、多处理器数量、时钟频率、设备内存总量和其他属性（参见参考手册）。附录B...
Hugging Face高效训练技术一：单 GPU 高效训练（Gradient Accumulation、Gradient Checkpointing、混合精度训练、优化其选择）
2023-11-06 01:16

神洛华的博客介绍了单GPU训练的优化技巧
量化神经网络的有效部署
2021-09-01 17:30

Linux基金会AI&Data基金会的博客整体上对比 TVM-fp32，QNN-int8 在 Intel Cascade Lake CPU 和 Nvidia T4 GPU 上分别取得了 2.35 和 2.13 倍的加速效果，在 ARM Raspberry Pi3 和 Pi4 上分别取得了 1.35 和 1.40 倍的加速效果。 Fig.5 QNN 在服务器...
CUDA编程第三章: CUDA执行模型
2021-02-03 11:59

Janus_V的博客通过上一章的练习, 你已经学会了如何在网格和线程块中组织线程以获得最佳的性能. 尽管可以通过反复试验找到最佳的执行配置, 但你可能仍然会感到疑惑, 为什么选择这样的执行配置会更好. 你可能想知道是否有一些选择...
13.TensorRT中文版开发教程-----TensorRT的最佳性能实践与性能调优
2022-05-10 08:55

扫地的小何尚的博客在开始使用 TensorRT 进行任何优化工作之前，必须确定应该测量什么。没有衡量标准，就不可能取得可靠的进展或衡量是否取得了成功 Latency 网络推理的性能度量是从输入呈现给网络到输出可用所经过的时间。这是单个...
(四）、CUDA环境安装与程序编写
2023-08-16 14:24

Wmpreturn的博客这是一个固定值，对于整个网格都是相同的 7、CUDA程序性能检测工具-nvprof nvprof是NVIDIA提供的一个命令行工具，可以被用于收集关于CUDA应用程序的性能指标数据，例如GPU利用率、内存带宽、运行时间和延迟等信息。...
Halide：一种用于优化图像处理管道中的并行性、局部性和重新计算的语言和编译器
2020-10-18 23:30

philosophia_OsO的博客给定一个时间表，我们的编译器会自动合成用于x86和ARM cpu的高质量并行矢量代码（SSE/AVX和NEON），以及与主机管理代码交织在一起的CUDA内核图形，以执行混合GPU。它使用简单但通用的区间分析自动推断所有内部分配...
tensorflow一些常用基本概念与函数
2018-06-23 11:31

gmHappy的博客转自：...1、tensorflow的基本运作为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始：import tensorflow as tf #定义‘符号’变量，也称为占位符 a = tf.placeholder("float"...
Tensorflow一些常用基本概念与函数（1）
2017-08-01 16:16

小旋锋的博客摘要：本文主要对tf的一些常用概念与方法进行描述。1、tensorflow的基本运作为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始： import tensorflow as tf #定义‘符号’变量，也称为占位符 a = tf....
【转载】CUDA：并行计算实现求一个矩阵中的最大值的几种方法
2021-02-21 14:41

NAVY_msj的博客写项目的时候遇到了过两天把他代码学东优化好更新一下（一）目的熟悉基本的CUDA程序架构以及如何调用相应的API进行CUDA编程 ...掌握如何运用共享内存与并行归约... 实现4个版本，分别计算运行时间 版本1：C...
我的CUDA学习之旅1——大图像分块处理程序（包括求均值，最大值等）
2017-07-17 22:06

MGotze的博客在本人所从事的图像处理领域，在一些大图像的处理上（4K以上图像），仅仅依靠CPU进行计算已经完全无法满足工程项目所要求的运行时间，这时候我们就需要利用CUDA对代码进行加速。本文以一个8000*1000图
Tensorflow一些常用基本概念与函数
2016-12-30 10:43

Terry无敌的博客为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始： import tensorflow as tf #定义‘符号’变量，也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(a, b) #构造一个...
Android NDK开发详解RenderScript之RenderScript 概览
2023-11-19 09:19

五一编程的博客原生开发套件 (NDK) 是一套工具，使您能够在 Android 应用中使用 C 和 C++ 代码，并提供众多平台库，您可使用这些平台库管理原生 activity 和访问实体设备组件，例如传感器和触控输入。NDK 可能不适合大多数 Android...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月16日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

在GPU进行最小值归约运行时间比CPU长

函数实现目的：求大小为100的一维数组最小值的下标，使用的归约运算

出现问题：GPU总比CPU运行时间久（GPU：MX150，CPU：i5 8th）

GPU运算时间0.5s左右，CPU运算时间0.0005s左右

使用过“循环展开”的方法，但结果更加糟糕。（运行Nvidia官方的“矩阵乘法”的代码时，使用共享内存的代码比不使用共享内存的代码要慢）

为什么会出现这种情况，一直不太明白

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新