我的这段CUDA代码为何运行时间这么慢？

代码功能：使用CUDA计算一个二维图片的像素，每个像素点分配一个线程。
那么按道理运行的时间跟图片大小没关系吧，因为我为每个像素都安排了一个线程

dim3 blocks((WIDTH + THREAD_NUM - 1) / THREAD_NUM, (LENGTH + THREAD_NUM - 1) / THREAD_NUM);
    dim3 threads(THREAD_NUM, THREAD_NUM);

    global_findTheClosestSite<< <blocks, threads >> >(dthis);

    __device__  void CPolyVoronoi::device_findTheClosestSite()
{

    int x = threadIdx.x + blockIdx.x*blockDim.x;
    int y = threadIdx.y + blockIdx.y*blockDim.y;
    int offset = x + y*blockDim.x*gridDim.x;

    float minDis;
    int closestSite;
    if (offset<WIDTH*LENGTH)
    {
         minDis = 100000;
         closestSite = 0;
         CUDA::point p(pix[offset].centerPt);
         int ns = numOfSites;
         float currentDis;
        for (size_t k = 0; k < ns; ++k)
        {
             currentDis=pTop_distance3d(dseeds[k], p);
            if (currentDis < minDis)
            {
                minDis = currentDis;
                closestSite = k;
            }
        }
        colorOfPixel[offset] = closestSite;
    }
}

实际情况是，处理200*200的数据需要10s,而50*50只用0.5s。这是为什么呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-03-21 14:55
关注
gpu可以同时运行的线程不是无限多的，当然时间和数据规模有关。
而且gpu不擅长if判断，尽量把它放在外面。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么同一段代码在pycharm和jupyter上的运行结果不一样？ jupyter pycharm python
2022-09-02 09:50

回答 1 已采纳编译器不一样，不一样的编译器多多少少会有自己自身的优势
vscode写cuda代码，如何像写c++那样写完可以一键格式化代码(format)? c++ c语言 ide 开发语言
2020-12-01 10:06

回答 2 已采纳 https://blog.csdn.net/qq_35333978/article/details/110201655
在vscode可以正常运行的代码，为什么在pycharm中无法运行？开发语言
2020-02-17 15:22

回答 1 已采纳看那个红字最下面，could not open ...，对应的那个图片文件，是否在那个文件夹里面存在。拷贝过来或者在代码里指向正确的路径应该就可以。
NVIDIA CUDA并行编程语言及其矢量相加实例——一文带你快速入门
2023-10-10 19:36

张小殊.的博客图1 CUDA软件栈示意图CUDA C语言编译得到的只是GPU端代码，而要管理分配GPU资源，在GPU上分配显存并启动内核函数，就必须借助CUDA运行时的API或者CUDA驱动APIDriver API）来实现。在一个程序中只能使用CUDA运行时API...
Nvida GEforce GTX 1650支不支持CUDA编程吗？ c++
2019-07-17 11:27

回答 6 已采纳经过自己测试（可以在visual studio上编写CUDA程序），确实是支持的。
在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
求教大神，我这个CUDA到底是什么版本，为啥两种方式版本不一样？ python
2021-01-19 17:22

回答 2 已采纳一个是硬件版本11，（向下兼容驱动版本）一个是驱动版本10，
CUDA 编程简介
2024-04-29 19:05

JarodYv的博客本文用尽量通俗的语言为大家讲解 GPU 的工作原理和 CUDA 异构编程。并用向量相加、矩阵相乘为例，演示了如何在 GPU 上用 CUDA 进行异构编程。
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
cuda运行错误，call to cuMemcpy failed, 返回错误代码700
2018-09-13 07:53

回答 1 已采纳 https://blog.csdn.net/u012348774/article/details/49663299
安装了cuda,为啥VS2013里面没有cuda模块？
2017-06-10 16:27

回答 2 已采纳后来重装cuda8.0时发现，应该先安装VS2013然后才安装cuda8.0，因为安装cuda8.0时，它会配置VS2013，如果安装顺序相反，则新建项目的时候，没有nvidia模块。
一文彻底搞懂为什么OpenCV用GPU/cuda跑得比用CPU慢？
2023-03-27 18:46

利白的博客网上找原因，汇总起来，有以下几点原因：1、首先对于任何一个CUDA程序，在调用它的第一个CUDA API时后都要花费秒级的时间去初始化运行环境，后续还要分配显存，传输数据，启动内核，每一样都有延迟。这样如果你一个...
运行YOLOv5的时候显示cuda:0是什么原因 opencv pycharm python
2022-05-21 14:16

回答 1 已采纳 cuda0,指的是你gpu的编号，就是说使用的是你的第0张显卡。一般用一张显卡都是这样的。
CUDA.jl：Julia中的CUDA编程
2021-02-03 21:09

这段代码定义了一个简单的加法操作，并在GPU上执行。`@cuda`宏将函数并行化，每个线程处理数组中的一个元素。 **性能优化** CUDA.jl还提供了性能分析工具，如`@profiler`宏，用于测量函数的执行时间，帮助开发者...
并行编程cuda
2018-01-04 11:01

在标题“并行编程cuda”中，我们可以看出本文是关于CUDA（Compute Unified Device Architecture）的讨论，CUDA是一种由NVIDIA推出并行计算平台和编程模型，它使开发者能够利用NVIDIA的GPU（图形处理单元）进行通用...
没有解决我的问题, 去提问

悬赏问题

¥15 mmo能不能做客户端怪物
¥15 osm下载到arcgis出错
¥15 Dell g15 每次打开eiq portal后3分钟内自动退出
¥200 使用python编写程序，采用socket方式获取网页实时刷新的数据，能定时print（）出来就行。
¥15 matlab如何根据图片中的公式绘制e和v的曲线图
¥15 我想用Python（Django）+Vue搭建一个用户登录界面，但是在运行npm run serve时报错了如何解决？
¥15 QQ邮箱过期怎么恢复？
¥15 登录他人的vue项目显示服务器错误
¥15 (标签-android|关键词-app)
¥15 comsol仿真压阻传感器

我的这段CUDA代码为何运行时间这么慢？

2条回答 默认 最新

悬赏问题

2条回答默认最新