用CUDA Kernel处理图片问题

我想用CUDA Kernel取代两个nested for loop去处理图片,图片大小为512x512。

pseudo code:

for (i=0;i<512,++i){
    for (j=0;j<512,++j){
        img[i][j]
    }
}

我每个block分配64个线程，然后4096个blocks。

template <typename Dtype>
__global__ void filterForward()
{
  uint i = (blockIdx.x * blockDim.x) + threadIdx.x;
  uint j = (blockIdx.y * blockDim.y) + threadIdx.y;

  printf("%d %d\n",i,j);


dim3 threadsPerBlock(8, 8);
dim3 numBlocks(512/threadsPerBlock.x, 511/threadsPerBlock.y); 
// NOLINT_NEXT_LINE(whitespace/operators)
filterForward<Dtype><<<numBlocks, threadsPerBlock>>>()

理想状态是print出来512x512行，遍历每个pixel的序号。但是只打出来192768行，说明有些组合没有遍历到。请问会是什么原因？

谢谢！

PS：GPU是TITAN Xp。是再写CAFFE。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
文桑 2019-08-15 04:09
关注
原因是printf的buffer有限制

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

CUDA kernel函数内for循环引发unspecific launch failure
2017-02-15 15:03

回答 3 已采纳用代码测试了下，跟release没有关系，上网搜索了下，好像是kernel运行超时导致kernel直接退出了。你用nsight打开option，修改下General->WDDM TDR Di
cuda编程数据传输 c++ 有问必答
2022-07-13 15:45

回答 2 已采纳可以看一下下面这篇文章： CUDA编程记之一基本使用及线程、同步、存储器_辜易的博客-CSDN博客_cuda 线程同步欢迎大家一起来观摩我
Nvida GEforce GTX 1650支不支持CUDA编程吗？ c++
2019-07-17 11:27

回答 6 已采纳经过自己测试（可以在visual studio上编写CUDA程序），确实是支持的。
NVIDIA CUDA并行编程语言及其矢量相加实例——一文带你快速入门
2023-10-10 19:36

张小殊.的博客 CUDA的软件堆栈由以下三层构成：如图1所示，CUDA的核心是CUDA C语言，它包含对C语言的最小扩展集和一个运行时库，使用这些扩展和运行时库的源文件必须通过nvcc编译器进行编译。图1 CUDA软件栈示意图CUDA C语言编译...
cuda与torch匹配问题 python pytorch
2022-09-23 18:53

回答 2 已采纳应该是RTX3050Ti是版本比较新，所以cuda需要11.X 可以参考https://blog.csdn.net/zc19981224/article/details/119705267?ops_
在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
cuda编程困惑cudaMemcopy
2017-10-18 06:30

回答 2 已采纳 cudaMemcopy是CPU和GPU两者共同作用的结果。 GPU编程就是八股文，共分三个步骤： 1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中， 2、启动
matlab中使用CUDA kernel GPU加速
2017-02-19 21:21

Ein027的博客使用matlab+GPU加速的前提是机器必须安装了支持CUDA的显卡，且GPU 计算能力在1.3以上。支持的GPU 可通过gpuDevice 查看GPU是否支持支持GPU加速的函数可通过methods(‘gpuArray’)查看例如fft，ifft，三角函
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
初学并行计算，安装vs和cuda,但是不能运行kernel.cu,有人能解决了吗？ c++ tensorflow
2020-03-29 23:49

回答 1 已采纳 https://blog.csdn.net/dcrmg/article/details/54446393
关于pytorch无法识别cuda的问题 pytorch 深度学习
2022-01-28 09:48

回答 1 已采纳说几个思路吧：1.这是个人gpu还是公用，公用的话利用占显存的方式你不一定能读到这块gpu2.看看你的pytorch版本和cuda版本对应了嘛，不对应的话是用不了的3.重装cuda的时候，cudnn有
【CUDA编程入门极简教程】
2022-10-09 09:59

【网络星空】的博客 2006年，NVIDIA公司发布了CUDA，CUDA是建立在NVIDIA的CPUs上的一个通用并行计算平台和编程模型，基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决比较复杂的计算难题。近年来，GPU最成功的一个应用就是深度...
RuntimeError: CUDA error: invalid device ordinal 机器学习深度学习神经网络
2021-05-31 11:10

回答 2 已采纳在程序的前面加上，后面的数字要看你的显卡数目，意思是对该程序显示哪几张显卡可以使用。如果只有一张的话，要改成0.然后就是torch设置显卡的问题。最好这么写：torch.device('cuda:
Cuda异步计算并行编程原理和存储管理
2022-12-17 07:49

papaofdoudou的博客算法描述平方和算法是一种缩减算法，缩减算法指的是从多个数据中提炼出较少的数据的一类算法，在统计中求和，找最值，均值，和方差等应用中，以及在图像处理中求一副图像的总亮度等，都是缩减算法(reduction)。...
C++学习|CUDA编程入门
2023-08-25 11:00

魔法自动机的博客 CUDA编程入门概念介绍，主要介绍核函数、线程模型以及内存管理。
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

用CUDA Kernel处理图片问题

1条回答 默认 最新

悬赏问题

1条回答默认最新