CUDA加速为什么没有并行的效果

我对一幅图像做处理，640X480，对每个像素我分配了一个thread，即我每个block分配了640个thread，分配了480
个block。然后我对另一幅2048X1536的图像操作，我每个block分配了1024个thread，共分配了1536X2个block。用
同样的算法，问题规模增加了10倍，我不理解的是为什么运行时间也增加了10倍。不是只会增加一点读取数据的时间吗。
对CUDA的运行原理不是很了解，忘大神指教。图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MingChaoSun 2016-04-06 13:52
关注
CUDA编程的优化可不只是一味增加线程，线程增加到一定程度就不能加速了，反而会越来越慢，因为实际上GPU的处理单元还是有限的，增大线程只能在一定程度上隐藏global memory的latency，题主最好去系统学一下CUDA，不然写出来的程序是比较差的，常规的优化方法还有非常多，要想优化好一个CUDA程序，首先要设计比较合理的并行算法，举个例子来说树状加法并行就会比正常相加快很多，第一步是首先尽量优化内存带宽，因为内存带宽一般是程序的瓶颈，GPU相比CPU的一大优势就在于有非常大的内存带宽，有的能到150GB/s，这里面不单单是线程，比如考虑访问global内存的顺序，如果是顺序访问内存，而不是跳跃访问，大概会有3-8倍的加速，在线程方面使用基本没有latency的share memory 也是一个加速的手段，优化好内存带宽之后还有很多的优化技术，比如优化指令流，在误差可接受的情况下，使用CUDA算术指令集中的快速指令，避免多余的同步，资源均衡，与主机通信优化，尽量减少CPU与GPU间的传输，使用流和异步处理隐藏与主机的通信时间；使用zero-memory技术和Write-Combined memory提高可用带宽等等，所以建议去系统学一下，还是很有学问的~

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

cuda加速图像均值滤波 c++
2022-11-29 17:14

回答 2 已采纳 #include "device_launch_parameters.h"
安装了cuda,为啥VS2013里面没有cuda模块？
2017-06-10 16:27

回答 2 已采纳后来重装cuda8.0时发现，应该先安装VS2013然后才安装cuda8.0，因为安装cuda8.0时，它会配置VS2013，如果安装顺序相反，则新建项目的时候，没有nvidia模块。
运行YOLOv5的时候显示cuda:0是什么原因 opencv pycharm python
2022-05-21 14:16

回答 1 已采纳 cuda0,指的是你gpu的编号，就是说使用的是你的第0张显卡。一般用一张显卡都是这样的。
基于CUDA并行计算的中文分词算法实现
2022-10-22 15:18

1.注释非常详尽，几乎每个函数都有注释，在CUDA11与VS2019下实现，并行加速效果十分显著！ 2.同时实现了CPU多线程并行计算和CUDA并行计算两个版本，可以通过宏来选择
cuda编程困惑cudaMemcopy
2017-10-18 06:30

回答 2 已采纳 cudaMemcopy是CPU和GPU两者共同作用的结果。 GPU编程就是八股文，共分三个步骤： 1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中， 2、启动
cudnn是什么，和cuda的区别是啥 pytorch 深度学习
2022-09-15 09:32

回答 2 已采纳 cuda是工具，也就是说你的深度学习时通过cuda实现基本的计算等等的，可以控制你的GPU进行运行。cudnn是一个加速进行网络计算的库，因为深度学习的训练时很耗时的，通过cudnn可以进行提高GPU
关于#visualstudio#的问题：毕设要用到并行计算，所以需要安装CUDA，安装完和显卡适配的11.1之后，不知道为什么选择新建CUDA项目会这样 visualstudio
2021-12-31 23:04

回答 1 已采纳说明你没有安装成功或者不匹配的
CUDA学习笔记（对图像进行并行加速运算）
2022-01-10 17:57

滑了丝的螺丝钉的博客在对CUDA的kernel函数有了一定了解之后，就可以对图像进行多线程加速计算，下面是我在CPU和GPU上各自遍历一张图像，对比两者的性能差异。这里需要用到opencv的函数读取图像以及显示图像，因此opencv的头文件需要...
cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
cuda11.7安装 pytorch
2023-03-10 17:35

回答 2 已采纳这是因为 PyTorch 版本所依赖的 CUDA 版本不匹配导致的。is_valible() 是 PyTorch 1.7 的一个函数，但是你使用的 CUDA 版本可能过老了。解决方法有两种：升级
关于CUDA和tensorflow的对应版本 python 有问必答
2022-02-26 17:12

回答 3 已采纳 tensorflow-gpu 2.6.0tensorflow 2.5.1这个帖子也是NVIDA CUDA 11.1.114 ，希望对你有帮助：https://blog.csdn.net/MISS_XD
利用cuda加速matlab,使用CUDA加速MATLAB程序
2021-04-23 14:53

缪加的博客 MATLAB十分擅长矩阵计算，如能借助CUDA工具箱调用NVIDIA GPU加速并行运算，能起到如虎添翼的效果。最简单的调用方法是使用gpuArray()函数数据放到GPU上运算，再用gather()函数将结果取回(前提是运算支持gpuArray类型...
cuda与torch匹配问题 python pytorch
2022-09-23 18:53

回答 2 已采纳应该是RTX3050Ti是版本比较新，所以cuda需要11.X 可以参考https://blog.csdn.net/zc19981224/article/details/119705267?ops_
一文了解GPU并行计算CUDA
2023-02-28 18:00

Lion Long的博客 CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出...开发人员可以使用C语言来为CUDA™架构编写程序，所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
基于GPU的受限玻尔兹曼机并行加速
2021-01-13 04:29

为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题，提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤；其次结合以往GPU并行方案，提出采用CUBLAS执行...
没有解决我的问题, 去提问

悬赏问题

¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试，帮帮忙吧
¥15 #MATLAB仿真#车辆换道路径规划