为什么CUDA流之间无法重叠核函数执行和数据拷贝？

救救孩子吧，快被这个弄死了。。。最近在自学CUDA的流，写了一段程序，win10, cuda10.2, GTX1660ti(计算能力7.x)。预期是可以将核函数执行和数据拷贝overlap起来，隐藏执行时间，但是用了Nsight Systems发现并没有，下面是代码及其分析结果

// src.Tens 是host端的一个数组地址， S_K_0,S_C_0,S_C_1 都是流， dev_开头的都指向device端内存
// copy the thrid part(next)
	checkCudaErrors(cudaMemcpyAsync(dev_src_0, src.Tens + (src.plane << 1), src.plane * __SPACE__, cudaMemcpyHostToDevice, S_K_0));

	// copy back the first part
	checkCudaErrors(cudaMemcpyAsync(dst.Tens, dev_dst_0, dst.plane * __SPACE__, cudaMemcpyDeviceToHost, S_C_0));


	// start the second part
	Gaussian_blur_hor << < grid, threads, 0, S_C_1 >> > (dev_src_1,
		kernel,
		dev_mid_1,
		ker_len,
		radius,
		dstDim,
		dim3(Wsrc, Hsrc),
		radius);

	Gaussian_blur_ver << <grid, threads, 0, S_C_1 >> > (dev_mid_1,
		kernel,
		dev_dst_1,
		ker_len,
		radius,
		dstDim,
		dim3(Wsrc, Hsrc));

	checkCudaErrors(cudaStreamSynchronize(S_C_1));

核函数执行时间最长，本来我同步核函数所在的流S_C_1的时候，两个拷贝应该已经执行完了，但是拷贝一定要等到核函数执行完再执行，这是为啥啊lol。然后我改了一下代码，把cudaStreamSynchronize()去掉了

// copy the thrid part(next)
	checkCudaErrors(cudaMemcpyAsync(dev_src_0, src.Tens + (src.plane << 1), src.plane * __SPACE__, cudaMemcpyHostToDevice, S_K_0));

	// copy back the first part
	checkCudaErrors(cudaMemcpyAsync(dst.Tens, dev_dst_0, dst.plane * __SPACE__, cudaMemcpyDeviceToHost, S_C_0));


	// start the second part
	Gaussian_blur_hor << < grid, threads, 0, S_C_1 >> > (dev_src_1,
		kernel,
		dev_mid_1,
		ker_len,
		radius,
		dstDim,
		dim3(Wsrc, Hsrc),
		radius);

	Gaussian_blur_ver << <grid, threads, 0, S_C_1 >> > (dev_mid_1,
		kernel,
		dev_dst_1,
		ker_len,
		radius,
		dstDim,
		dim3(Wsrc, Hsrc));

    //去掉了流同步
	//checkCudaErrors(cudaStreamSynchronize(S_C_1));

然后完美重叠（我前面有一段拷贝H to D是因为我有一段代码拷贝了，没贴出来）

救救孩子吧lol，我研究了好久都不知道是为什么

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
enloquecer 2021-05-20 16:21
关注
忘记声明了：我在主机端用的是锁页内存，用cudaHostAlloc(cudaHostAllocDefault)分配的，查了一下自己的设备，也是支持overlap的

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
cuda核函数奇怪的问题？ c语言
2019-01-17 11:06

回答 1 已采纳已解决，因为在窗口系统下，Kernel函数的执行有时间限制，Kernel函数执行时间过长而出错了
CUDA流-数据复制与核函数执行并行
2016-12-13 17:14

跬步达千里的博客 1. CUDA流介绍 CUDA流在加速应用程序方面起着重要的作用。...我们可以在流中添加一些操作，如核函数启动，内存复制等。将这些操作添加到流的顺序也就是他们的执行顺序。你可以将每个流视为GPU上的一个任务，并且这
在较大规模计算中，cuda核函数中执行配置的线程数量为20万，程序可以运行。若想要运行更多的线程数量，有哪些解决方案？ c++ pytorch 有问必答神经网络
2022-04-25 22:11

回答 1 已采纳单卡的话也可以尝试对数据进行分割，多次传入GPU计算。GeForce RTX 3060 有 3,584 CUDA core，要是追求CUDA core的数量的话可以考虑RTX A40, RTX A60
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
安装了cuda,为啥VS2013里面没有cuda模块？
2017-06-10 16:27

回答 2 已采纳后来重装cuda8.0时发现，应该先安装VS2013然后才安装cuda8.0，因为安装cuda8.0时，它会配置VS2013，如果安装顺序相反，则新建项目的时候，没有nvidia模块。
CUDA C编程（十九）重叠内核执行和数据传输
2022-01-15 21:36

伴君的博客 // malloc pinned host memory for async memcpy // 在前面向量加法的程序中，数据传输是通过同步复制函数来实现的 // 要重叠数据传输和内核执行，必须使用异步复制函数 // 因为异步复制函数需要固定的主机内存，...
关于cuda和MATLAB之间编写mexfunction的问题 c++ c语言有问必答
2021-04-12 10:53

回答 2 已采纳 N是数组中的元素个数，threadsPerBlock表示每个block有多少个threads（线程），blocksPerGrid表示每一个grid有多少个blocks，它们之间的关系大致是这样的。
cudnn是什么，和cuda的区别是啥 pytorch 深度学习
2022-09-15 09:32

回答 2 已采纳 cuda是工具，也就是说你的深度学习时通过cuda实现基本的计算等等的，可以控制你的GPU进行运行。cudnn是一个加速进行网络计算的库，因为深度学习的训练时很耗时的，通过cudnn可以进行提高GPU
求教大神，我这个CUDA到底是什么版本，为啥两种方式版本不一样？ python
2021-01-19 17:22

回答 2 已采纳一个是硬件版本11，（向下兼容驱动版本）一个是驱动版本10，
【GPU】Nvidia CUDA 编程中级教程——数据复制与计算的重叠
2022-08-08 22:50

从善若水的博客名为默认流的特殊流（此处标记为 stream0），其他所有流均称为非默认流（此处标记为 streams 1-3）。同一流中的操作将依发布顺序执行。然而，不同的非默认流中启动的操作并无固定的执行顺序。...
CUDA C/C++ 流和并发
2021-04-18 14:47

奕星星奕的博客 1、同时执行多个CUDA操作的能力（超越多线程并行） CUDA Kernel <<<>>> cudaMemcpyAsync(HostToDevice) cudaMemcpyAsync(DeviceToHost) CPU上的操作 2、Fermi 体系结构可以同时支持（计算...
【CUDA 基础】6.3 重叠内和执行和数据传输
2018-06-26 18:13

weixin_30642029的博客 title: 【CUDA 基础】6.3 重叠内和执行和数据传输 categories: - CUDA - Freshman tags: - 深度优先 - 广度优先 toc: true date: 2018-06-20 20:10:09 Abstract: 本文介绍如何利用流的重叠来隐藏主机到设备的数据...
cuda流硬件原理和多流优化
2022-01-19 17:02

zidian666的博客创建流 cudaStream_t stream; cudaStreamCreate(&stream); kernel<<<>>>分配符第四个参数可带stream，GPU将顺序执行已经放到stream中的工作。 fun<<<16, 256, 0, stream>&...
没有解决我的问题, 去提问

悬赏问题

¥20 基于MSP430f5529的MPU6050驱动，求出欧拉角
¥20 Java-Oj-桌布的计算
¥15 powerbuilder中的datawindow数据整合到新的DataWindow
¥20 有人知道这种图怎么画吗？
¥15 pyqt6如何引用qrc文件加载里面的的资源
¥15 安卓JNI项目使用lua上的问题
¥20 RL+GNN解决人员排班问题时梯度消失
¥60 要数控稳压电源测试数据
¥15 能帮我写下这个编程吗
¥15 ikuai客户端l2tp协议链接报终止15信号和无法将p.p.p6转换为我的l2tp线路

为什么CUDA流之间无法重叠核函数执行和数据拷贝？

2条回答 默认 最新

悬赏问题

2条回答默认最新