我想用CUDA处理一组图像,算法需要逐点处理,就是在每个点附近取[256,256]个像素,然后进行一些傅立叶变换,矩阵相乘的操作,目前的想法是生成多个流,每个流处理一个像素,也就是每个流以某一个像素为中心取[256,256]个像素矩阵,然后流内通过多个thread并行处理这个像素块。现在的问题时,如何使得多个流之间也能并发处理?因为有资源限制,如果想让多流并行,我应该如何设置每个流中的thread,block数量?
1条回答 默认 最新
悬赏问题
- ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
- ¥15 安装quartus II18.1时弹出此error,怎么解决?
- ¥15 keil官网下载psn序列号在哪
- ¥15 想用adb命令做一个通话软件,播放录音
- ¥30 Pytorch深度学习服务器跑不通问题解决?
- ¥15 部分客户订单定位有误的问题
- ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
- ¥15 Bug traq 数据包 大概什么价
- ¥15 在anaconda上pytorch和paddle paddle下载报错
- ¥25 自动填写QQ腾讯文档收集表