关于CUDA传一维数组到单个线程求和

问题是这样的，比如我有3个数组{1,2,3},{1,2,3,4,5},{10,11}它们的长度不一定相同，现在想把它们通过CUDA进行求和，最终得到结果6,15,21，分别对应1+2+3、1+2+3+4+5、10+11.现在不知道应该怎么组织cudaMalloc和cudaMemcpy来批量完成这一功能。

暂时设想的是每个threadIdx.x线程传进1个数组和一个长度，求和之后写到一个对应threadIdx.x下的result数组里。但现在不知道怎么传进去

设想的代码如下，当然还是没法运行的：

__global__ void addArray(int ** dev_a, int *dev_arraySize) {
    int i = threadIdx.x;
    int sum = 0;
    for (int k = 0; k < dev_arraySize[i]; k++) {
        sum += dev_a[i][k];
    }
    printf("第%d个数组的求和结果：%d\n", i, sum);
 }
 int main()
 {
    int a0[3] = { 1, 2, 3 };
    int a1[5] = { 1, 2, 3, 4, 5 };
    int a2[2] = { 10, 11 };
    int arraySize[3] = { 3, 5, 2 };
    int **a = new int*[3];
    a[0] = a0;
    a[1] = a1;
    a[2] = a2;

int **device_a;
int *dev_arrSize;
cudaMalloc((void**)&device_a, sizeof(int*)*3);
cudaMalloc((void**)&dev_arrSize, sizeof(int)*3);
cudaMemcpy(device_a, a, sizeof(int*)*3, cudaMemcpyHostToDevice);
cudaMemcpy(dev_arrSize, arraySize, sizeof(int)*3, cudaMemcpyHostToDevice);
addArray << <1, 3 >> >(device_a, dev_arrSize);

return 0;
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-06-01 09:39
关注
http://www.cnblogs.com/Romi/archive/2012/04/20/2459817.html

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于CUDA传一维数组到单个线程求和
2016-06-01 08:02

回答 1 已采纳 http://www.cnblogs.com/Romi/archive/2012/04/20/2459817.html
在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
在cuda中如何挑选gpu数组中满足特定条件的数据,并组成一个新的数组(不要把值赋给cpu计算)
2018-07-31 08:59

回答 1 已采纳 https://zhidao.baidu.com/question/1516426737538017540.html 楼主看看这个和你的问题一样。
CUDA By Example(四)——线程协作
2022-11-12 20:22

hhhcbw的博客主要关于CUDA中线程协作的问题，通过点积运算示例，说明了如何通过 __share__ 共享内存，以及如何通过 __syncthreads() 解决竞态问题
关于CUDA和tensorflow的对应版本 python 有问必答
2022-02-26 17:12

回答 3 已采纳 tensorflow-gpu 2.6.0tensorflow 2.5.1这个帖子也是NVIDA CUDA 11.1.114 ，希望对你有帮助：https://blog.csdn.net/MISS_XD
cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
关于pytorch无法识别cuda的问题 pytorch 深度学习
2022-01-28 09:48

回答 1 已采纳说几个思路吧：1.这是个人gpu还是公用，公用的话利用占显存的方式你不一定能读到这块gpu2.看看你的pytorch版本和cuda版本对应了嘛，不对应的话是用不了的3.重装cuda的时候，cudnn有
CUDA编程模型（一）内存管理线程管理
2022-05-12 17:50

不爱吃香菇的干饭少年的博客 2.1.4 启动一个cuda核函数 2.1.5编写核函数验证核函数 2.1.6处理错误，编译和执行 2.1.1cuda编程结构 cuda编程模型提供了，一个计算机架构抽象—作为，应用程序，和其可用硬件之间的桥梁。以上图由上至下为应用...
关于cuda和MATLAB之间编写mexfunction的问题 c++ c语言有问必答
2021-04-12 10:53

回答 2 已采纳 N是数组中的元素个数，threadsPerBlock表示每个block有多少个threads（线程），blocksPerGrid表示每一个grid有多少个blocks，它们之间的关系大致是这样的。
关于#深度学习#的问题：安装cuda问题深度学习
2023-03-22 18:46

回答 2 已采纳这个路径只是用来释放安装程序的临时路径（而不是程序被安装到的路径），然后才是正式的安装，所以这个路径在哪里无所谓
在较大规模计算中，cuda核函数中执行配置的线程数量为20万，程序可以运行。若想要运行更多的线程数量，有哪些解决方案？ c++ pytorch 有问必答神经网络
2022-04-25 22:11

回答 1 已采纳单卡的话也可以尝试对数据进行分割，多次传入GPU计算。GeForce RTX 3060 有 3,584 CUDA core，要是追求CUDA core的数量的话可以考虑RTX A40, RTX A60
CUDA编程10 线程束基本函数与协作组
2023-10-27 18:54

grace 1314的博客一个线程块不会被分配到不同的SM中，而总是在一个SM中，但一个SM可以有一个或多个线程块。不同的线程块之间可以并发或顺序地执行，一般来说不能同步（即使利用协作组，也只能在一些特殊的情况下进行线程块的同步）。...
一个cuda代码，不明白哪里有错，请指教
2017-06-08 16:09

回答 2 已采纳 __syncthreads 是所有一个block内所有线程运行到这里后才往下运行。你放到for循环里，是不是就错了呢？按照你所述的需求，就不应该有for语句。 ``` __global_
Cuda异步计算并行编程原理和存储管理
2022-12-17 07:49

papaofdoudou的博客优化时遵守的一些原则：1.Grid一定要给足block.2.Block内一定要给足thread,目的是提高并发WARP的数目，隐藏延迟.3.Block内线程的数目一定是warpsize的整数倍...因此从一个执行上下文切换到另一个执行上下文是无开销的。
一文了解GPU并行计算CUDA
2023-02-28 18:00

Lion Long的博客 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序，所编写出的程序可以在...
没有解决我的问题, 去提问

悬赏问题

¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序

关于CUDA传一维数组到单个线程求和

1条回答 默认 最新

悬赏问题

1条回答默认最新