cuda向设备端传递多个一维数组，并在核函数修改数组元素值

现在有多个一维数组，我想将他们拷贝到设备端修改他们的值，然后拷贝回host端，代码如下：
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "helper_cuda.h"
#include
#include
using namespace std;
#define N 10
global void gpuKernel(int ptr)
{

int tid=threadIdx.x;
int bid=blockIdx.x;
if (tid<N &&bid<N)
{

ptr[bid][tid]=N;

}
}
int main()
{
int **hptr,hostArray;
int dptr,devArray;
hptr=new int [N];
cudaMalloc(&dptr,N*sizeof(int));

hostArray=new int *[N];
devArray=new int *[N];
for (int i=0;i<N;i++)
{
hostArray[i]=new int[N];
for (int j=0;j<N;j++)
{
hostArray[i][j]=1;
}
}
for (int i=0;i<N;i++)
{
cudaMemcpy(devArray[i],hostArray[i],N*sizeof(int),cudaMemcpyHostToDevice);
hptr[i]=devArray[i];//保存每个数组的头指针
}

cudaMemcpy(dptr,hptr,N*sizeof(int*),cudaMemcpyHostToDevice);    
dim3 dimblock=N;
dim3 dimgrid =N;
gpuKernel<<<dimgrid,dimblock>>>(dptr);
for (int i=0;i<N;i++)
{       cudaMemcpy(hostArray[i],devArray[i],N*sizeof(int),cudaMemcpyDeviceToHost);      
}
for (int i=0;i<N;i++)
{
    for (int j=0;j<N;j++)
    {
        cout<<hostArray[i][j]<<",";
    }
    cout<<endl;

}
//free memory
for (int i=0;i<N;i++)
{
    delete []hostArray[i];
    cudaFree(devArray[i]);
}
cudaFree(dptr);
/*cudaFree(devArray);*/
delete[]hptr;
delete []hostArray;
delete[]devArray;   

return 0;

}
最终结果是元素值都为修改，纠结这个问题几天了，并且仔细拜读bendanban大神的博客http://blog.csdn.net/bendanban/article/details/7669624，可能自己理解有误，望各位大神指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
在cuda中如何挑选gpu数组中满足特定条件的数据,并组成一个新的数组(不要把值赋给cpu计算)
2018-07-31 08:59

回答 1 已采纳 https://zhidao.baidu.com/question/1516426737538017540.html 楼主看看这个和你的问题一样。
cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
cuda向设备端传递多个一维数组，并在kernel中引用方法
2014-04-20 22:18

轻云流风的博客向device端传递N个一维数组： 1，应该在主机端开辟N个一维数组，然后在device端开辟N个一维数组，并将数据从主机端复制设备端 2.分别在主机端和设备端开辟N个指针数组，主机端指针...//功能：创建多个一维数组，在dev
关于CUDA传一维数组到单个线程求和
2016-06-01 08:02

回答 1 已采纳 http://www.cnblogs.com/Romi/archive/2012/04/20/2459817.html
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
cuda核函数奇怪的问题？ c语言
2019-01-17 11:06

回答 1 已采纳已解决，因为在窗口系统下，Kernel函数的执行有时间限制，Kernel函数执行时间过长而出错了
CUDA多个核函数kernel之间的数据如何传递
2021-11-30 21:11

Jinyerr的博客 CUDA多个核函数kernel之间的数据如何传递
在较大规模计算中，cuda核函数中执行配置的线程数量为20万，程序可以运行。若想要运行更多的线程数量，有哪些解决方案？ c++ pytorch 有问必答神经网络
2022-04-25 22:11

回答 1 已采纳单卡的话也可以尝试对数据进行分割，多次传入GPU计算。GeForce RTX 3060 有 3,584 CUDA core，要是追求CUDA core的数量的话可以考虑RTX A40, RTX A60
在CUDA编程模型中, __global__ func()这个函数可以在device function中被调用吗? 是不是只能在CPU端调用? c语言 python
2022-05-29 13:31

回答 1 已采纳可以在设备中调用的，但是必须保证你的GPU架构大于3.0
处有未经处理的异常: 将一个无效参数传递给了将无效参数视为严重错误的函数。？ c++
2021-12-27 01:01

回答 1 已采纳数组越界了，你确定你给每一个数组分配了足够的内存？
CUDA学习笔记1——线程组织、HelloWorld、数组相加、内存结构、核函数、设备函数
2023-12-10 12:04

ILL.的博客一个SM中寄存器的数量比较有限，一旦核函数使用了超过硬件限制的寄存器数量，则会使用本地内存来代替多占用的寄存器，这种寄存器溢出的情况会带来性能上的不利影响，实际编程过程中我们应该避免这种情况。操作系统在...
CUDA C++ 对核函数同时传递多张图像
2022-08-09 16:05

哦嚯、的博客可将图像放进一个数组中，通过传递一个指针，核函数可访问多张图像；在核函数处理结束后，将处理后的图像重新传回CPU中。
OpenCV二维Mat数组（二级指针）在CUDA中的使用
2017-11-12 13:16

weixin_30699831的博客在写CUDA核函数的时候形参往往会有很多个，动辄达到10-20个，如果能够在CPU中提前把数据组织好，比如使用二维数组，这样能够省去很多参数，在核函数中可以使用二维数组那样去取数据简化代码结构。当然使用二维数据会...
cuda学习笔记4——cuda 核函数
2022-12-16 17:49

翟羽嚄的博客 核函数是指在GPU端运行的代码，核函数内部主要干了什么？简而言之，就是规定GPU的各个线程访问哪个数据并执行什么计算。
没有解决我的问题, 去提问

悬赏问题

¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
¥15 onvif+openssl，vs2022编译openssl64
¥15 iOS 自定义输入法-第三方输入法

码龄粉丝数原力等级 --

cuda向设备端传递多个一维数组，并在核函数修改数组元素值

0条回答

悬赏问题