请问这里报错如何修改。



__global__ void gpuRecursiveReduce (int *g_idata, int *g_odata,
                                    unsigned int isize)
{
    // set thread ID
    unsigned int tid = threadIdx.x;

    // convert global data pointer to the local pointer of this block
    int *idata = g_idata + blockIdx.x * blockDim.x;
    int *odata = &g_odata[blockIdx.x];

    // stop condition
    if (isize == 2 && tid == 0)
    {
        g_odata[blockIdx.x] = idata[0] + idata[1];
        return;
    }

    // nested invocation
    int istride = isize >> 1;

    if(istride > 1 && tid < istride)
    {
        // in place reduction
        idata[tid] += idata[tid + istride];
    }

    // sync at block level
    __syncthreads();

    // nested invocation to generate child grids
    if(tid == 0)
    {
        gpuRecursiveReduce<<<1, istride>>>(idata, odata, istride);

        // sync all child grids launched in this block
        cudaDeviceSynchronize();
    }

    // sync at block level again
    __syncthreads();
}

// main from here
int main(int argc, char **argv)
{
    。。。。。
    gpuRecursiveReduce<<<grid, block>>>(d_idata, d_odata, block.x);
    。。。。。。
}

make
nvcc -O2 -arch=sm_86 -o nestedHelloWorld nestedHelloWorld.cu -lcudadevrt --relocatable-device-code true
nvcc -O2 -arch=sm_86 -o nestedReduce nestedReduce.cu -lcudadevrt --relocatable-device-code true
nestedReduce.cu(94): error: calling a host function("cudaDeviceSynchronize") from a global function("gpuRecursiveReduce") is not allowed

nestedReduce.cu(94): error: identifier "cudaDeviceSynchronize" is undefined in device code

2 errors detected in the compilation of "nestedReduce.cu".
make: *** [Makefile:8：nestedReduce] 错误 1

一本书里的示例代码，请问这里为啥有错？应该如何修改才行。gpuRecursiveReduce 既被host端调用，同时进入device里后，在device里递归调用，所以又被device调用，只能定义成__global__，还能怎么改呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-郭老师 Java领域新星创作者 2024-02-13 16:27
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，主要是为了帮助您快速解决问题，如下回答，您可以参考下，如有问题，评论区留言。
在 CUDA 中，cudaDeviceSynchronize() 是一个主机端函数，用于同步主机与设备间的执行。而在您的示例代码中，您尝试在一个设备端的 __global__ 函数（gpuRecursiveReduce）内部调用它，这是不允许的。

为了解决这个问题并实现设备端的同步，您可以移除对 cudaDeviceSynchronize() 的调用，并依赖于 __syncthreads() 来确保在同一块内的线程间完成同步。对于跨块的同步，CUDA 提供了动态协作组（Dynamic Parallelism），但请注意，这需要支持动态并行性的硬件架构（ Kepler 架构或更新的 GPU）。

针对您的代码示例，可以简单地删除 cudaDeviceSynchronize() 这一行：

// 删除这一行 // cudaDeviceSynchronize();

然而，由于这是一个递归并行化示例，要实现正确的跨块同步可能需要重新设计算法以适应没有 cudaDeviceSynchronize() 的情况。您可以通过使用事件（events）或者在主机端进行适当的 kernel 调用来间接实现同步。考虑到您目前的代码结构和设备限制，可能需要进一步调整整个递归逻辑才能正确同步不同层级的递归调用。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

vue src的图片报错的问题 vue.js
2021-07-08 16:46

回答 2 已采纳给src里面加，require，试试
C++：为什么这里需要使用引用？ofs.write((const char *)&m1, sizeof(Maker)); c++ 开发语言有问必答
2021-10-20 20:11

回答 1 已采纳晕，这不是引用啊，这是取地址符啊。就是取m1的地址，然后转换成const char*指针&只有在定义变量的时候才是引用的意思
关于firefox报错的问题
2011-12-26 11:13

回答 1 已采纳这是火狐内部出错了，一般也不需要关注，可能换个版本的火狐就ok了
执行Python程序时模块报错问题
2021-01-20 01:47

图片中以导入第三方的 ‘requests’ 模块为例，此报错提示找不到requests模块。在python中，有的模块是内置的（直接导入就能使用）有的模块是第三方的，则需要安装完成后才能导入使用，若未安装直接导入使用就会...
myibatis 标签哪里出现了问题？老是报错
2013-10-19 13:55

回答 3 已采纳 The content of element type "configuration" must match "(p roperties?,settings?,typeAliases?,typeHa
spring自动发送邮件报错？
2010-07-13 17:11

回答 2 已采纳你的库路径里有activation.jar吗？你再好好检查检查吧，应该就是缺包的
HashSet的remove方法报错问题求教
2010-10-28 17:28

回答 3 已采纳可以使用如下方式： [code="java"] for (Iterator it = testSet.iterator(); it.hasNext();) { RecordNumber
入门必学 | R语言常见的报错指南
2022-04-03 21:48

酷在前行的博客 R语言新手遇到的常见报错~
用freemarker生成word文档，文档打开报错，求高手`
2014-10-23 00:40

回答 2 已采纳 java代码第57行输出流处理完后要调用flush把内容刷新上去,并关闭输出流.试试 out.flush(); out.close();
为什么我编辑过的jsp放到服务器上总是报错?有没有思路？
2011-01-20 14:01

回答 2 已采纳感觉错误是报在com.baosight.dw.ny.TMUD_NY_TJ_DoExcel中的fromExceltoSql_1（）方法中不是说11行吗或许是TMUD_NY_TJ_DoExcel跟服务器
关于JAVA含有内部类的类编译成class后修改Class文件出现错误
2014-02-20 13:52

回答 3 已采纳针对字节码的修改（Class）需要对Class的文件结构有一定的了解，其中有这样一条会和题主遇到的问题相关：就是常量池（constant pool）： .常量池是写在Class文件头的 .方法
《自制编程语言基于c语言》读书笔记
2023-11-02 23:08

黑剑客与剑的博客很久之前，我在双十一的时候入手了一本《自制编程语言基于c语言》。这本书是写《操作系统真象还原》的作者。我当时看他的关于操作系统的这本书，非常不错，就连着这本书一起入了。但是后面，因为各种事情，没有来得...
（结构体）设一个班有若干学生(如10人)，请定义学生结构包含以下信息：学生学号、学生姓名、高级语言程序课的成绩，请写程序完成以下功能： c++ c语言算法
2022-10-27 12:18

回答 3 已采纳 grade 分配的长度不对后面要乘以n 上面只分了一个区间
实现不同编程语言间的自由代码转换需要注意些什么？【经验分享】
2022-10-25 12:03

巴山学长的博客循环控制就是咱们常讲的循环语句，作为循环语句的经典，for语句与while语句几乎是所有编程语言都支持的，而在代码转换中的难点也往往出现在对循环语言内容的理解上。编程的目的在于解决各种各样的实际问题，不同的...
arduino编程语言教程_Arduino语言编写(初学)
2020-12-22 09:27

weixin_39726267的博客学习Arduino就要从学习这些语句及基本函数开始，Arduino使用起来要比其他微处理器更易懂，与Basic Stamp有些相似，Arduino的编程语言更为简单和人性化，Arduino编程语言基于C语言，但其实用性要远高于C语言，主要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

请问这里报错如何修改。

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新