CUDA 原子操作当每个线程的原子操作次数过多就会导致计算错误

问题遇到的现象和发生背景

问题现象：在使用CUDA并行计算时，有一个步骤需要叠加数组内元素的和，直接相加必然会出现线程抢夺资源导致的计算错误，所以要使用原子操作功能。但是我发现当每个线程计算次数超过一定数时，计算结果就会出现错误，结果变成一个特别大的数，仿佛是超过表示限制了。

发生背景：使用cuda计算点云平均点距，需要对图像上像素对应的每个点的距离进行总和再除以点数，这就需要使用原子加和操作atomicAdd()。操作的数据类型是双精度浮点数double。但是我使用的是计算能力为3.5的GT720显卡（mutiProcessorCount = 1，maxThreadsPerBlock = 1024），不支持double类型原子操作，需要对原子操作进行重载，按照官网的重载代码完成了对double类型的计算功能实现。
但是实际实验发现，我在核函数当中想要用for循环计算所有点的点距和，一共有1920*1200个点，我调用了共2048个线程，需要每个线程执行for循环计算1125次，但是这样计算结果就会出错，变成一个非常大的数字(-6.27744e+066)，但是当我只计算一两万个点的时候，计算结果就没有错误。
为了方便查看测试结果是否正确，我假设每个点的点距都是1，这样有多少点正确的数就是多少。

问题相关代码

int iThreadNum = 256; 
int iBlockNum = 8;
__global__ add(const int iImageW, const int iImageH,int const iThreadNum ,const int iBlockNum ,,double* result)
{
  const int iImageSize = iImageW *  iImageH;
const int tid = threadIdx.x;
const int bid = blockIdx.x;

  for (int t = bid *iThreadNum + tid ; t <  iImageSize ; t += iBlockNum * iThreadNum)
  {
      atomicAdd(&(result[0]), 1.0);
  }
}

把iImageSize 改成 2048 后计算结果正常，
经过测试iImageSize一旦大于368640就会出错。

int iThreadNum = 256; 
int iBlockNum = 8;
__global__ add(const int iImageW, const int iImageH,int const iThreadNum ,const int iBlockNum ,,double* result)
{
  const int iImageSize = 2048;
const int tid = threadIdx.x;
const int bid = blockIdx.x;

  for (int t = bid *iThreadNum + tid ; t <  iImageSize ; t += iBlockNum * iThreadNum)
  {
      atomicAdd(&(result[0]), 1.0);
  }
}

运行结果及报错内容

第一个核函数结果：
result[0] = -6.27744e+066
第二个核函数结果
result[0] = 2048

我想要达到的结果

想要搞清楚问题出在哪，在英伟达显卡的官网cuda指导书上没有发现类似问题的描述，以及如何才能正确计算大量数的双精度浮点数的和。请您能够指点一下万分感谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2022-02-16 16:16
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
【cuda编程】CUDA中的atomic原子操作
2022-10-31 11:30

非晚非晚的博客所谓原子操作，就是该操作绝不会在执行完毕前被任何其他任务或事件打断，也就说，它的最小的执行单位，不...基于这个机制，原子操作实现了在多个线程间共享的变量的互斥保护，确保任何一次对变量的操作的结果的正确性。
cuda编程数据传输 c++ 有问必答
2022-07-13 15:45

回答 2 已采纳可以看一下下面这篇文章： CUDA编程记之一基本使用及线程、同步、存储器_辜易的博客-CSDN博客_cuda 线程同步欢迎大家一起来观摩我
在较大规模计算中，cuda核函数中执行配置的线程数量为20万，程序可以运行。若想要运行更多的线程数量，有哪些解决方案？ c++ pytorch 有问必答神经网络
2022-04-25 22:11

回答 1 已采纳单卡的话也可以尝试对数据进行分割，多次传入GPU计算。GeForce RTX 3060 有 3,584 CUDA core，要是追求CUDA core的数量的话可以考虑RTX A40, RTX A60
cuda运行错误，call to cuMemcpy failed, 返回错误代码700
2018-09-13 07:53

回答 1 已采纳 https://blog.csdn.net/u012348774/article/details/49663299
VS2017 CUDA编程学习8：线程同步-原子操作
2021-10-21 00:06

DU_YULIN的博客 C++ CUDA实现原子操作3. 执行结果总结学习资料 VS2017 CUDA编程学习1：CUDA编程两变量加法运算 VS2017 CUDA编程学习2：在GPU上执行线程 VS2017 CUDA编程学习3：CUDA获取设备上属性信息 VS2017 CUDA编程学习4：CUDA...
Nvida GEforce GTX 1650支不支持CUDA编程吗？ c++
2019-07-17 11:27

回答 6 已采纳经过自己测试（可以在visual studio上编写CUDA程序），确实是支持的。
cuda编程困惑cudaMemcopy
2017-10-18 06:30

回答 2 已采纳 cudaMemcopy是CPU和GPU两者共同作用的结果。 GPU编程就是八股文，共分三个步骤： 1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中， 2、启动
显示驱动显示 CUDA Version: 12.0可以安装 CUDA 11.7吗？人工智能深度学习计算机视觉
2023-02-20 19:11

回答 4 已采纳你这个是驱动能支持的cuda最大版本，也就是说你目前的这个驱动可以支持到cuda12.0，如果有cuda12.1你这个驱动就用不了了，所以是可以安装cuda11.7的，只要不高于这个12.0版本就行
计算机视觉基于CUDA编程的入门与实践线程及同步三
2022-12-28 20:45

坐望云起的博客该函数会从逻辑上保证，每个调用它的线程对相同的内存区域上的“读取旧值-累加-回写新值”操作是不可被其他线程扰乱的原子性的整体完成的。就需要共享内存，当很多线程并行工作并且访问相同的数据或者存储器位置的...
vscode写cuda代码，如何像写c++那样写完可以一键格式化代码(format)? c++ c语言 ide 开发语言
2020-12-01 10:06

回答 2 已采纳 https://blog.csdn.net/qq_35333978/article/details/110201655
【高性能计算】CUDA编程之线程存储与原子操作（教程与代码-2）
2022-02-25 13:09

Carlos橘子柠檬的博客 gridDim.x*blockDim.x来计算，前者代表了本次启动的块的数量，而后者代表了每个块里面的线程数量，然后每次while循环，tid变量加上这个值，向后偏移以得到下个任务的索引所有线程都有一个寄存器堆，它是最快的。 ...
cuda 原子锁&多线程操作&通用原子操作
2020-12-15 15:24

Limiao_123的博客经历了很多奇奇怪怪的bug，整理一下。...这里就用到了cuda的通用原子操作。也许有人会问，cuda提供了一些原子操作函数，能不能直接用呢？cuda提供的原子函数适用于简单的单一变量判断加减，而对于需要复
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月15日

悬赏问题

¥20 数学建模，尽量用matlab回答，论文格式
¥15 昨天挂载了一下u盘，然后拔了
¥30 win from 窗口最大最小化，控件放大缩小，闪烁问题
¥20 易康econgnition精度验证
¥15 msix packaging tool打包问题
¥28 微信小程序开发页面布局没问题，真机调试的时候页面布局就乱了
¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能

CUDA 原子操作 当每个线程的原子操作次数过多就会导致计算错误