cuda一个global函数里调用多个核函数出问题。

caffe编写loss层时，
我一个global函数里有多个核函数，但是有时前两个核函数不执行，有时候又执行，不清楚问题出在哪里？

template <typename Dtype>
void PixelClustingLossLayer<Dtype>::Forward_gpu(
    const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) {

    const int num = bottom[0]->num();
    const int data_channels = bottom[0]->channels();
    const int mask_channels = bottom[1]->channels();
    const int height = bottom[0]->height();
    const int width = bottom[0]->width();
    const int spatial_dim = height * width;
    const int nc = num * data_channels;
    const int data_count = bottom[0]->count();
    const int mask_count = bottom[1]->count();

    Dtype* pos_num_data = pos_num_.mutable_cpu_data();
    Dtype* neg_num_data = neg_num_.mutable_cpu_data();

    caffe_gpu_set(mask_count, Dtype(0.), pixel_mask_.mutable_gpu_data());
    caffe_gpu_set(num, Dtype(0.), loss_mask_.mutable_gpu_data());
    caffe_gpu_set(num*data_channels, Dtype(0.), pos_ave_.mutable_gpu_data());
    caffe_gpu_set(num*data_channels, Dtype(0.), neg_ave_.mutable_gpu_data());
    caffe_gpu_set(num, Dtype(0.), pos_loss_.mutable_gpu_data());
    caffe_gpu_set(num, Dtype(0.), neg_loss_.mutable_gpu_data());
    caffe_gpu_set(num, Dtype(0.), center_loss_.mutable_gpu_data());

    for(int n=0; n<num; ++n) {
        caffe_gpu_asum(spatial_dim, bottom[1]->gpu_data() + n * spatial_dim, pos_num_.mutable_cpu_data() + n);   
        neg_num_data[n] = spatial_dim - pos_num_data[n];
    }

    //LOG(INFO)<<"There are "<<pos_num_.cpu_data()[0]<<" pos pixels and "<<neg_num_.cpu_data()[0]<<" neg pixels.";
    GetTotalValue<Dtype> <<<CAFFE_GET_BLOCKS(data_count), CAFFE_CUDA_NUM_THREADS>>>(data_count, bottom[0]->gpu_data(), bottom[1]->gpu_data(),
    pos_ave_.mutable_gpu_data(), neg_ave_.mutable_gpu_data(), data_channels, height, width);
    //LOG(INFO)<<"There are 111 neg pixels.";
    GetAveValue<Dtype> <<<CAFFE_GET_BLOCKS(nc), CAFFE_CUDA_NUM_THREADS>>>(nc, pos_num_.gpu_data(), neg_num_.gpu_data(),
    pos_ave_.mutable_gpu_data(), neg_ave_.mutable_gpu_data(), center_loss_.mutable_gpu_data(), data_channels);
    //LOG(INFO)<<"There are 222 neg pixels.";
    PowerEuclideanDistance<Dtype> <<<CAFFE_GET_BLOCKS(mask_count), CAFFE_CUDA_NUM_THREADS>>>(mask_count, bottom[0]->gpu_data(), bottom[1]->gpu_data(),
    pos_ave_.gpu_data(), neg_ave_.gpu_data(), euclidean_dis_.mutable_gpu_data(), mask_channels, data_channels, height, width);

    ComputePixelLoss<Dtype> <<<CAFFE_GET_BLOCKS(mask_count), CAFFE_CUDA_NUM_THREADS>>>(mask_count, bottom[1]->gpu_data(), euclidean_dis_.gpu_data(),
    pos_loss_.mutable_gpu_data(), neg_loss_.mutable_gpu_data(), pos_num_.gpu_data(), neg_num_.gpu_data(), pixel_mask_.mutable_gpu_data(), mask_channels, height, width, alpha_);

    ComputeClassLoss<Dtype> <<<CAFFE_GET_BLOCKS(num), CAFFE_CUDA_NUM_THREADS>>>(num, center_loss_.mutable_gpu_data(), loss_mask_.mutable_gpu_data(), beta_);

    caffe_gpu_add(num, neg_loss_.gpu_data(), pos_loss_.gpu_data(), loss_.mutable_gpu_data());
    caffe_gpu_add(num, loss_.gpu_data(), center_loss_.gpu_data(), loss_.mutable_gpu_data());
    Dtype loss;
    caffe_gpu_asum(num, loss_.gpu_data(), &loss);
    LOG(INFO)<<loss/Dtype(num);
    top[0]->mutable_cpu_data()[0] = loss / num;
}

主要是GetTotalValue()函数和GetAveValue()函数，偶尔执行，偶尔不执行，头都晕了。
有没有大神指点迷津。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-20 21:22
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章：[cuda]显卡间的数据复制也许有你想要的答案，你可以看看

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
在CUDA编程模型中, __global__ func()这个函数可以在device function中被调用吗? 是不是只能在CPU端调用? c语言 python
2022-05-29 13:31

回答 1 已采纳可以在设备中调用的，但是必须保证你的GPU架构大于3.0
cuda 函数指针_CUDA编程——核函数参数传递与GPU内存分配与调用
2021-02-01 01:11

A-ZJT坤的博客在程序中可以将CPU程序中的参数传递给核函数。__global__ void add(int a,int b,int *c) {*c = a + b;}int main(void) {int c;int *dev_c;//在分配GPU的内存cudaMalloc...//调用核函数add <<<1, 1 >>...
cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
cuda核函数奇怪的问题？ c语言
2019-01-17 11:06

回答 1 已采纳已解决，因为在窗口系统下，Kernel函数的执行有时间限制，Kernel函数执行时间过长而出错了
在调用类中函数的时候出现问题 python 有问必答
2023-04-12 10:32

回答 2 已采纳 a = Infer_main(model_path) a.predict(image)#########
c语言 cuda核函数,CUDA编程
2021-05-22 07:17

weixin_39811842的博客 1核函数定义：在GPU进行的函数通常称为核函数一般通过__global__修饰(在核函数里，都用双下划线来修饰)，调用通过<<>>，第一个参数代表block线程块数目，第二个参数代表线程块内含有的线程数目thread。...
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
cuda编程数据传输 c++ 有问必答
2022-07-13 15:45

回答 2 已采纳可以看一下下面这篇文章： CUDA编程记之一基本使用及线程、同步、存储器_辜易的博客-CSDN博客_cuda 线程同步欢迎大家一起来观摩我
cuda不知道哪里出了问题 tensorflow 深度学习神经网络
2022-04-23 10:28

回答 1 已采纳 cuda和cudnn的版本必须匹配，可以查阅一下版本对照表
GPU编程2---CUDA核函数和线程配置
2020-06-29 12:47

张海军2013的博客在GPU上执行的函数称为CUDA核函数（Kernel Function)，核函数会被GPU上多个线程执行，我们可以在核函数中获取当前线程的ID。 // CUDA核函数的定义 __global__ void addKernel(int *c, const int *a, const int *...
CUDA中的动态并行---如何在核函数中启动另一个核函数
2022-06-05 15:16

扫地的小何尚的博客 Dynamic Parallelism是 CUDA 编程模型的扩展，使 CUDA 内核能够直接在 GPU 上创建新工作并与新工作同步。在程序中需要的任何位置动态创建并行性提供了令人兴奋的新功能。直接从 GPU 创建工作的能力可以减少在主机和...
Cuda函数调用
2022-01-06 17:46

光膀走天涯的博客 cuda的基础函数说明
CUDA C中核函数（kernel）的编写及调用
2018-04-11 16:45

Coder802的博客 CUDA C程序中最重要的部分就是核函数（kernel）的编写和调用。在此，我们以HelloWorld程序为例，分别讲述kernel函数的编写和调用。1、kernel函数的编写：__global__ void kernel_hello(void) { printf("Hello ...
没有解决我的问题, 去提问

悬赏问题

¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程

cuda一个global函数里调用多个核函数出问题。

1条回答 默认 最新

悬赏问题

1条回答默认最新