CUDA中使用VisualProfiler进行优化遇到这样一个问题，该怎么解决？

对于VisualProfiler的使用，新建NewSession，在File处选择已经编译好后出现的.exe文件，
然后点next，点finish后出现如图所示错误：

            问题描述为：The application being profiled returned a non-zero return code.
            百度翻译为：正在被配置的应用程序返回非零返回代码。
            通过网上搜寻，可能的解决办法是：
            1.内存没释放完全
            2.主函数末尾需要添加cudaThreadExit();
            3.主函数末尾添加cudaFree(0);
            如果上述解决办法，解决了，我是不会来这里提问的。
            问题就是没有解决！！！
            其中，我用一段HelloWorld.cu测试，可以使用VisualProfiler

 //使用CUDA的第一个独立编程。简要使用CUDA。
//功能：从主机向设备传入数组a、b，计算a、b数组的和，传入数组c中，再传回主机。

#include<stdio.h>
#include<stdlib.h>
#include<cuda_runtime.h>
#include "device_launch_parameters.h"

#define N 200000

__global__ void Add(int *d_a, int *d_b, int *d_c);

int main()
{
    int *a = (int*)malloc(sizeof(int)*N);
    int *b = (int*)malloc(sizeof(int)*N);
    int *c = (int*)malloc(sizeof(int)*N);
    //CPU计算
    for (int i = 0; i < N; i++)
    {
        a[i] = i;
        b[i] = i;
        c[i] = a[i] + b[i];
    }
    printf("CPU  :  c[N-1] = %d\n", c[N - 1]);
    for (int i = 0; i < N; i++)
    {
        c[i] = 0;
    }
    printf("c[N-1] = %d\n", c[N - 1]);
    int *d_a;
    int *d_b;
    int *d_c;
    cudaMalloc((void**)&d_a, sizeof(int)*N);
    cudaMalloc((void**)&d_b, sizeof(int)*N);
    cudaMalloc((void**)&d_c, sizeof(int)*N);
    dim3 block_add((N + 256 - 1) / 256, 1);
    dim3 thread_add(256, 1);

    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start, 0);
    cudaMemcpy(d_a, a, sizeof(int)*N, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, sizeof(int)*N, cudaMemcpyHostToDevice);
    Add << <block_add, thread_add >> > (d_a, d_b, d_c);
    cudaMemcpy(c, d_c, sizeof(int)*N, cudaMemcpyDeviceToHost);
    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float tm;   //创建时间变量


    cudaEventElapsedTime(&tm, start, stop);//把事件的时间记录下来
    cudaEventDestroy(start);    //销毁事件
    cudaEventDestroy(stop);     //销毁事件
    printf("GPU Elapsed time:%.6f ms.\n", tm);    //屏幕显示时间
    printf("GPU  :  c[N-1] = %d", c[N - 1]);
    free(a);
    free(b);
    free(c);
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    return 0;
}

__global__ void Add(int *d_a, int *d_b, int *d_c)
{
    const int tidx = blockIdx.x*blockDim.x + threadIdx.x;
    if (tidx < N)
        d_c[tidx] = d_a[tidx] + d_b[tidx];
}

但是，使用我需要完成任务后，进行调试编译完成之后，不可以使用VisualProfiler
非常奇怪。这是我下面的一段代码：

 #include <stdlib.h>
#include <stdio.h>
#include <math.h>
#include <cuda_runtime.h>
#include "device_launch_parameters.h"

#define C              3e8
#define pi             3.141592653589793
#define uchar unsigned char

float B = 100e6;  //带宽
float fc = 10e9;  //载频
float Fs = 140e6;  //采样频率
float PRF = 500; //脉冲重复周期
float Rs = 10e3;  //最近斜距
float Tp = 20e-6;  //脉冲时宽
float H = 4e3;   //平台高度
int Nan = 8192;    //方位向采样点数
int Nrn = 4096;    //距离向采样点数
int Nz;
float vx = 70.0, vy = 0.0, vz = 0.0, angle_equal = 0;//俯冲参数
float BeamWide_azimuth = 3.0 / 180 * pi;       //雷达波束宽度
int data_nrn_new = 512, data_nan_new = 512;//从原图中截取的图像大小
float DeltaR = C / 2 / Fs;  //距离采样间隔
float x_interval = DeltaR;
float y_interval = DeltaR;
float theta = 3.0 / 180 * pi;


__global__ void pos(float *d_pos_x, float *d_pos_y, float *d_pos_z, int nan, 
    float PRF, float vx, float vy, float vz, float Rs, float angle_equal, float H);

int main()
{
    //雷达坐标
    float* pos_x;
    pos_x = (float*)malloc(sizeof(float)*Nan);
    float* pos_y;
    pos_y = (float*)malloc(sizeof(float)*Nan);
    float* pos_z;
    pos_z = (float*)malloc(sizeof(float)*Nan);

    float *d_pos_x;    //平台坐标x
    cudaMalloc((void **)&d_pos_x, Nan * sizeof(float));
    float *d_pos_y;    //平台坐标y
    cudaMalloc((void **)&d_pos_y, Nan * sizeof(float));
    float *d_pos_z;    //平台坐标z
    cudaMalloc((void **)&d_pos_z, Nan * sizeof(float));
    printf("分配空间完毕\n");
    //线程分配
    dim3 blocks_Pos((Nan + 512 - 1) / 512, 1);//雷达位置线程
    dim3 threads_Pos(512, 1);
    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start,0);
    pos<< <blocks_Pos, threads_Pos >> >(d_pos_x, d_pos_y, d_pos_z, Nan, PRF, vx, vy, vz, Rs, angle_equal, H);
    printf("核函数计算完毕\n");
    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float dt;
    cudaEventElapsedTime(&dt, start, stop);
    cudaEventDestroy(start);
    cudaEventDestroy(stop);
    printf("time: %.2f ms\n", dt);

    cudaMemcpy(pos_x, d_pos_x, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    cudaMemcpy(pos_y, d_pos_y, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    cudaMemcpy(pos_z, d_pos_z, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    printf("数据传输完毕\n");
    cudaFree(d_pos_x);
    cudaFree(d_pos_y);
    cudaFree(d_pos_z);
    return 1;
}

//计算传感器实时位置
__global__ void pos(float *d_pos_x, float *d_pos_y, float *d_pos_z, int nan,
    float PRF, float vx, float vy, float vz, float Rs, float angle_equal, float H)
{
    const int tid = blockIdx.x*blockDim.x + threadIdx.x;

    if (tid<nan)
    {
        d_pos_x[tid] = (tid - nan / 2.0) / PRF*vx;
        d_pos_y[tid] = (tid - nan / 2.0) / PRF*vy - float(sqrt(pow(double(Rs*cos(angle_equal)), 2.0) - pow(double(H), 2.0)));
        d_pos_z[tid] = H;
    }
}

恳请哪位大神可以帮助我看下出现了什么问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-11-29 15:55
关注
https://blog.csdn.net/qq_25819827/article/details/52107570

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
配置人体姿态识别时遇到问题，如何解决？ python 计算机视觉
2022-08-31 11:35

回答 1 已采纳 --model COCO
CUDA使用遇到的几个问题
2020-12-15 10:45

董慕秋的博客将~/.bashrc 或　~/.zshrc 下与cuda相关的路径都改为　/usr/local/cuda/　而不使用　/usr/local/cuda-10.0/ 或/usr/local/cuda-10.1/CUDA版本对显卡驱动的版本有要求：...背景：Tensorflow和Pytorch不同版本依赖的CUDA...
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
CUDA中共享内存是在显存中吗? c语言
2022-05-29 13:20

回答 1 已采纳不是，共享内存是放在L1缓存中的
win10和ubuntu16.04双系统，CUDA只能在一个系统配置吗？ tensorflow 人工智能机器学习深度学习
2019-07-23 11:08

回答 3 已采纳这个可以双系统配置的独立的
使用bitsandbytes出现CUDA detection failed解决方案
2023-04-14 07:45

爱编程的喵喵的博客本文主要介绍了使用bitsandbytes出现CUDA detection failed解决方案，希望能对使用GPU的同学有所帮助。文章目录 1. 问题描述 2. 解决方案
在搭建深度学习环境的过程中cuda包出现问题 tensorflow 深度学习神经网络
2022-09-26 11:10

回答 3 已采纳选win10版本就可以，在win11系统上安装使用不影响，win11感觉就是视觉UI上跟win10相比有些变化而已，其他的变化不大
运行结果及报错内容6G显卡报错提示CUDA Error：Out Of Memory，如何解决？深度学习边缘计算
2022-09-04 14:25

回答 1 已采纳从6月初开始，6G显存的显卡开始出现CUDA Error:out of memory的问题，这是因为dag文件一直在增加，提示显存不足，不过要增加到6G还需要最少两年的时间。现在出现问题的原因是1、内
cuda 9.2在VS2015中的编译问题 visual studio
2018-09-20 14:51

回答 1 已采纳终于自己解决了，核函数要写成连续的<<<。。。
基于CUDA的N-Body问题并行程序设计及性能优化
2021-11-08 12:05

EMF2423的博客 N-Body问题介绍目录 N-Body问题介绍 CUDA并行程序设计优化思路优化结果其他思路 CUDA并行程序设计优化思路优化结果其他思路
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
ubuntu18.04安装cuda8.0的方法及遇到的问题和解决办法
2020-11-19 11:03

南七行者的博客一、下载并安装cuda8.01 1.下载说明： ①Architecture：大多是x86_64，可以通过uname命令进行确定 ②Version : 没有18.04，选16.04也行 ③Installer Type : 一定要选runfile ④下图2个都得下载 ⑤得到如下2个...
CUDA initialization: The NVIDIA driver on your system is too old解决方案
2023-10-16 07:15

爱编程的喵喵的博客本文主要介绍了CUDA initialization: The NVIDIA driver on your system is too old解决方案，希望能对学习大模型的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案 2.1 解决方案一 2.2 解决方案二
没有解决我的问题, 去提问

悬赏问题

¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制
¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
¥15 安装svn网络有问题怎么办

CUDA中使用VisualProfiler进行优化遇到这样一个问题，该怎么解决？

2条回答 默认 最新

悬赏问题

2条回答默认最新