CUDA中使用VisualProfiler进行优化遇到这样一个问题，该怎么解决？

对于VisualProfiler的使用，新建NewSession，在File处选择已经编译好后出现的.exe文件，
然后点next，点finish后出现如图所示错误：

            问题描述为：The application being profiled returned a non-zero return code.
            百度翻译为：正在被配置的应用程序返回非零返回代码。
            通过网上搜寻，可能的解决办法是：
            1.内存没释放完全
            2.主函数末尾需要添加cudaThreadExit();
            3.主函数末尾添加cudaFree(0);
            如果上述解决办法，解决了，我是不会来这里提问的。
            问题就是没有解决！！！
            其中，我用一段HelloWorld.cu测试，可以使用VisualProfiler

 //使用CUDA的第一个独立编程。简要使用CUDA。
//功能：从主机向设备传入数组a、b，计算a、b数组的和，传入数组c中，再传回主机。

#include<stdio.h>
#include<stdlib.h>
#include<cuda_runtime.h>
#include "device_launch_parameters.h"

#define N 200000

__global__ void Add(int *d_a, int *d_b, int *d_c);

int main()
{
    int *a = (int*)malloc(sizeof(int)*N);
    int *b = (int*)malloc(sizeof(int)*N);
    int *c = (int*)malloc(sizeof(int)*N);
    //CPU计算
    for (int i = 0; i < N; i++)
    {
        a[i] = i;
        b[i] = i;
        c[i] = a[i] + b[i];
    }
    printf("CPU  :  c[N-1] = %d\n", c[N - 1]);
    for (int i = 0; i < N; i++)
    {
        c[i] = 0;
    }
    printf("c[N-1] = %d\n", c[N - 1]);
    int *d_a;
    int *d_b;
    int *d_c;
    cudaMalloc((void**)&d_a, sizeof(int)*N);
    cudaMalloc((void**)&d_b, sizeof(int)*N);
    cudaMalloc((void**)&d_c, sizeof(int)*N);
    dim3 block_add((N + 256 - 1) / 256, 1);
    dim3 thread_add(256, 1);

    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start, 0);
    cudaMemcpy(d_a, a, sizeof(int)*N, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, sizeof(int)*N, cudaMemcpyHostToDevice);
    Add << <block_add, thread_add >> > (d_a, d_b, d_c);
    cudaMemcpy(c, d_c, sizeof(int)*N, cudaMemcpyDeviceToHost);
    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float tm;   //创建时间变量


    cudaEventElapsedTime(&tm, start, stop);//把事件的时间记录下来
    cudaEventDestroy(start);    //销毁事件
    cudaEventDestroy(stop);     //销毁事件
    printf("GPU Elapsed time:%.6f ms.\n", tm);    //屏幕显示时间
    printf("GPU  :  c[N-1] = %d", c[N - 1]);
    free(a);
    free(b);
    free(c);
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    return 0;
}

__global__ void Add(int *d_a, int *d_b, int *d_c)
{
    const int tidx = blockIdx.x*blockDim.x + threadIdx.x;
    if (tidx < N)
        d_c[tidx] = d_a[tidx] + d_b[tidx];
}

但是，使用我需要完成任务后，进行调试编译完成之后，不可以使用VisualProfiler
非常奇怪。这是我下面的一段代码：

 #include <stdlib.h>
#include <stdio.h>
#include <math.h>
#include <cuda_runtime.h>
#include "device_launch_parameters.h"

#define C              3e8
#define pi             3.141592653589793
#define uchar unsigned char

float B = 100e6;  //带宽
float fc = 10e9;  //载频
float Fs = 140e6;  //采样频率
float PRF = 500; //脉冲重复周期
float Rs = 10e3;  //最近斜距
float Tp = 20e-6;  //脉冲时宽
float H = 4e3;   //平台高度
int Nan = 8192;    //方位向采样点数
int Nrn = 4096;    //距离向采样点数
int Nz;
float vx = 70.0, vy = 0.0, vz = 0.0, angle_equal = 0;//俯冲参数
float BeamWide_azimuth = 3.0 / 180 * pi;       //雷达波束宽度
int data_nrn_new = 512, data_nan_new = 512;//从原图中截取的图像大小
float DeltaR = C / 2 / Fs;  //距离采样间隔
float x_interval = DeltaR;
float y_interval = DeltaR;
float theta = 3.0 / 180 * pi;


__global__ void pos(float *d_pos_x, float *d_pos_y, float *d_pos_z, int nan, 
    float PRF, float vx, float vy, float vz, float Rs, float angle_equal, float H);

int main()
{
    //雷达坐标
    float* pos_x;
    pos_x = (float*)malloc(sizeof(float)*Nan);
    float* pos_y;
    pos_y = (float*)malloc(sizeof(float)*Nan);
    float* pos_z;
    pos_z = (float*)malloc(sizeof(float)*Nan);

    float *d_pos_x;    //平台坐标x
    cudaMalloc((void **)&d_pos_x, Nan * sizeof(float));
    float *d_pos_y;    //平台坐标y
    cudaMalloc((void **)&d_pos_y, Nan * sizeof(float));
    float *d_pos_z;    //平台坐标z
    cudaMalloc((void **)&d_pos_z, Nan * sizeof(float));
    printf("分配空间完毕\n");
    //线程分配
    dim3 blocks_Pos((Nan + 512 - 1) / 512, 1);//雷达位置线程
    dim3 threads_Pos(512, 1);
    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start,0);
    pos<< <blocks_Pos, threads_Pos >> >(d_pos_x, d_pos_y, d_pos_z, Nan, PRF, vx, vy, vz, Rs, angle_equal, H);
    printf("核函数计算完毕\n");
    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float dt;
    cudaEventElapsedTime(&dt, start, stop);
    cudaEventDestroy(start);
    cudaEventDestroy(stop);
    printf("time: %.2f ms\n", dt);

    cudaMemcpy(pos_x, d_pos_x, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    cudaMemcpy(pos_y, d_pos_y, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    cudaMemcpy(pos_z, d_pos_z, sizeof(float)*Nan, cudaMemcpyHostToDevice);
    printf("数据传输完毕\n");
    cudaFree(d_pos_x);
    cudaFree(d_pos_y);
    cudaFree(d_pos_z);
    return 1;
}

//计算传感器实时位置
__global__ void pos(float *d_pos_x, float *d_pos_y, float *d_pos_z, int nan,
    float PRF, float vx, float vy, float vz, float Rs, float angle_equal, float H)
{
    const int tid = blockIdx.x*blockDim.x + threadIdx.x;

    if (tid<nan)
    {
        d_pos_x[tid] = (tid - nan / 2.0) / PRF*vx;
        d_pos_y[tid] = (tid - nan / 2.0) / PRF*vy - float(sqrt(pow(double(Rs*cos(angle_equal)), 2.0) - pow(double(H), 2.0)));
        d_pos_z[tid] = H;
    }
}

恳请哪位大神可以帮助我看下出现了什么问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-11-29 15:55
关注
https://blog.csdn.net/qq_25819827/article/details/52107570

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
配置人体姿态识别时遇到问题，如何解决？ python 计算机视觉
2022-08-31 11:35

回答 1 已采纳 --model COCO
CUDA使用遇到的几个问题
2020-12-15 10:45

董慕秋的博客将~/.bashrc 或　~/.zshrc 下与cuda相关的路径都改为　/usr/local/cuda/　而不使用　/usr/local/cuda-10.0/ 或/usr/local/cuda-10.1/CUDA版本对显卡驱动的版本有要求：...背景：Tensorflow和Pytorch不同版本依赖的CUDA...
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
CUDA中共享内存是在显存中吗? c语言
2022-05-29 13:20

回答 1 已采纳不是，共享内存是放在L1缓存中的
win10和ubuntu16.04双系统，CUDA只能在一个系统配置吗？ tensorflow 人工智能机器学习深度学习
2019-07-23 11:08

回答 3 已采纳这个可以双系统配置的独立的
使用bitsandbytes出现CUDA detection failed解决方案
2023-04-14 07:45

爱编程的喵喵的博客本文主要介绍了使用bitsandbytes出现CUDA detection failed解决方案，希望能对使用GPU的同学有所帮助。文章目录 1. 问题描述 2. 解决方案
在搭建深度学习环境的过程中cuda包出现问题 tensorflow 深度学习神经网络
2022-09-26 11:10

回答 3 已采纳选win10版本就可以，在win11系统上安装使用不影响，win11感觉就是视觉UI上跟win10相比有些变化而已，其他的变化不大
运行结果及报错内容6G显卡报错提示CUDA Error：Out Of Memory，如何解决？深度学习边缘计算
2022-09-04 14:25

回答 1 已采纳从6月初开始，6G显存的显卡开始出现CUDA Error:out of memory的问题，这是因为dag文件一直在增加，提示显存不足，不过要增加到6G还需要最少两年的时间。现在出现问题的原因是1、内
cuda 9.2在VS2015中的编译问题 visual studio
2018-09-20 14:51

回答 1 已采纳终于自己解决了，核函数要写成连续的<<<。。。
基于CUDA的N-Body问题并行程序设计及性能优化
2021-11-08 12:05

EMF2423的博客 N-Body问题介绍目录 N-Body问题介绍 CUDA并行程序设计优化思路优化结果其他思路 CUDA并行程序设计优化思路优化结果其他思路
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
CUDA initialization: The NVIDIA driver on your system is too old解决方案
2023-10-16 07:15

爱编程的喵喵的博客本文主要介绍了CUDA initialization: The NVIDIA driver on your system is too old解决方案，希望能对学习大模型的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案 2.1 解决方案一 2.2 解决方案二
ubuntu18.04安装cuda8.0的方法及遇到的问题和解决办法
2020-11-19 11:03

南七行者的博客一、下载并安装cuda8.01 1.下载说明： ①Architecture：大多是x86_64，可以通过uname命令进行确定 ②Version : 没有18.04，选16.04也行 ③Installer Type : 一定要选runfile ④下图2个都得下载 ⑤得到如下2个...
没有解决我的问题, 去提问

悬赏问题

¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示

CUDA中使用VisualProfiler进行优化遇到这样一个问题，该怎么解决？

2条回答 默认 最新

悬赏问题

2条回答默认最新