vs2008+cuda5.0环境下运行cuda代码，在调试时总发生异常（0xC0000005：读取位置时发生访问冲突）

问题截图：
图片说明
1、该异常经常发生，包括来自《cuda高性能编程 cuda实战》书中的代码，自己写的一些代码等。但是不是一定会发生。
2、调试时发现，异常产生的位置都是在主函数中，当调用了cudaMalloc函数分配内存后，接着调用第二个cuda函数时就会出现该异常，比如用cudaMalloc为第二个变量分配内存，或是用cudaMemcpy向GPU复制数据。

举个例子：
这段代码没有问题（只为一个数组分配了内存并在核函数中计算）

#include <stdio.h>
#include <malloc.h>
#include <cuda_runtime_api.h>
#include "device_launch_parameters.h"

#define type float

__global__ void myKernel(type* d_a, int height, int width, int pitch)   //四个形参：数组名，高，行宽，行字节数
{
    int tx = blockDim.x * blockIdx.x + threadIdx.x;
    int ty = blockDim.y * blockIdx.y + threadIdx.y;

    if( tx<width && ty<(height) )
        d_a[ty*width+tx] *= 10;
}

int main()
{
    // 定义参数：高、宽、数组
    size_t width = 16;
    size_t height = 10;
    type *h_a;      
    type *d_a;
    type *d_b;
    size_t pitch;

    // 分配主机内存
    h_a = (type *)malloc(sizeof(type)*width*height);    //h_data 分配内存：宽*高


    // 数组初始化
    for (int i = 0; i < width*height; i++)
        h_a[i]  = (type)i;

    // 分配GPU内存，并复制数组到GPU
    cudaMallocPitch((void **)&d_a, &pitch, sizeof(type)*width, height); 
    cudaMemcpy2D(d_a, pitch, h_a, sizeof(type)*width, sizeof(type)*width, height, cudaMemcpyHostToDevice); //
    printf("\nPitch = %d B\n", pitch);
    cudaMalloc((void **)&d_b, sizeof(type)*width);                            

    //分配二维线程
    dim3 threadsPerBlock(8,8);
    dim3 blocksPerGrid((width+threadsPerBlock.x-1)/threadsPerBlock.x,(height+threadsPerBlock.y-1)/threadsPerBlock.y);  // +threadsPerBlock.x-1

    //核函数执行
    myKernel <<< blocksPerGrid ,threadsPerBlock >>> (d_a, height, width, pitch);        //参数：d_data,高度，行宽，行字节数
    cudaDeviceSynchronize();    
    //复制数组回CPU
    cudaMemcpy2D(h_a, sizeof(type)*width, d_a, pitch, sizeof(type)*width, height, cudaMemcpyDeviceToHost);      

    for (int i = width*(height - 10); i < width*height; i++)
    {
        printf("%10.2f", h_a[i]);
        if ((i + 1) % width == 0)
            printf("\n");
    }               

    free(h_a);
    cudaFree(d_a);

    getchar();
    return 0;
}

在这个基础上改了之后，变为为三个变量分配内存并在核函数中计算就发生问题了。

#include <stdio.h>
#include <malloc.h>
#include <cuda_runtime_api.h>
#include "device_launch_parameters.h"

#define type float

__global__ void myKernel(type* d_a, type* d_b, type* d_c, int height, int width, int pitch)   //四个形参：数组名，高，行宽，行字节数
{
    int tx = blockDim.x * blockIdx.x + threadIdx.x;
    int ty = blockDim.y * blockIdx.y + threadIdx.y;

    if( tx<width && ty<height )
        d_c[ty*width+tx] = pow( d_b[ty*width+tx] - d_a[ty*width+tx] , 2 );
}

int main()
{
    // 定义参数：高、宽、数组
    size_t width = 160;
    size_t height = 16;
    type *h_a, *h_b, *h_c;      // 一维数组 h_data 和 d_data  。。既该二维数组的存储形式，在cpu和gpu都是一维数组
    type *d_a, *d_b, *d_c; 
    size_t pitch;


    // 分配主机内存
    h_a = (type *)malloc(sizeof(type)*width*height);    //h_data 分配内存：宽*高
    h_b = (type *)malloc(sizeof(type)*width*height);
    h_c = (type *)malloc(sizeof(type)*width*height);

    // 数组初始化
    for (int i = 0; i < width*height; i++)
        h_a[i] = h_b[i] = (type)i;

    // 分配GPU内存，并复制数组到GPU
    cudaMallocPitch((void **)&d_a, &pitch, sizeof(type)*width, height);     //分配gpu内存：d_data 数组名地址，pitch地址，行字节数，高度
    cudaMallocPitch((void **)&d_b, &pitch, sizeof(type)*width, height);
    cudaMallocPitch((void **)&d_c, &pitch, sizeof(type)*width, height);
    printf("\nPitch = %d B\n", pitch);


    cudaMemcpy2D(d_b, pitch, h_b, sizeof(type)*width, sizeof(type)*width, height, cudaMemcpyHostToDevice);
    cudaMemcpy2D(d_a, pitch, h_a, sizeof(type)*width, sizeof(type)*width, height, cudaMemcpyHostToDevice); //目标数组名，目标行字节数，原数组名，源行字节数，数组实际行字节数，高
    //分配二维线程
    dim3 threadsPerBlock(8,8);
    dim3 blocksPerGrid((width+threadsPerBlock.x-1)/threadsPerBlock.x,(height+threadsPerBlock.y-1)/threadsPerBlock.y);  // +threadsPerBlock.x-1

    //核函数执行
    myKernel <<< blocksPerGrid ,threadsPerBlock >>> (d_a, d_b, d_c, height, width, pitch);      //参数：d_data,高度，行宽，行字节数
    cudaDeviceSynchronize();        //一个同步函数。该方法将停止CPU端线程的执行，直到GPU端完成之前CUDA的任务，包括kernel函数、数据拷贝等。

    //复制数组回CPU
    cudaMemcpy2D(h_c, sizeof(type)*width, d_c, pitch, sizeof(type)*width, height, cudaMemcpyDeviceToHost);      

    for (int i = width*(height - 10); i < width*height; i++)
    {
        printf("%10.2f", h_c[i]);
        if ((i + 1) % width == 0)
            printf("\n");
    }               

    free(h_a);
    free(h_b);
    free(h_c);
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);

    getchar();
    return 0;
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-04-02 00:05
关注
没看到截图，不知道你出错的行，但是0xC0000005是指针问题，是不是你搞混淆了主机和设备的内存，或者你分配的指针是野指针。

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在调用memcpy函数时出现异常: 0xC0000005: 读取位置 0x006bd000 时发生访问冲突
2013-08-11 02:13

回答 3 已采纳 pData1=(BYTE*)new char[Width*Height]; memcpy(pData1,pData, Width*8*Height); pData1申请的内存长度为Widt
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
运行时报错：failed call to cuInit: CUDA_ERROR_NO_DEVICE
2018-11-10 14:08

回答 3 已采纳运行cuda 8.0的samples里面的devicequery，看下你的卡，是否安装正确了。并且计算能力是不是>3.0 410这个显卡，虽然号称“专业卡”，但是实际上性能连市面上100块钱价
（win10） yolov5-v5.0导出动态链接库-TensorRT+VS2019+CMake
2022-09-29 22:51

qq_22487889的博客在部署AI模型时候需要封装模型，因此对其中的一个步骤——yolov5 封装和导出动态库文件 dll 过程进行了记录
运行YOLOv5的时候显示cuda:0是什么原因 opencv pycharm python
2022-05-21 14:16

回答 1 已采纳 cuda0,指的是你gpu的编号，就是说使用的是你的第0张显卡。一般用一张显卡都是这样的。
OpenCV + CUDA环境配置 opencv
2022-06-09 09:39

回答 1 已采纳 cmake成功了没有？你这么多错误cmake失败了都不知道，并不是没有报错就是cmake成功，你需要看有没有飘红，cmake除了一个Generate还是啥的反正是G开头的那个警告不用管，其他的飘红都得
我的win10+vs2013+opencv249+cuda8.0项目升级到vs2019上不能用了，怎么办？ c++ 机器学习深度学习
2020-09-01 09:55

回答 2 已采纳 cdua的版本要和你显卡的型号配套，opencv的版本最好别换，4和2版本相差的太多了，还有opencv路径的配置，cuda的配套C的驱动包这些都看看是否正确
Jetson NX + yolov5 v5.0 + TensorRT加速+调用usb摄像头
2023-01-03 12:04

无证驾驶梁嗖嗖的博客 TRT] Parameter check failed at: ../builder/Network.cpp::addScale::482, condition: shift.coun上...gen_wts.pyyolov5.ptyolov5.wts还有，如果我们要转换自己训练的模型，需要在编译前修改查看使用的版本是否对应。
yolo训练时报错：RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB python 剪枝目标检测
2022-04-12 16:34

回答 1 已采纳降低batchsize的大小，例如8 16
vs2017IDE+python+深度学习框架，运行调试时怎么使用GPU加速？ tensorflow 人工智能深度学习
2019-04-18 18:22

回答 1 已采纳自己蠢了，解决问题的方法不对。。总是纠结于vs2017这个环境。。。想着配置调试环境。。。只需要在程序中编程就行了。。。
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
yolov5--detect.py --v5.0版本-最新代码详细解释-2021-6-29号更新
2021-06-27 20:01

菊头蝙蝠的博客 yolov5–v5.0版本(最新)代码解析导航 github ultralytics/yolov5 使用的yolov5为2021年6月23号的版本v5.0 此篇作为学习笔记，也花了比较大的功夫,尽可能对每一个要点进行了解释，不仅仅包括detect.py本身，还包含了...
cuda运行错误，call to cuMemcpy failed, 返回错误代码700
2018-09-13 07:53

回答 1 已采纳 https://blog.csdn.net/u012348774/article/details/49663299
【模型部署】Jetson Xavier NX（eMMC）部署YOLOv5-5.0
2022-09-27 20:53

嗜睡的篠龙的博客在Jetson Xavier NX中部署YOLOv5-5.0，并使用TensorRT进行加速推理
Jetson nano部署Yolov5目标检测 + Tensor RT加速（超级详细版）
2023-05-15 19:50

戈唯伽c的博客解决完报错之后，在运行上面的命令，会自动下载需要的安装包，其他的都是很快的，但是到opencv的时候需要花费很长很长很长很长的时间......，当安装opencv时会出现Building wheel for opencv-python (pyroject.toml)...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

vs2008+cuda5.0环境下运行cuda代码，在调试时总发生异常（0xC0000005： 读取位置 时发生访问冲突）

1条回答 默认 最新

悬赏问题

vs2008+cuda5.0环境下运行cuda代码，在调试时总发生异常（0xC0000005：读取位置时发生访问冲突）

1条回答默认最新