cuda运算时报错：an illegal memory access was encountered

在使用cuda计算时，在DeviceToHost代码处报错：" an illegal memory access was encountered "。

float Forward_Solution_t(double* lattice, double* lattice_result_pointer, unsigned int size, unsigned int ponit, unsigned int velue ,
                        double alpha[], double a[], double d[])
{
    // CUDA事件对象
    cudaEvent_t start, end;
    // 创建CUDA事件
    cudaEventCreate(&start);
    cudaEventCreate(&end);
    // 记录开始时间
    cudaEventRecord(start, 0);

    //将数据分层处理
    unsigned int tier_c;
    if (ponit < 2000) {
        tier_c = ponit;
    }
    else {
        tier_c = 2000;//每层处理2000组数据 tier_c*velue
    }
    int data = tier_c*velue;//每层处理的数据量
    
    //DH参数
    double* d_alpha;
    double*    d_a;
    double*    d_d;
    //copy data
    double* lattice_tier_in;//临时数组(输入)
    double* lattice_tier_out;//临时数组(输出)
    double* data_in;//临时数组(传入)
    double* data_out;//临时数组(传出)
    unsigned int tier;//层数
    double* data_temp;//临时数组（存储数据）
    //分配线程块
    int gridSize;//需要块数量
    int    blockSize;//需要线程数
    unsigned int thread = 800;//每个块分配的线程
    //
    bool tier_bool = false;

    //分配内存
        data = tier_c*velue;//每层处理的数据量
        lattice_tier_in = new double[data];
        lattice_tier_out = new double[data];
        data_temp = new double[data];
        //分配设备内存
        cudaMalloc((void**)&data_in, data * sizeof(double));
        cudaMalloc((void**)&data_out, data * sizeof(double));
        cudaMalloc((void**)&d_alpha, velue * sizeof(double));
        cudaMalloc((void**)&d_a, velue * sizeof(double));
        cudaMalloc((void**)&d_d, velue * sizeof(double));

        //分配线程块
        if (tier_c>thread) {
            gridSize = (tier_c + thread - 1) / thread;
            blockSize = thread;
        }
        else {
            blockSize = tier_c;
            gridSize = 1;

        }

    //循环处理数据
    int loop_v = (ponit + tier_c - 1) / tier_c;//循环变量
    for (tier = 0; tier < loop_v; tier++) {
        tier_bool = (tier == (ponit / tier_c));//是否为最后一层
        if (tier_bool) {
            //释放内存
            delete[] lattice_tier_in;
            lattice_tier_in = nullptr;
            delete[] lattice_tier_out;
            lattice_tier_out = nullptr;
            delete[] data_temp;
            //device
            cudaFree(data_in);
            data_in = nullptr;
            cudaFree(data_out);
            data_out = nullptr;
            //最后一层
            tier_c = ponit%tier_c;//最后一层的c组数据
            data = tier_c*velue;//最后一层的数据量
            lattice_tier_in = new double[data];
            lattice_tier_out = new double[data];
            data_temp = new double[data];
            //分配设备内存
            cudaMalloc((void**)&data_in, data * sizeof(double));
            cudaMalloc((void**)&data_out, data * sizeof(double));
            cudaMalloc((void**)&d_alpha, velue * sizeof(double));
            cudaMalloc((void**)&d_a, velue * sizeof(double));
            cudaMalloc((void**)&d_d, velue * sizeof(double));

            //分配线程块
            if (tier_c>thread) {
                gridSize = (tier_c + thread - 1) / thread;
                blockSize = thread;
            }
            else {
                blockSize = tier_c;
                gridSize = 1;

            }
        }

        //初始化计算数组(输入)
        for (int i = 0; i < data; i++) {
            lattice_tier_in[i] = lattice[tier*2000*6 + i];
        }
        //执行调用
        
            
            //HostToDevice
            HANDLE_ERROR(cudaMemcpy(data_in, lattice_tier_in, data * sizeof(double), cudaMemcpyHostToDevice));
            HANDLE_ERROR(cudaMemcpy(data_out, lattice_tier_out, data * sizeof(double), cudaMemcpyHostToDevice));
            HANDLE_ERROR(cudaMemcpy(d_alpha, alpha, velue * sizeof(double), cudaMemcpyHostToDevice));
            HANDLE_ERROR(cudaMemcpy(d_a, a, velue * sizeof(double), cudaMemcpyHostToDevice));
            HANDLE_ERROR(cudaMemcpy(d_d, d, velue * sizeof(double), cudaMemcpyHostToDevice));

            
            
            //开启并行主函数
            Forward_Solution_kernel << <gridSize, blockSize >> >(data_in, data_out, tier_c, d_alpha, d_a , d_d);
            //最近一次核函数异常
            cudaError_t error = cudaGetLastError();
            printf("CUDA error: %s %d\n", cudaGetErrorString(error),tier);
            // 等待设备上的所有任务完成
            cudaDeviceSynchronize();
            //cudaMemcpyDeviceToHost
            HANDLE_ERROR(cudaMemcpy(lattice_tier_out, data_out, data * sizeof(double), cudaMemcpyDeviceToHost));

            //存储处理后的数据
            for (int i = 0; i < data; i++) {
                data_temp[i] = lattice_tier_out[i];
            }
            for (int i = 0; i < data; i++) {
                lattice_result_pointer[tier*data + i] = data_temp[i];
            }
        
    }//循环结束

    //释放内存
    delete[] lattice_tier_in;
    lattice_tier_in = nullptr;
    delete[] lattice_tier_out;
    lattice_tier_out = nullptr;
    delete[] data_temp;
    //host
    /*cudaFreeHost(lattice_tier_in);
    cudaFreeHost(lattice_tier_out);*/
    //device
    cudaFree(data_in);
    data_in = nullptr;
    cudaFree(data_out);
    data_out = nullptr;


     // 记录结束时间
    cudaEventRecord(end, 0);
    cudaEventSynchronize(end);
    // 计算时间差（以毫秒为单位）
    float elapsedTime;
    cudaEventElapsedTime(&elapsedTime, start, end);

    // 释放CUDA事件
    cudaEventDestroy(start);
    cudaEventDestroy(end);

    return elapsedTime;
}

数据量只能增大到5000，再增加就会报错。一直在找内存的问题，写循环分组也是为了找问题，最开始只能运算2000组数据，没想到分组还是会报错。
以下是10000组数据时当前代码的报错信息

其中474与458--->462为：

//cudaMemcpyDeviceToHost
HANDLE_ERROR(cudaMemcpy(lattice_tier_out, data_out, data * sizeof(double), cudaMemcpyDeviceToHost));
//HostToDevice
HANDLE_ERROR(cudaMemcpy(data_in, lattice_tier_in, data * sizeof(double), cudaMemcpyHostToDevice));
HANDLE_ERROR(cudaMemcpy(data_out, lattice_tier_out, data * sizeof(double), cudaMemcpyHostToDevice));
HANDLE_ERROR(cudaMemcpy(d_alpha, alpha, velue * sizeof(double), cudaMemcpyHostToDevice));
HANDLE_ERROR(cudaMemcpy(d_a, a, velue * sizeof(double), cudaMemcpyHostToDevice));
HANDLE_ERROR(cudaMemcpy(d_d, d, velue * sizeof(double), cudaMemcpyHostToDevice));

前两次循环能导出结果且是正确的，第三次出了问题
作为初学者想知道对此问题的原因和解决办法

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赵4老师 2023-07-11 16:33
关注
https://blog.csdn.net/captainAAAjohn/article/details/118162508

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【报错】RuntimeError: CUDA error: an illegal memory access was encountered
2024-11-27 15:25

学懵了的博客某些结构虽然权重和输入不在同一个device，但仍然能运行得到一个illegal memory且不会报错！！。为避免这种错误，记得实例化模型的时候就将整个模型与输入放在同一个device上！！我就是在编写测试用例，忘了这回事，...
DGL库使用非cuda:0显卡时报错RuntimeError: CUDA error: an illegal memory access was encountered解决办法
2025-01-04 23:23

crosnken的博客并非寻常的因为运算的tensor设备不一致而导致的CUDA报错。在调试过程中，甚至出现了删去不相关的变量的时候就停止报错的情况，严重怀疑是DGL库在cuda的内存管理出现了问题，实在调不出来了，便放弃了。很奇怪的一次...
RuntimeError: CUDA error: an illegal memory access was encountered
2021-12-02 12:37

waxxStudy的博客 **RuntimeError: CUDA error: an illegal memory access was encountered ** 没有选择将数据放在cuda上，默认在cpu上进行运算， import torch a = torch.ones(4) b = torch.ones(4) c = torch.zeros(8).cuda() print...
RuntimeError: cuda runtime error (700) : an illegal memory access was encountered at /pytorch/aten/s
2022-05-24 16:03

leo0308的博客 1 首先怀疑的是，是不是有数据在CPU上，运算在GPU上，初步排查没有发现。 2 其次根据直接报错的位置进行分析，发现报错的位置不是固定的，但相对固定，就那么2处， debug发现没问题，完整运行就出错，后来...
【解决bug】RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at XXXXX
2021-04-06 17:45

柏常青的博客 RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at XXXXXX def encode_input(self, label_map, clothes_mask, all_clothes_label): size = label_map.size()
【debug】RuntimeError: cuda runtime error (700) : an illegal memory access was encountered解决
2021-03-08 20:17

cxxx17的博客运行pytorch程序时，因为中间有把数据转成cpu的操作，跑多卡时会把报错：RuntimeError: cuda runtime error (700) : an illegal memory access was encountered at /pytorch/aten/src/THC/THCCachingHostAllocator....
Amber分子动力学模拟的cudaMemcpy GpuBuffer错误的解决
2022-04-17 16:27

AdamChok的博客 cudaMemcpy GpuBuffer::Download failed an illegal memory access was encountered cudaMemcpy GpuBuffer::Download failed an illegal memory access was encountered 查找了很多资料，发现丢出
mxnet mshadow/./stream_gpu-inl.h:62: Check failed: e == cudaSuccess: CUDA: an illegal memory access
2020-08-03 09:56

城俊BLOG的博客 e == cudaSuccess: CUDA: an illegal memory access was encountered Stack trace: [bt] (0) /home/user1/miniconda3/lib/python3.7/site-packages/mxnet/libmxnet.so(+0x6b41eb) [0x7f76131a51eb] [bt] (1) /home/...
CUDA编程：GPU float 与 double 精度问题
2021-03-12 16:57

改个名字真不容易�的博客 0) an illegal memory access was encountered 检查了很长时间代码，也没检查出错误，最后通过逐步输出中间结果进行调试，发现某些变量被GPU计算错了，而导致这个错误的原因就是：float 精度不够，索引是根据中间...
CUDA 踩坑
2019-11-19 15:13

Willowwww的博客最近踩的坑 1. 声明using namespace nvcuda的时候，编译要加上-arch=sm_70选项。 2. 给half类型变量赋常量的时候必须加小数点，不然赋值完就是0。...“an illegal memory access was encountered” 原因：...
AI开发者必看：PyTorch-CUDA基础镜像使用实战
2025-11-24 18:39

潮水岩的博客本文深入解析PyTorch-CUDA基础镜像的使用，涵盖环境一致性、多卡训练优化与新人快速上手三大场景，结合Docker容器化技术实现AI开发环境标准化，提升训练效率与协作能力。
2.python/pytorch编程debug
2020-05-10 13:22

外卖猿的博客 `RuntimeError: CUDA error: an illegal memory access was encountered` 10. `UnpicklingError: A load persistent id instruction was encountered,but no persistent_load function was specified.` 10.1 Error...
Pytorch中报过的错及解决方法（持续更新中）
2020-06-24 21:53

tju_tonge的博客后来把模型的输出（outputs）加上.cuda()语句，报错变成这样了： RuntimeError: CUDA error: an illegal memory access was encountered 最后检查了一下，发现是模型没有放到CUDA上，加上这句就好了 clsnet = nn....
CUDA学习备份
2024-05-28 17:37

IssacVIEW的博客项目属性->CUDA C/C+±>Device->修改为对应CUDA型号的算力，例如算力3.5，就设置为compute_35 sm_35。gpuAdd , 2>>s> blockDim.x是2，blockDim是块中线程x方向的数量。gpuAdd , 1>>> gridDim.x是2，gridDim是网格中...
错误记录-12.11
2021-12-11 21:18

莩甲柚的博客 13-02-42_server-X10DRi: No event timestamp could be found RuntimeError: copy_if failed to synchronize: cudaErrorIllegalAddress: an illegal memory access was encountered SyntaxError: ‘break‘ outside ...
Open-AutoGLM部署卡在硬件层？(3类典型故障+解决方案速查手册)
2025-12-20 09:31

InstrIsle的博客通信故障常表现为训练卡顿、进程挂起或报错`CUDA error: an illegal memory access was encountered`。常见故障类型网络配置错误：InfiniBand/RoCE网络未正确启用，导致GPU间无法建立P2P连接；显存越界访问：参与...
MXNet实现ResNet（残差网络）深度神经网络模型
2022-07-14 12:59

寅恪光潜的博客深度在神经网络中是一个非常重要的因素，但存在一个当层数特别深的...tag\mxnet\3rdparty\mshadow\mshadow\./stream_gpu-inl.h:62: Check failed: e == cudaSuccess: CUDA: an illegal memory access was encountered
BERT模型迁移到GPU上的调试经历（pytorch）
2020-12-03 19:33

早睡身体好_的博客 + self.seg_embed(seg.long()) RuntimeError: CUDA error: an illegal memory access was encountered 这个错误很常见的原因就是模型和数据并没有全部移到GPU上，很可能有某个东西遗漏了。这个错误是我在debug上面...
VQA-object_counting代码项目分析
2020-10-27 17:08

snow5618的博客 size, shuffle=train, # only shuffle the data in training pin_memory=True, num_workers=config.data_workers, collate_fn=collate_fn, ) return loader 图如下：数据集中已将答案表示和问题表示变成向量表示行式...
Caffe模型调试中的错误总结
2018-08-16 13:11

BockSong的博客 0) an illegal memory access was encountered 一开始以为还是batch_size调小点就行，结果调到1都不行。网上查找了一些资料，发现出现这个错误的原因非常多样，共同的结果就是内存访问出现问题。经过较长时间的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月11日

cuda运算时报错：an illegal memory access was encountered

在使用cuda计算时，在DeviceToHost代码处报错：" an illegal memory access was encountered "。

1条回答 默认 最新

问题事件

1条回答默认最新