pyopencl中传参问题

最近正在用pyopencl编写GPU内核程序，但是遇到问题。
以下是内核程序的代码

__kernel void overlay(__global float4 *bg, __global void* ptrs, __global int *img_info, int num_ptrs) {
    int x = get_global_id(0);
    int y = get_global_id(1);
    int bg_index = (y * 1232 + x);
    for (int i = 0; i < num_ptrs; i++) {
        int left = img_info[i * 4];
        int top = img_info[i * 4 + 1];
        int width = img_info[i * 4 + 2];
        int height = img_info[i * 4 + 3];
        if (x >= left && x < left + width && y >= top && y < top + height) {
            int img_index = ((y - top) * width + (x - left));
            printf("img_index: %d\\n", img_index);
            __global float4 *img = (__global float4 *)(((__global char*)ptrs)[i]);
            // 打印img
            float4 bg_pixel = bg[bg_index];
            float4 img_pixel = img[img_index];
            printf("img_pixel: %f, %f, %f, %f\\n", img_pixel.x, img_pixel.y, img_pixel.z, img_pixel.w);
            float alpha = img_pixel.w / 255.0f;
            float inv_alpha = 1.0f - alpha;
            bg[bg_index] = (float4)(
                bg_pixel.x * inv_alpha + img_pixel.x * alpha,
                bg_pixel.y * inv_alpha + img_pixel.y * alpha,
                bg_pixel.z * inv_alpha + img_pixel.z * alpha,
                bg_pixel.w
            );
        }
    }
}

在内核程序中，我传入了一参数 __global void* ptrs，这个ptrs是一个数组，数组内部包含了100个buffer类型的数据，在此之前，我写了一个程序如下


__kernel void overlay(__global float4 *bg, __global float4 *img, int img_width, int img_height, int bg_w, int bg_h, int blit_x, int blit_y) {
    int x = get_global_id(0);
    int y = get_global_id(1);

    if (x < img_width && y < img_height && x < bg_w && y < bg_h) {
        int bg_index = (bg_w * (y + blit_y) + x + blit_x) * 4;
        int img_index = (y * img_width + x) * 4;
        if (bg_index >= bg_w * bg_h * 4) {
            return;
        }
        if (blit_x + x > bg_w || blit_y + y > bg_h || blit_x + x < 0 || blit_y + y < 0) {
            return;
        }

        float4 bg_pixel = bg[bg_index / 4];
        float4 img_pixel = img[img_index / 4];

        float alpha = img_pixel.w / 255.0f;
        float inv_alpha = 1.0f - alpha;

        bg[bg_index / 4] = (float4)(
            bg_pixel.x * inv_alpha + img_pixel.x * alpha,
            bg_pixel.y * inv_alpha + img_pixel.y * alpha,
            bg_pixel.z * inv_alpha + img_pixel.z * alpha,
            bg_pixel.w
        );
    }
}

这两个内核程序都是进行贴图操作，但是第二个程序正常运行，第一个报错。这是因为我在传参的时候第二个程序传入的是单个buffer数据。但是第一段代码，我传入了一个数组的buffer数据，所以导致出错。那么应该怎么传参呢？
就是如何传大量的buffer图片

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-07-10 11:45
关注
引自免费微信小程序：皆我百晓生

在 OpenCL 和 PyOpenCL 中，当你需要传递一个数组类型的参数时，不能直接传递一个数组类型的缓冲区。你需要为每个缓冲区单独分配内存，并在调用内核时传递它们的指针。在你的例子中，你需要传递一个包含多个图像缓冲区的数组，你可以通过以下步骤来实现：

分配内存: 首先为每个图像分配 GPU 内存。这可以通过调用 clCreateBuffer 来完成。对于每个图像，你将得到一个缓冲区对象。将这些对象存储在一个列表中。
内核调用: 在调用内核时，你将需要一个方法来传递这个包含所有图像缓冲区的列表给内核函数。在 OpenCL 中，你可以使用指针来传递这种结构。在你的例子中，你可以创建一个包含所有这些缓冲区的指针的缓冲区，并将其传递给内核函数。在你的 PyOpenCL 代码中，你需要将这个列表转换为一个一维的缓冲数组，并传递给内核函数。在内核中，你将使用 __global void* ptrs 来接收这个指针数组。
内核中的处理: 在内核函数中，你可以使用指针算术来访问每个图像缓冲区。由于 ptrs 是一个指针数组，你可以使用索引来获取每个图像的指针。在你的循环中，对于每个图像，你将使用这个指针来访问图像的像素数据。

以下是一个简化的代码示例，展示了如何在 PyOpenCL 中实现这个过程：

# 假设 img_buffers 是一个包含所有图像缓冲区的列表 # 创建一维缓冲区来存储这些指针 ptr_buffer = cl.Buffer(context, cl.MEM_READ_WRITE, size=num_images * sizeof(cl.Buffer)) # 将每个图像的缓冲区地址写入 ptr_buffer for i, img_buffer in enumerate(img_buffers): ptr_buffer_device = ptr_buffer.device_pointer + i * sizeof(cl.Buffer) queue.enqueue_write_buffer(ptr_buffer, ptr_buffer_device, img_buffer) # 在内核调用中传递 ptr_buffer kernel_overlay(bg_buffer, ptr_buffer, img_info_buffer, num_images)

在内核代码中，你可以像这样访问这些图像：

__kernel void overlay(__global float4 *bg, __global void* ptrs, __global int *img_info, int num_images) { // ...（与你的代码相同） for (int i = 0; i < num_images; i++) { __global float4 *img = (__global float4 *)((char*)ptrs)[i]; // 使用指针算术访问图像数据 // ...（处理图像） } }

这样，你就可以在 GPU 上并行处理多个图像了。请注意，你需要确保 img_info 缓冲区包含正确的信息来识别每个图像的边界和尺寸。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Pyopencl Tutorial .pdf
2019-08-11 13:04

pyopencl参考手册，PPT换PDF格式的，Python是目前较流行的一种科学计算语言。语法简洁,上手快，易于维护的优点。但其运算速度是真心的慢。特别是在复杂的科学计算时，即时用上NumPy也不行。跟C/C++相比，不是一个...
Python库 | pyopencl_extension-0.0.17-py3-none-any.whl
2022-02-25 10:32

python库。资源全名：pyopencl_extension-0.0.17-py3-none-any.whl
python语言支持函数式编程_新的函数式编程语言可以为应用生成C，Python代码
2020-11-28 07:16

weixin_39854778的博客哥本哈根大学计算机科学系的研究员最近发布了Futhark，这是一种函数式编程语言，可以产生运行在GPU上的代码，主要用于机器学习和其他对性能要求高的应用。Futhark在GPU编程方面比标准的C/C++框架更加优秀。它可以给...
linux环境安装PyOpenCL
2013-08-29 16:51

Python 是一种流行的编程语言，广泛应用于数据分析、机器学习、Web 开发等领域。安装步骤 1. 下载并解压 PyOpenCL：下载 PyOpenCL 的源代码，解压缩到当前目录。 2. 安装 NumPy：PyOpenCL 被设计与 NumPy 相关，...
pyopencl-parallella
2021-06-17 19:05

这种习惯用法在 C++ 中通常称为，它使编写正确、无泄漏和无崩溃的代码变得更加容易。完整性。如果您愿意，PyOpenCL 可让您使用 OpenCL API 的全部功能。每个模糊的 get_info() 查询和所有 CL 调用都可以访问。...
OpenCL编程指南
2017-06-15 17:12

第二部分（14~22章），提供了一系列经典的案例，如图像直方图、Sobel边界检测过滤器、并行实现Dijkstra单源最短路径图算法、Bullet Physics SDK中的布模拟、用快速傅里叶变换模拟海洋、光流、OpenCL与PyOpenCL结合...
PyOpenCL-开源
2021-04-25 19:03

OpenCL的Python绑定，OpenCL是异构系统并行编程的开放标准
计算机语言ps,编程语言GitHub项目助你快速PS
2021-07-15 10:16

美界柯南的博客一键抠图抠图的 AI 应用场景是这样的：给定一张图像，通过划定一个区域，AI 应当能够估计到划定区域内的前景图目标，并将这个前景完整地抽取出来，用来替换到其他背景的图像中去。因此，抠图需要两个 AI 能力：首先...
grunnur：PyCuda和PyOpenCL的统一接口
2021-02-16 11:24

“ Grunnur”在冰岛语中的意思是“基金会”。它有什么作用？ Grunnur是和之上的一薄层，使编写与平台无关的程序更加容易。它是一个经过改进的cluda的子模块，提取到一个独立的模块。警告：当前版本不是很稳定...
PyOpenCL－03.图片操作
2023-06-21 14:42

sun zi chao的博客 Python是目前较流行的一种科学计算语言。语法简洁,上手快，易于维护的优点。但其运算速度是真心的慢。那我们能否利用Python的简洁+OpenCL的运算能力呢？答案是可以的，那就是PyOpenCL。
orthorhombic-pyopencl:使用 PyOpenCL 实现二维各向异性材料中弹性波传播的数值建模
2021-06-18 07:15

如果您在研究中使用 orthorhombic-pyopencl 代码，我们将不胜感激引用以下文章： “使用 OpenCL 通过二维各向异性材料加速波传播的数值建模” ，Miguel Molero 和 Ursula Iturrarán-Viveros，超声波 53 (3)，2013...
GPU编程（基于Python和CUDA）（三）——逐元素运算核（ElementwiseKernel）
2023-09-06 09:42

艾醒(AiXing-w)的博客在向量运算和矩阵运算中，对于向量和矩阵按照元素逐个运算十分常见，在本篇中将采用向量与标量相乘为例子介绍逐元素运算核。
opencl编程指南
2018-05-29 17:05

OpenCL领域公认的权威著作，由OpenCL核心设计人员亲自执笔，不仅全面而深刻地解读了OpenCL规范和编程模型，而且通过大量案例和代码演示了基于OpenCL编写并行程序和实现各种并行算法的原理、方法、流程和最佳实践，...
pyopencl：适用于Python的OpenCL集成，以及出色的功能
2021-02-03 11:50

pyopencl：适用于Python的OpenCL集成，以及出色的功能
PyOpenCL：通过数组和算法对OpenCL的Pythonic访问-Python开发
2021-05-25 16:55

PyOpenCL允许您从Python访问GPU和其他大规模并行计算设备PyOpenCL：使用数组和算法对OpenCL进行Pythonic访问PyOpenCL允许您从Python访问GPU和其他大规模并行计算设备。它试图根据其姊妹项目PyCUDA的精神提供计算...
mint linux中文社区,Linux Mint上的PyOpenCL：平台没有找到
2021-05-14 17:16

weixin_39576104的博客我一直在尝试让PyOpenCL和PyCUDA在linuxmint机器上运行。我已经安装了一些东西，但演示脚本失败，错误如下：pyopencl.cffi_cl.LogicError: clgetplatformids failed: PLATFORM_NOT_FOUND_KHR配置$ uname -a &&...
borehole-pyopencl:实现 2.5-D 有限差分 (FD) 代码以模拟由 GPU 加速的圆柱坐标中的声学全波形单极测井
2021-06-18 07:21

###Borehole-pyopencl 如果您在研究中使用了钻Kong pyopencl 代码，我们将不胜感激引用以下文章： “在异构地层中沿钻Kong模拟声波：使用 PyOpenCL 加速 2.5-D 有限差分” ，Ursula Iturrarán-Viveros、Miguel ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月10日

悬赏问题

¥15 CCF-CSP 2023 第三题解压缩(50％)
¥30 comfyui openpose报错
¥20 Wpf Datarid单元格闪烁效果的实现
¥15 图像分割、图像边缘提取
¥15 sqlserver执行存储过程报错
¥100 nuxt、uniapp、ruoyi-vue 相关发布问题
¥15 浮窗和全屏应用同时存在，全屏应用输入法无法弹出
¥100 matlab2009 32位一直初始化
¥15 Expected type 'str | PathLike[str]…… bytes' instead
¥15 三极管电路求解，已知电阻电压和三级关放大倍数

pyopencl中传参问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新