调用CUDA API使用GPU运算一个JuliaSet花费的时间比在CPU上多

我用的是《GPU高性能编程CUDA实战》第四章最后的一个例子，在CPU上花费的时间700+ms，在GPU上花费的时间是800+ms

// CPU版本代码

void kernel(unsigned char * ptr) {
    for (size_t y = 0; y < DIM; y++) for (size_t x = 0; x < DIM; x++)
    {
        int offset = x + y*DIM;
        int juliaValue = julia(x, y);

        ptr[offset * 4 + 0] = 255 * juliaValue;
        ptr[offset * 4 + 1] = 0;
        ptr[offset * 4 + 2] = 0;
        ptr[offset * 4 + 3] = 255;
    }
}

int main(void) {

    clock_t start, finish;
    double totaltime;
    start = clock();

    CPUBitmap bitmap(DIM, DIM);
    unsigned char *ptr = bitmap.get_ptr();

    kernel(ptr);

    finish = clock();
    totaltime = (double)(finish - start) / CLOCKS_PER_SEC;
    printf("time : %fs\n", float(totaltime));

    bitmap.display_and_exit();

    return 0;
}

// GPU版本代码

#define DIM 1000

struct cuComplex
{
    float r;
    float i;
    __device__ cuComplex(float a, float b) : r(a), i(b) {}
    __device__ float magnitude2(void) { return r * r + i * i; }
    __device__ cuComplex operator*(const cuComplex& a) { return cuComplex(r*a.r - i*a.i, i*a.r + r*a.i); }
    __device__ cuComplex operator+(const cuComplex& a) { return cuComplex(r + a.r, i + a.i); }
};

__device__ int julia(int x, int y) {
    const float scale = 1.5;
    float jx = scale * (float)(DIM / 2 - x) / (DIM / 2);
    float jy = scale * (float)(DIM / 2 - y) / (DIM / 2);

    cuComplex c(-0.8, 0.156);
    cuComplex a(jx, jy);

    for (size_t i = 0; i < 200; i++)
    {
        a = a*a + c;
        if (a.magnitude2() > 1000) return 0;
    }

    return 1;
}

__global__ void kernel(unsigned char * ptr) {
    // 将threadIdx/BlockIdx映射到像素位置
    int x = blockIdx.x;
    int y = blockIdx.y;
    int offset = x + y*gridDim.x;

    // 计算对应位置上的值
    int juliaValue = julia(x, y);
    ptr[offset * 4 + 0] = 255 * juliaValue;
    ptr[offset * 4 + 1] = 0;
    ptr[offset * 4 + 2] = 0;
    ptr[offset * 4 + 3] = 255;
}

int main(void) {

    clock_t start, finish;
    double totaltime;
    start = clock();

    CPUBitmap bitmap(DIM, DIM);

    unsigned char *dev_bitmap;
    cudaMalloc((void **)&dev_bitmap, bitmap.image_size());

    dim3 grid(DIM, DIM);
    kernel<< <grid, 1 >> >(dev_bitmap);

    cudaMemcpy(bitmap.get_ptr(), dev_bitmap, bitmap.image_size(), cudaMemcpyDeviceToHost);

    cudaFree(dev_bitmap);

    finish = clock();
    totaltime = (double)(finish - start) / CLOCKS_PER_SEC;
    printf("time : %fs\n", float(totaltime));

    bitmap.display_and_exit();

    return 0;
}

运行结果是这张图片
图片说明
熟悉CUDA编程的大神能否解释一下为什么使用GPU并行计算花费的时间反而跟多？

配置是i7-8700 + GTX1060 6G

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-05-28 21:36
关注
julia是哪里的函数，对于gpu来说，调用函数开销很大，如果是调用主机上的函数，开销更大。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

.NET 调用CUDA的动态链接库实现GPU计算
2019-05-16 11:01

设备代码使用特殊的内核函数，这些函数会被并行地在GPU的多个线程上执行。例如，在数组相加的场景中，我们可能会定义一个内核函数，这个函数接收两个输入数组，并将它们的元素相加，结果存入第三个数组。 ```c++ __...
使用CUDA，Eclipse和Java和JCuda进行GPU计算
2021-04-08 07:06

CUDA是NVIDIA推出的一种通用并行计算架构，允许开发者直接利用GPU的强大计算能力，而JCuda则是Java对CUDA API的封装，使得Java程序员能够调用CUDA函数，进行GPU编程。描述中提到的“教程：使用JCuda和Nsight进行...
CUDA C编程（三十一）从一个GPU到多个GPU
2022-03-11 14:36

伴君的博客在应用程序中添加对多GPU的支持，其最常见的原因是以下几个方面：问题域的大小：现有的数据集太大，单GPU内存...GPU间数据传输的效率取决于GPU是如何连接在一个节点上并跨集群的。在多GPU系统里有两种连接方式
C#调用GPU计算案例
2019-07-29 10:22

CUDA编程的核心是kernel函数，这是一个在GPU上并行执行的函数，每个线程执行kernel的不同实例。在C#中调用CUDA的DLL，我们需要以下几个步骤： 1. **创建CUDA DLL库**：首先，你需要用CUDA C/C++编写一个动态链接...
cuda多gpu编程11 多gpu进行运算
2021-08-21 15:36

雨浅听风吟的博客四块gpu相比一块也只快了一倍处理效果如下，全部使用了默认流，没有进行cuda加速没改之前 #include <cstdint> #include <iostream> #include "helpers.cuh" #include "encryption.cuh" void encrypt...
GPU编程实战指南03：CUDA开发快速上手示例，GPU性能碾压实测
2025-03-09 09:29

anda0109的博客上一节《GPU编程指南02：CUDA开发快速上手示例》中我们完成了一个使用GPU进行加减乘除四则运算的例子。没有学习的可以先跳转学习这一节，因为它有详细的代码注释，学习完这一篇，你就基本入门了GPU编程。在这个例子...
GPU编程（基于Python和CUDA）（三）——逐元素运算核（ElementwiseKernel）
2023-09-06 09:42

艾醒(AiXing-w)的博客在向量运算和矩阵运算中，对于向量和矩阵按照元素逐个运算十分常见，在本篇中将采用向量与标量相乘为例子介绍逐元素运算核。
CUDA平台下多核GPU高性能并行编程
2018-01-03 17:31

CUDA允许开发者使用类C语言进行编程，将计算任务部署在NVIDIA的GPU（图形处理器）上执行。该技术特别适用于高性能计算（HPC）领域，其特点是能够利用GPU的大量并行处理核心来加速计算密集型任务。 GPU最初是为图形...
如何通过CPU多核并行和GPU多核并行两种方式提升GPU的运算性能 Accelerating GPUs with Multithreading Programming
2023-08-05 01:31

光子AI的博客 GPU(Graphics Processing Unit)多核并行处理单元是当前科技领域里最热门的硬件之一。如今GPU已经集成在笔记本电脑、平板电脑、服务器和手机...然后，介绍如何通过CPU多核并行和GPU多核并行两种方式提升GPU的运算性能。
GPU.rar_GPU_cuda GPU
2022-09-19 18:24

kernel.cu`这两个文件是CUDA程序的源代码，通常在CUDA编程中，`.cu`文件用于编写包含CUDA C++代码和主机代码（Host Code）的源文件，而`.cuh`或`.kernel.cu`文件则用于存放设备代码（Device Code），即运行在GPU上的...
没有解决我的问题, 去提问

调用CUDA API使用GPU运算一个JuliaSet花费的时间比在CPU上多

1条回答 默认 最新

1条回答默认最新