cuda编程困惑cudaMemcopy

该函数底层是cpu在拷贝还是gpu在拷贝，考入考出耗时这么大，gpu加速计算时是怎么加速的，原理是什么，程序应该怎么设计？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hello_hi_hi 2017-10-18 09:46
关注
cudaMemcopy是CPU和GPU两者共同作用的结果。
GPU编程就是八股文，共分三个步骤：
1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中，
2、启动GPU计算
3、GPU计算结束后使用cudaMemcopy将GPU内存中的计算结果返回CPU内存中。
由于数据交换通过PCI-E接口进行，只要数据俩不是太大且接口数据带宽足够，耗时不会很大！
GPU加速主要适用于高并行度、高计算量、低内存占用的项目。
1、高并行度——充分利用GPU中众多处理器的特点，根据不同的GPU可用成千上万个线程并行处理；
2、高计算量——可以抵消cudaMemcopy带来的影响
3、低内存占用——尽量使用局部内存，减少对显存的使用，从而减少由于访问显存而带来的时延。
下面是一个完整的例子：
CudaSample.h
#ifndef HEADER_THREADTEST_H
#define HEADER_THREADTEST_H
#ifdef __cplusplus
extern "C" {
#endif

//CUDA device property data structure
struct DevicdProp
{
int deviceNo;
char name[256];
size_t totalGlobalMem;
size_t sharedMemPerBlock;
int regsPerBlock;
int warpSize;
size_t memPitch;
int maxThreadsPerBlock;
int maxThreadsDim[3];
int maxGridSize[3];
size_t totalConstMem;
int major;
int minor;
int clockRate;
size_t textureAlignment;
int deviceOverlap;
int multiProcessorCount;
};

//thread number is equal to 2 multiprocessor's thread number
#define ThreadNumPerBlock 64

#define BlockNum 4

#define TotalThread BlockNum * ThreadNumPerBlock

//Self defined structure
struct MYSTRUCT
{
unsigned int A[TotalThread], B[TotalThread], C[TotalThread];
};

//Init CUDA
bool InitCUDA(DevicdProp *lpDevicdProp);

//Cuda Sample
void CudaSample(MYSTRUCT* lpHostStruct);

#ifdef __cplusplus
}
#endif
#endif

CudaCuda.cu
#include
#include

#include

#include "CudaSample.h"

/************************************************************************/
/* Init CUDA /
/***********************************************************************/
cudaDeviceProp deviceProp;

#if DEVICE_EMULATION

bool InitCUDA(DevicdProp *lpDevicdProp){return true;}

#else
bool InitCUDA(DevicdProp *lpDevicdProp)
{
int count = 0;
int i = 0;

//Set no CUDA device is selected lpDevicdProp->deviceNo = -1; cudaGetDeviceCount(&count); if(count == 0) { fprintf(stderr, "There is no device.\n"); return false; } else printf("\n\nThere are maybe %d devices supporting CUDA\n", count); for(i = 0; i < count; i++) { if(cudaGetDeviceProperties(&deviceProp, i) != cudaSuccess) { printf("\nDevice %d: Property cannot be get.\n", i); continue; } // This function call returns 9999 for both major & minor fields, if no CUDA capable devices are present if(deviceProp.major == 9999 && deviceProp.minor == 9999) { printf("\nDevice %d: Do not supporting CUDA.\n", i); continue; } if(lpDevicdProp->deviceNo == -1) { lpDevicdProp->deviceNo = i; memcpy(lpDevicdProp->name, deviceProp.name, 256); lpDevicdProp->totalGlobalMem = deviceProp.totalGlobalMem; lpDevicdProp->sharedMemPerBlock = deviceProp.sharedMemPerBlock; lpDevicdProp->regsPerBlock = deviceProp.regsPerBlock; lpDevicdProp->warpSize = deviceProp.warpSize; lpDevicdProp->memPitch = deviceProp.memPitch; lpDevicdProp->maxThreadsPerBlock = deviceProp.maxThreadsPerBlock; lpDevicdProp->maxThreadsDim[0] = deviceProp.maxThreadsDim[0]; lpDevicdProp->maxThreadsDim[1] = deviceProp.maxThreadsDim[1]; lpDevicdProp->maxThreadsDim[2] = deviceProp.maxThreadsDim[2]; lpDevicdProp->maxGridSize[0] = deviceProp.maxGridSize[0]; lpDevicdProp->maxGridSize[1] = deviceProp.maxGridSize[1]; lpDevicdProp->maxGridSize[2] = deviceProp.maxGridSize[2]; lpDevicdProp->totalConstMem = deviceProp.totalConstMem; lpDevicdProp->major = deviceProp.major; lpDevicdProp->minor = deviceProp.minor; lpDevicdProp->clockRate = deviceProp.clockRate; lpDevicdProp->textureAlignment = deviceProp.textureAlignment; lpDevicdProp->deviceOverlap = deviceProp.deviceOverlap; lpDevicdProp->multiProcessorCount = deviceProp.multiProcessorCount; } printf("\nDevice %d: \"%s\"\n", i, deviceProp.name); printf(" CUDA Capability Major revision number: %d\n", deviceProp.major); printf(" CUDA Capability Minor revision number: %d\n", deviceProp.minor); printf(" Total amount of global memory: %u bytes\n", (unsigned int)(deviceProp.totalGlobalMem));

#if CUDART_VERSION >= 2000
printf(" Number of multiprocessors: %d\n", deviceProp.multiProcessorCount);
printf(" Number of cores: %d\n", 8 * deviceProp.multiProcessorCount);
#endif
printf(" Total amount of constant memory: %u bytes\n", (unsigned int)(deviceProp.totalConstMem));
printf(" Total amount of shared memory per block: %u bytes\n", (unsigned int)(deviceProp.sharedMemPerBlock));
printf(" Total number of registers available per block: %d\n", deviceProp.regsPerBlock);
printf(" Warp size: %d\n", deviceProp.warpSize);
printf(" Maximum number of threads per block: %d\n", deviceProp.maxThreadsPerBlock);
printf(" Maximum sizes of each dimension of a block: %d x %d x %d\n",
deviceProp.maxThreadsDim[0],
deviceProp.maxThreadsDim[1],
deviceProp.maxThreadsDim[2]);
printf(" Maximum sizes of each dimension of a grid: %d x %d x %d\n",
deviceProp.maxGridSize[0],
deviceProp.maxGridSize[1],
deviceProp.maxGridSize[2]);
printf(" Maximum memory pitch: %u bytes\n", (unsigned int)(deviceProp.memPitch));
printf(" Texture alignment: %u bytes\n", (unsigned int)(deviceProp.textureAlignment));
printf(" Clock rate: %.2f GHz\n", deviceProp.clockRate * 1e-6f);
#if CUDART_VERSION >= 2000
printf(" Concurrent copy and execution: %s\n", deviceProp.deviceOverlap ? "Yes" : "No");
#endif
#if CUDART_VERSION >= 2020
printf(" Run time limit on kernels: %s\n", deviceProp.kernelExecTimeoutEnabled ? "Yes" : "No");
printf(" Integrated: %s\n", deviceProp.integrated ? "Yes" : "No");
printf(" Support host page-locked memory mapping: %s\n", deviceProp.canMapHostMemory ? "Yes" : "No");
printf(" Compute mode: %s\n", deviceProp.computeMode == cudaComputeModeDefault ?
"Default (multiple host threads can use this device simultaneously)" :
deviceProp.computeMode == cudaComputeModeExclusive ?
"Exclusive (only one host thread at a time can use this device)" :
deviceProp.computeMode == cudaComputeModeProhibited ?
"Prohibited (no host thread can use this device)" :
"Unknown");
#endif
}

i = lpDevicdProp->deviceNo; if(i == -1) { fprintf(stderr, "There is no device supporting CUDA.\n"); return false; } cudaSetDevice(i); printf("CUDA Device No. used = %d.\n", i); printf("CUDA initialized.\n"); return true;

}

/************************************************************************/
/* Example /
/***********************************************************************/
global static void CudaCalc(MYSTRUCT* lpMyStruct)
{
int idx = threadIdx.x + blockIdx.x * blockDim.x;

if(gridDim.x!=BlockNum) return; if(blockDim.x!=ThreadNumPerBlock) return; if(idx<TotalThread) lpMyStruct->A[idx] = lpMyStruct->B[idx] + lpMyStruct->C[idx];

}

void CudaSample(MYSTRUCT* lpHostStruct)
{

MYSTRUCT *lpDeviceStruct = 0; cudaMalloc((void**) &lpDeviceStruct, sizeof(MYSTRUCT)); cudaMemcpy(lpDeviceStruct, lpHostStruct, sizeof(MYSTRUCT), cudaMemcpyHostToDevice); CudaCalc<<<BlockNum, ThreadNumPerBlock, 0>>>(lpDeviceStruct);

// CUT_CHECK_ERROR("Kernel execution failed\n");

cudaThreadSynchronize(); cudaMemcpy(lpHostStruct, lpDeviceStruct, sizeof(MYSTRUCT), cudaMemcpyDeviceToHost); cudaFree(lpDeviceStruct);

}

#endif

CudaSample.cpp

#include
#include

#include "CudaSample.h"

int main(int argc, char* argv[])
{
DevicdProp DevicdProps;
MYSTRUCT MyStruct;
unsigned int I, J, N;

if(!InitCUDA(&DevicdProps)) return 1; for(I=0; I<TotalThread; I++) { MyStruct.B[I] = I; MyStruct.C[I] = I; } CudaSample(&MyStruct); for(I=0; I<TotalThread; I++) J = MyStruct.A[I]; return 0;

}

这个例子基本涵盖了用CUDA进行GPU编程的必要步骤（尚缺根据不同GPU选择不同的线程数以及在CPU中启用多线程进行多GPU并行计算）
其计算为
for(I=0; I<TotalThread; I++)
{
MyStruct.B[I] = I;
MyStruct.C[I] = I;
MyStruct.A[I] = MyStruct.B[I] + MyStruct.C[I];
}
其中MyStruct.A[I] = MyStruct.B[I] + MyStruct.C[I]在GPU中计算，每个线程算一个，总线程数为256个。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

cuda编程困惑cudaMemcopy
2017-10-18 06:30

回答 2 已采纳 cudaMemcopy是CPU和GPU两者共同作用的结果。 GPU编程就是八股文，共分三个步骤： 1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中， 2、启动
cuda编程数据传输 c++ 有问必答
2022-07-13 15:45

回答 2 已采纳可以看一下下面这篇文章： CUDA编程记之一基本使用及线程、同步、存储器_辜易的博客-CSDN博客_cuda 线程同步欢迎大家一起来观摩我
在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
CUDA编程指南5.0版.pdf
2019-09-06 10:22

CUDA编程指南中文版5.0 CUDA编程指南中文版
Nvida GEforce GTX 1650支不支持CUDA编程吗？ c++
2019-07-17 11:27

回答 6 已采纳经过自己测试（可以在visual studio上编写CUDA程序），确实是支持的。
Golang调用CUDA库 c++
2016-03-02 21:47

回答 1 已采纳 It appears, at least in this case, that the go import of C is expecting the function to be provid
安装了cuda,为啥VS2013里面没有cuda模块？
2017-06-10 16:27

回答 2 已采纳后来重装cuda8.0时发现，应该先安装VS2013然后才安装cuda8.0，因为安装cuda8.0时，它会配置VS2013，如果安装顺序相反，则新建项目的时候，没有nvidia模块。
Cuda C 编程指南（程润伟）
2018-11-06 10:43

CUDA C 编程指南，美国华裔教授大牛程润伟最新力作，学习CUDA必备经典图书
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
cuda 支持 uncoalesced access吗？
2016-12-21 02:00

回答 1 已采纳支持的，只不过coalesced access效率更高
cuda11.7安装 pytorch
2023-03-10 17:35

回答 2 已采纳这是因为 PyTorch 版本所依赖的 CUDA 版本不匹配导致的。is_valible() 是 PyTorch 1.7 的一个函数，但是你使用的 CUDA 版本可能过老了。解决方法有两种：升级
CUDA编程指南（中文译版）
2017-12-29 16:05

基于CUDA官方文件翻译，包括cuda编程模型、编程接口、硬件实现、性能指南、C语言扩展、数学函数、纹理获取、计算能力、驱动API等获取等介绍。
cuda与torch匹配问题 python pytorch
2022-09-23 18:53

回答 2 已采纳应该是RTX3050Ti是版本比较新，所以cuda需要11.X 可以参考https://blog.csdn.net/zc19981224/article/details/119705267?ops_
CUDA 编程入门
2021-11-20 19:56

A-Egoist的博客 CUDA编程入门更好的阅读体验 CUDA 概述 CUDA 是 NVIDIA 推出的用于其发布的 GPU 的并行计算架构，使用 CUDA 可以利用 GPU 的并行计算引擎更加高效的完成复杂的计算难题。在目前主流的使用冯·诺依曼体系结构的...
cuda编程（一）基础
2022-05-04 16:22

姜大大的博客的博客 cuda支持的编程语言：c/c++/python/fortran/java… 1、CUDA并行计算基础异构计算 CUDA 安装 CUDA 程序的编写 CUDA 程序编译利用NVProf查看程序执行情况 gpu不是单独的在计算机中完成任务，而是通过协助cpu和...
没有解决我的问题, 去提问

悬赏问题

¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题
¥15 (标签-Python|关键词-socket)
¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法
¥15 可否在不同线程中调用封装数据库操作的类
¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思
¥20 求个正点原子stm32f407开发版的贪吃蛇游戏

cuda编程困惑cudaMemcopy

2条回答 默认 最新

悬赏问题

2条回答默认最新