请问一下CPU和GPU之间拷贝数据的速度是什么决定的??

是PCIE总线的根数? PCIE总线的等级 ?? CPU频率?? GPU频率??? 有没有公式可以计算呢
希望能把CPU-> GPU GPU->CPU 这两种传输速度分开来说明,这两个速度肯定不一样,多谢了

2个回答

如果是连续的传输率,是显卡显存控制器的位宽和频率决定的。位宽x频率=带宽,带宽决定了持续传输的速度上限。
比如说一块显卡使用GDDR5内存,频率5000MHz,位宽=128bit,那么速率就是=640Gbps=80GBps,也就是每秒可以传输80GB的数据。

PCIe理论上也有上限,但是在目前,这些都远远超过了显卡实际需要的带宽。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
CPU和GPU之间的通信
渲染流水线的起点是CPU,即应用阶段。大致可分为下面三个阶段: 1.把数据加载到显存 2.设置渲染状态 3.调用DrawCall 1.把数据加载到显存 所有渲染所需要的数据都需要从硬盘(Hard Disk Drive, HDD)中加载到系统内存(Random Access Memory,RAM)中。然后,网格和纹理等数据又被加载到显卡上的存储空间:显存(Video Random Ac
决定数据库查询速度的是什么?是CPU速度还是磁盘速度?
我觉得好象瓶颈是硬盘的速度吧。rnrn
CPU 和 GPU 的区别是什么?
首先需要解释CPU和GPU这两个缩写分别代表什么。CPU即中央处理器,GPU即图形处理器。其次,要解释两者的区别,要先明白两者的相同之处:两者都有总线和外界联系,有自己的缓存体系,以及数字和逻辑运算单元。一句话,两者都为了完成计算任务而设计。两者的区别在于存在于片内的缓存体系和数字逻辑运算单元的结构差异:CPU虽然有多核,但总数没有超过两位数,每个核都有足够大的缓存和足够多的数字和逻辑运算单元...
cuda cpu与gpu之间数据传输速度
我的笔记本显卡gt840m,带宽14.4GB/s = 15.6MB/ms。为什么我从cpu传数据到GPU大概20MB的数据需要十几毫秒。
cuda 在GPU和CPU之间复制数组
int nDev=2; float** sendbuff = (float**)malloc(nDev * sizeof(float*)); float** recvbuff = (float**)malloc(nDev * sizeof(float*)); cudaStream_t* s = (cudaStream_t*)malloc(sizeof(cudaStream_t)*nDe...
多线程任务下CPU和GPU调度速度
背景:两个任务需要处理,所以我就分别把两个任务放在两个线程里面做。任务处理可以用GPU完成。发现使用gpu的时候的时间消耗比使用cpu的时间消耗还要大,正常情况下GPU时间消耗应该是CPU的十分之一以下。         我将两个任务不分线程做,也就是直接做在单一的一个线程里面,这个时候时间消耗就下来了。         如果多线程就是线任务是由CPU调度,那么gpu的使用也就是间接地受CPU
TensorFlow调用CPU/GPU对比速度
一、GPU代码 import time import tensorflow as tf begin = time.time() with tf.device('/gpu:0'): rand_t = tf.random_uniform([50,50],0,10,dtype=tf.float32,seed=0) a = tf.Variable(rand_t) b = tf....
CPU读取GPU中数据
通过CPU读取GPU处理过后的纹理中的数据,2D纹理
如何客观评估GPU速度(没看到GPU比CPU快)
我用hotball给出的GPU测试代码2(second_cuda.cu)在一台HP Z800的工作站(CENTOS5.4 32G内存,TESLA C1060,FX1800显示卡各一块)上编译通过,运行时候发现计算耗时不稳定。rn$ ./a.outrnMax error: 1.19209e-07 Average error: 4.22521e-08rnTime used: 0.1100 (18.18 GFLOPS)rn$ ./a.outrnMax error: 1.19209e-07 Average error: 4.22521e-08rnTime used: 0.0900 (22.22 GFLOPS)rn$ ./a.outrnMax error: 1.19209e-07 Average error: 4.22521e-08rnTime used: 0.1100 (18.18 GFLOPS)rn$ ./a.outrnMax error: 1.19209e-07 Average error: 4.22521e-08rnTime used: 0.0700 (28.57 GFLOPS)rn$ ./a.outrnMax error: 1.19209e-07 Average error: 4.22521e-08rnTime used: 0.0700 (28.57 GFLOPS)rnrn另外编写了简单的cuda程序,发现计时比较,并不比CPU算得快啊rn哪位支持一下,推荐个小示范程序,能体现gpu比cpu算得快好吗rn谢谢rn
CPU与GPU
您好~!rn我最近在一篇名为《利用GPU进行高性能数据并行计算》文章上看到GPU在很多数据计算能力上超过了CPU,例如文中提到:浮点运算能力,GeForce 8800GT 是Intel Core2Due Woodcrest 的21.6倍、DES算法,GPU是CPU对11.4倍、MD5破解实验,GPU是CPU的13.1倍、字符串匹配实验,GPU是CPU的10倍。通过这些数据我们不难看出在计算方面,GPU的性能远远超过了CPU,那么,是否在将来能用GPU取代CPU的计算功能呢?CPU在将来是否可以只负责逻辑控制等,而将数据计算的工作完全交给GPU呢??那么CPU的发展方向究竟在何方呢?rn现在CPU似乎都在向多核心方向发展,那么请问,多核心到底在性能上能带来多大的提升呢?在我们普通的办公运用,和普通的服务器运用上,她又到底给我们带来了多大的惊喜呢??这种多核心是否真的达到了她的预定效果呢???
Numpy,Tensor,CPU,GPU对象之间的相互转换
1、导入需要的模块 import torch import numpy as np from torch.autograd import Variable 2、tensor间的转换 a = torch.ones(2,3) # 新建全为1的tensor print("a:",a) float_a = a.data.float() # 转为FloatTensor print("float_a:",...
Shader学习——CPU与GPU之间的通信
应用阶段分为3个阶段: 1、把数据加载到显存中   把渲染所需的数据从硬盘加载到系统内存,再从内存加载到显存。显卡对显存的访问速度更快。 2、设置渲染状态   渲染状态定义了场景中的网格是怎样被渲染的。如设置使用哪个顶点着色器,材质等; 3、调用drawcall   Drawcall是一个命令,发起方是CPU,接收方是GPU。当给定一个Drawcall时,GPU就会根据之前的定点信息和渲
Shader 学习笔记(二) CPU和GPU之间的通信
渲染流水线的起点是CPU  即应用阶段 一.把数据加载到显存中 二.设置渲染状态 三.调用Draw Call   一     渲染所需的数据从硬盘最终加载到显存中,在渲染时可以快速的访问这些数据。  显存对于显卡的访问速度更快,大多数显卡对于内存没有直接的访问权限。                                                      注意
如何优化CPU与GPU之间的数据传输
我的显卡为GTX570。传输总线为 PCI-E x16.使用下面的方法传输40M整形数据消耗的时间为35ms.不知道有没有什么方法可以优化?rnrn代码如下:rn#define TOTAL_NUM 40*1024*1024rnint *keys;rncudaMallocHost((void**)&keys,sizeof(int)*TOTAL_NUM);//分配 pinned-memoryrngenerateNumbers(keys,TOTAL_NUM);//生成随机整数rnint *dev_keys;rncudaMalloc((void**)&dev_keys,sizeof(int)*TOTAL_NUM);//在global memory中分配存储空间rnunsigned int copy_timer;rncudaFree(0);rncutCreateTimer(©_timer);rncutStartTimer(copy_timer);rncudaMemcpy(dev_keys,keys,sizeof(int)*TOTAL_NUM,cudaMemcpyHostToDevice);//拷贝pinned-memory 中的数组到global memoryrncutStopTimer(copy_timer);rnfloat copyTime = cutGetTimerValue(copy_timer);rnprintf("Time to copy: %f ms\n",copyTime);rnrn实验结果: copyTime=35.1msrnrn请问有什么好的方法可以优化吗?多谢!
device和host之间的数据拷贝
我为什么我发现从device向host进行数据转移拷贝(用cudaMemcpy函数)时会出现很奇怪的问题,如果数据量很大就会出现拷贝错误,会错开一些位置,而数据量不大的话就没有问题。rn如果哪位了解的话麻烦解答下,如果还需要代码的话,我再整理一下贴上来
数据库之间数据拷贝的问题
现在有二个数据库ta,tb放在目录D:\tt下rnta中有一个表tat,表中有ta1,ta2二列rntb中有一个表tbt,表中有tb1,tb2二列(与tat中类型一样)rnrn现要写一条SQL语句,注意是一条SQL语句,用导入导出会rnrn我使用insert into tbt(tb1, tb2) select ta1,ta2 from OPENROWSET('Microsoft.Jet.OLEDB.4.0','D:\tt\ta','sa','sa',tat)rnrn这条语句的时候提示说rn消息 102,级别 15,状态 1,第 1 行rn',' 附近有语法错误。rnrn请达人速救~~~~~~~~~~~`
oracle与sqlserver之间数据拷贝
你们好:rn 想问一下,如果有两个数据库,一个是oracle,一个是sqlserver,rn如果把oracle中一个表的数据复制到sqlserver中呢?(在程序中)rn在access中的话,只要分别链接两个表,然后做一个追加查询rn就可以了,delphi中如果建两个adoquery,一条一条数据rn追加的话效率太慢了吧,有没有更好的办法呀?rnrn
数据库之间的数据记录拷贝
我有两个数据库a.mdb(密码123)和b.mbd(密码456),现在需要把满足某特定的a.mdb 中的表c记录复制到b.mdb中的表d?(c,d有相同结构)。
datatable之间如何拷贝数据?
如何把一个datatable中某几列的数据,导入到另外一个datatable中指定的几列中?
CPL 是什么决定的?一致代码段是什么决定的
我在读杨季文的 80386的保护模式,感觉这本书——————>混乱rnrn问题1:上来就一致代码段怎么样…… 我看了CSDN的帖子知道是 为了低特权的代码段共享高特权的代码段rnrn可是如何区别一致非一致那 ? 在选择子里,描述符里都没有!!!!!rnrn问题2:RPL是选择子的特权级,截止到杨书的第4个例子选择子都是事先定义好的,一个选择子对应一个描述符,根本看不出rnrn实际应用中RPL是由谁决定的。是不是由当前任务段TSS决定的那?CPL又是谁决定的?rnrn问题3:描述LDT的描述符放在GDT中 TSS是不是也是放在GDT中?rnrn问题4:兄弟们有好点的教材吗?
请问关于数据窗口与excel之间数据拷贝的问题
我用的是tabular类型(就是那种类似excel的)的数据窗口,我想让他和excel之间能互相拷贝数据,也就是说在数据窗口中输入的内容可以拷贝到excel中,同样excel的内容可以拷贝到数据窗口中(在数据窗口中选定一个区域的数据之后,然后可以拷贝到excel中)。请问有何办法rn
请问一下串口支持哪些波特率是什么决定的?
是硬件,还是软件呢?rnrn另外,我在用系统(winxp pro sp2)自带的超级终端在两个串口(用SerialNull虚拟)传输文件时,发现波特率设置为960bps时,传一个1M左右的文件2、3秒就完成了,这和端口设置的波特率是不是有点对簿上号啊?谢谢!
关于数据窗口之间的数据拷贝
rn 现有数据窗口对象a和b,怎么才能把a中符合要求的数据拷贝到b中?
[开发技巧]·PyTorch如何使用GPU加速(CPU与GPU数据的相互转换)
[开发技巧]·PyTorch如何使用GPU加速(CPU与GPU数据的相互转换) 配合本文推荐阅读:PyTorch中Numpy,Tensor与Variable深入理解与转换技巧 1.问题描述 在进行深度学习开发时,GPU加速可以提升我们开发的效率,速度的对比可以参照笔者这篇博文:[深度应用]·主流深度学习硬件速度对比(CPU,GPU,TPU)结论:通过对比看出相较于普通比较笔记本的(i5 ...
天分决定速度,勤奋决定高度
今天突然有网友来问匠人:“你觉得做电子的人是不是要很聪明才行?就是脑很好用的那种。我发现有些人比较笨,就像我。哎,不知如何是好......”        匠人很惊讶现在还有这么不自信的人,一时竟不知该如何回答是好。因为也许一个不谨慎的回答,可能就会挫伤一个未来大有作为的青年的积极性,甚至影响其一生的路。思索了一会,匠人试探性地问了一句:“笨鸟可以先飞。”        然而该网友依然不依不挠
高度决定速度 角度决定长度(路长全)
从青藏高原流下来的水成千上万条,为什么只有长江和黄河最终形成了两条奔腾不息的大河?    只有这两条河发源的高度和角度不同!了不起的营销首先得益于非凡的高度和角度,这就是战略!高度决定速度,角度决定长度!        我在青藏高原旅游,我就思考一个问题:从青藏高原流下来的水成千上万条,为什么绝大多数河流着流这就没有了,为什么只有长江和黄河最终形成两条奔腾不息的大河?    我请教一些地...
请问:拷贝内存区域的函数是什么!
-
CPU读取GPU中的数据3D
通过CPU读取GPU处理过后的3D纹理中的数值。
GPU是什么?
在下在看一本“silverlight”的3D应用教程,里面有一句:taking advantage of GPU accelebration to scale videos.rn请问这一句是什么意思?rnrnGPU又是什么,有什么作用?
请问一下如何拷贝一个对象
定义了一个全局的DataSet DS1,然后在函数fn1()中检索数据库并把结果赋给DS1,但当我在另外一个函数fn2()中调用这个DS1是总是提示说“引用没有设置到对象”
CPU GPU协同并行计算
CPU GPU协同并行计算 ;异构混合,协同并行计算,GPU计算,性能优化
GPU与CPU、显卡区别
一、GPU介绍以及与显卡区别论述:百度百科-GPU GPU是显卡的处理器,称为图形处理器(Graphics Processing Unit,即GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器,它是显卡的“心脏”,与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必...
GPU与CPU比较
现在更多被需要的依然是CPU,只是GPU在大规模并发计算中体现出其一技之长所以应用范围逐渐变得广泛,并成为近些年的热点话题之一。对初学者而言知道二者之间的区别还是非常必要的。
GPU和CPU排序算法比较
如题,目前GPU上实现了那些常用的排序算法呢?效率如何啊?
CPU GPU测试工具
CPU-Z 1.53.1 汉化版 ========================== Cpu-Z 是一款家喻户晓的CPU检测软件,除了使用Intel或AMD自己的检测软件之外,我们平时使用最多的此类软件就数它了。它支持的CPU种类相当全面,软件的启动速度及检测速度都很快。另外,它还能检测主板和内存的相关信息,其中就有我们常用的内存双通道检测功能。当然,对于CPU的鉴别我们还是最好使用原厂软件。 纯文本版报告虽然看的人不多但是仍完全汉化了,网页版报告的话,将字体放大了一号,以使其在中文系统下更加美观 另外CPU-Z从1.5x开始推出了显卡鉴别功能,但是目前仍然比较弱,仅仅能看个频率和显存,显卡的鉴别建议还是使用GPU-Z这样的专业工具。
gpu与cpu并行问题
现有如下代码(大致结果,部分省略)rnfor()rn //c代码rn for()rn //c代码rn for()rn kernel1cuda<<<>>>;rn kernel2cuda<<<>>>;rn rn //c代码rn (1) rn //c代码,将gpu的值传给cpurnrn假设两个kernel函数是正确的,为什么会出现计算结果不同?有时正确,有时错误。当在(1)出加断点一步一步调试,结果正确,如果直接运行到结尾,则会出现错误。请问是否需要加上gpu与cpu的同步函数cudaThreadSynchronize();?两个kernel函数是串行执行还是并行执行的?第二个kernel使用了第一个kernel的值
请教GPU与CPU的区别......
请教GPU与CPU的区别......
CPU与GPU检测工具
CPU与GPU检测工具 CPU与GPU检测工具 CPU与GPU检测工具
关于GPU与CPU的数据交互
我现在在做的是一些智能优化算法,需要进行上千次的上万次的迭代,这样优化的效果是最好的。这样的话就需要GPU和CPU之间不断地交互一些数组,并且空间的申请也是迭代一次申请一次再释放,因为每迭代一次我需要打印一下结果,我想问一下,数组在两者之间的交互是不是耗时很多?GPU申请空间是不是也会耗时?
真正的CPU/GPU模拟器
cuda 2.1现在提供的模拟器几乎没有什么用处,功能有限制,而且也体现不出来gpu的优势。极力推荐nvidia提供一个真正的cpu/gpu模拟器,功能:rn1)提供cuda程序运行rn2)提供模拟器运行效率和真正的GPU之间的性能换算,比如我选定一个GPU型号,通过模拟器运行之后,可以粗略估算出在真正的GPU上运行的效率,比如执行时间。rnrn最后这一点非常重要,如果我知道现在的系统,通过GPU模拟器之后的性能提高,我会很容易购买一块真正的GPU,而且也更容易说服我的boss购买。
相关热词 c# 标准差 计算 c#siki第五季 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池