自己写的深度学习框架为什么运行这么慢？

通过matlab写的卷积网络框架，然后复杂的操作比如卷积池化等通过.cu文件写的，
调用GPU加速，外面的层为粗粒度的，运行的速度和TensorFlow差一个数量级，也用到
GPU加速了，怎么会慢这么多，会不会因为由于每一层数据都会在GPU和CPU中搬运导致？
现有的框架是不是每个batch的数据前向反向传播完才会释放一次显存?

求大神指点迷津！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2018-07-23 14:00
关注
一种没有证实的小道消息：nvidia是一个很鸡贼的公司。大伙儿编写gpu代码，使用的是nvidia提供的cuda sdk和编译器。但是nvidia留了一手，它内部有更好的编译器但是没有拿出来。
nvidia自己开发的cudnn就是基于内部的编译器，所以性能要比大伙儿用cuda sdk自己写的要好。
目前tensorflow在内的大部分框架，似乎都没有自己去编写gpu的代码，而是直接调用的cudnn。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

自己写的深度学习框架为什么运行这么慢？深度学习
2018-07-23 13:37

回答 2 已采纳一种没有证实的小道消息：nvidia是一个很鸡贼的公司。大伙儿编写gpu代码，使用的是nvidia提供的cuda sdk和编译器。但是nvidia留了一手，它内部有更好的编译器但是没有拿出来。 nv
为什么不用matlab做深度学习？人工智能深度学习
2022-10-13 10:46

回答 2 已采纳 matlab可以做深度学习，但是从实用性的角度来讲matlab的实现效率相对较低，训练耗时较长。初次学习计算机语言就选择matlab不是一个明智的选择，最好选用C或者Basic作为入门语言。matla
基于python做神经网络、深度学习需不需要自己写代码，需要写到什么程度呢？ python 有问必答深度学习神经网络
2022-05-16 13:12

回答 6 已采纳的确是很多第三方库给你去用，直接import就可以，但是问题是，如果目前出了问题，第三方库无法满足你的需求，你需要进一步修改代码你怎么办？而且这个问题在实际应用中是经常碰见的，这时候你会不会神经网络基
【机器学习】深度学习框架是什么？有哪些？如何选择？
2023-08-14 14:24

modi000的博客在CMU的DyNet和Facebook的PyTorch出现之前，Chainer一直是...作一个简单的比喻，一套深度学习框架就是这个品牌的一套积木，各个组件就是某个模型或算法的一部分，你可以自己设计如何使用积木去堆砌符合你数据集的积木。
深度学习为什么需要图神经网络？深度学习神经网络
2022-10-21 11:36

回答 1 已采纳随着机器学习、深度学习的发展，语音、图像、自然语言处理逐渐取得了很大的突破，然而语音、图像、文本都是很简单的序列或者网格数据，是很结构化的数据，深度学习很善于处理该种类型的数据。然而现实世界中并不是所
深度学习和机器学习有什么区别？人工智能机器学习深度学习
2022-10-08 10:42

回答 1 已采纳机器学习是一个更大的概念，只要数据能够根据输入进行调整都叫机器学习而深度学习是一个算法它们的关系类似“时间管理”和“番茄工作法”，“番茄工作法”是时间管理的其中一种方法深度学习是机器学习的一种实现手段
vs2017IDE+python+深度学习框架，运行调试时怎么使用GPU加速？ tensorflow 人工智能深度学习
2019-04-18 18:22

回答 1 已采纳自己蠢了，解决问题的方法不对。。总是纠结于vs2017这个环境。。。想着配置调试环境。。。只需要在程序中编程就行了。。。
深度学习流行的框架有哪些？分别有什么特点
2023-01-25 18:05

天使Di María的博客 深度学习流行的框架有哪些？分别有什么特点
C语言是否可以写学习AI？ c语言人工智能深度学习
2022-08-01 21:38

回答 2 已采纳可以是可以，适合不适合就因人而定了。首先看你给自己定位是什么，如果是要做深度学习研究和底层原理的。用C完全没什么鸟问题。甚至很OJBK 因为Python里那些科学计算和深度学习的所谓模块，绝大部分,
深度学习训练模型的时候一个epoch的时间为什么会越来越长？ pytorch 深度学习目标检测
2021-09-16 21:35

回答 1 已采纳在训练的时候用visdom可视化每个iterator的loss值，把visdom换成tensorbord发现问题解决了，应该是用visdom记录的时候占用了电脑的进程。
跑深度学习为什么两个软件显示的的GPU资源使用不一样啊？ python 机器学习深度学习
2021-07-24 21:59

回答 1 已采纳鄙人接触过AI换脸有两个版本一个是英伟达用CUDA技术还有个就是AMD和intel 两者不能混用据我的知识库了解 深度学习是吃显存的
主流开源深度学习框架简介
2023-06-29 18:53

逆境清醒的博客一、TensorFlow深度学习框架二、PyTorch深度学习框架三、Keras深度学习框架四、Caffe深度学习框架五、中国深度学习开源框架状况六、几种框架的对比七、其他统计数据当下，有许多主流的开源深度学习框架供开发者使用...
为什么用colab训练yolov5模型非常慢？ python 深度学习
2023-03-30 18:08

回答 2 已采纳已解决，因为我自己对yolov5模型做了些改动，除了原来要求的数据只要我的模型还有一组额外的输入，而这组输入我没有使用yolov5中的cache来读取，而是简单的使用im.read()，将我的数据也改
深度学习入门（九）——深度学习框架概览
2022-05-28 16:36

_归尘_的博客 深度学习框架概览TensorFlowCaffePytorchPaddlePaddle TensorFlow Caffe Pytorch PaddlePaddle
主流深度学习框架及神经网络模型汇总
2023-08-27 22:25

ZhangJiQun&MXP的博客 NCNN的速度是超过TFLite的，但是有点麻烦的是之前得经常自己用C去复现一些算子(框架起步都这样)，现在因为使用的人数很多，因此算子很多。同样的设备，MNN的部署速度是非常快的，树莓派3B上cpu的加速是NCNN速度的3被...
没有解决我的问题, 去提问

悬赏问题

¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP