我在使用caffe进行训练的时候在未耗尽显存的情况下显示显存溢出

报错信息:

I0227 13:57:10.174791 17889 solver.cpp:365] Model Synchronization Communication time 0.071111 second
I0227 13:57:10.275547 17889 solver.cpp:365] Model Synchronization Communication time 0.0634275 second
I0227 13:57:10.275617 17889 solver.cpp:456] Iteration 0, Testing net (#0)
I0227 13:57:11.660853 17889 cudnn_conv_layer.cpp:186] Optimized cudnn conv
I0227 14:18:10.495625 17889 solver.cpp:513]     Test net output #0: accuracy_top1 = 0.857785
I0227 14:18:10.495926 17889 solver.cpp:513]     Test net output #1: accuracy_top1_motion = 0.0103093
I0227 14:18:10.495939 17889 solver.cpp:513]     Test net output #2: accuracy_top1_motion_14 = 0.0103093
I0227 14:18:10.495947 17889 solver.cpp:513]     Test net output #3: accuracy_top1_motion_28 = 0.010838
I0227 14:18:10.495954 17889 solver.cpp:513]     Test net output #4: accuracy_top1_motion_fusion = 0.856992
I0227 14:18:10.495965 17889 solver.cpp:513]     Test net output #5: loss = 4.6683 (* 1 = 4.6683 loss)
I0227 14:18:10.495975 17889 solver.cpp:513]     Test net output #6: loss_14 = 4.6196 (* 1 = 4.6196 loss)
I0227 14:18:10.495985 17889 solver.cpp:513]     Test net output #7: loss_28 = 4.62227 (* 1 = 4.62227 loss)
F0227 14:18:11.252009 17892 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
F0227 14:18:11.252311 17889 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7fd2deed9dbd  google::LogMessage::Fail()
    @     0x7f70d80dddbd  google::LogMessage::Fail()
F0227 14:18:11.254006 17891 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7fd2deedbcf8  google::LogMessage::SendToLog()
    @     0x7f70d80dfcf8  google::LogMessage::SendToLog()
F0227 14:18:11.254802 17890 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7f766019fdbd  google::LogMessage::Fail()
    @     0x7fd2deed9953  google::LogMessage::Flush()
    @     0x7f70d80dd953  google::LogMessage::Flush()
    @     0x7f714c5cedbd  google::LogMessage::Fail()
    @     0x7f76601a1cf8  google::LogMessage::SendToLog()
    @     0x7fd2deedc62e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f70d80e062e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f714c5d0cf8  google::LogMessage::SendToLog()
    @     0x7f766019f953  google::LogMessage::Flush()
    @     0x7fd2df2aaa6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f70d84aea6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f714c5ce953  google::LogMessage::Flush()
    @     0x7f76601a262e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7fd2df3cc9f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f70d85d09f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f714c5d162e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f7660570a6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7fd2df423c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f70d8627c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f714c99fa6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f76606929f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7fd2df3f2905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f70d85f6905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f714cac19f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f76606e9c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7fd2df236ad6  caffe::Net<>::BackwardFromTo()
    @     0x7f70d843aad6  caffe::Net<>::BackwardFromTo()
    @     0x7f714cb18c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f76606b8905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7fd2df236d71  caffe::Net<>::Backward()
    @     0x7f70d843ad71  caffe::Net<>::Backward()
    @     0x7f714cae7905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f76604fcad6  caffe::Net<>::BackwardFromTo()
    @     0x7fd2df3c7bdf  caffe::Solver<>::Step()
    @     0x7f70d85cbbdf  caffe::Solver<>::Step()
    @     0x7f714c92bad6  caffe::Net<>::BackwardFromTo()
    @     0x7f76604fcd71  caffe::Net<>::Backward()
    @     0x7fd2df3c8408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f70d85cc408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f714c92bd71  caffe::Net<>::Backward()
    @     0x7f766068dbdf  caffe::Solver<>::Step()
    @     0x7fd2de10cf45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f70d7310f45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f714cabcbdf  caffe::Solver<>::Step()
    @     0x7f766068e408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f714cabd408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f765f3d2f45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f714b801f45  __libc_start_main
    @           0x40793d  (unknown)
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 0 on node s2 exited on signal 6 (Aborted).
--------------------------------------------------------------------------

资源使用情况:
图片说明

0
扫码支付0.1元 ×
其他相关推荐
【Keras】训练时显存out of memory的解决办法——fit_generator函数
问题描述:建立好model之后,用model.fit()函数进行训练,发现超出显存容量(一共有12G) 问题分析:fit()函数训练时,将全部训练集载入显存之后,才开始分批训练。显然很容易就超出了12G 解决办法:用fit_generator函数进行训练fit_generator函数将训练集分批载入显存,但需要自定义其第一个参数——generator函数,从而分批将训练集送入显存def data
caffe 使用LMDB数据库训练时 显存爆炸的问题
data_layer.cpp 中该层的析构函数定义的不够好,改成如下版本即可 template DataLayer::~DataLayer() {   this->JoinPrefetchThread();   // clean up the database resources #if defined(USE_LEVELDB) || defined(USE_LMDB)   switch (t
caffe显存问题
caffe在test的时候,blob的capacity_这个值是初始化是根据deploy的h和w来确定的,在真正开始跑的时候,可能test的时候输入尺寸并不是deploy的大小,比这个大小小的时候,在reshape之后,由于count_的值小于capacity_导致capacity_并不更新,从而在分配显存的时候,总是对不上,感觉显存多分配了。这是在图像超分遇到的问题,如果不存在这个用法,也就是说...
关于GPU资源泄露及解决办法
当在服务器上的GPU运行程序时,想通过Ctrl+C打断程序,但发现结束程序后GPU资源仍然被自己的进程占,此时需要kill掉你之前打断程序的进程,因此需要在命令行输入: ps 这时则会出现目前仍然在占用的进程号,然后就可以将此号kill掉,需要在命令行输入: kill -9 进程号 ...
caffe训练时总是会占用0号GPU卡
Sometimes, we will change the default GPU 0  to others when  we are training deep learning models using Caffe, however, we also find that gpu 0 is always used (~100 MBs)  .To solver this, we can simp
pytorch 训练正常,测试显存爆掉问题解决
pytorch 训练正常,测试显存爆掉问题解决Intropytorch versioncudnn versionpytorch训练正常但是在预测的时候显存爆掉,错误信息如下暂时解决方法:[参考链接](https://discuss.pytorch.org/t/strange-gpu-memory-behavior-strange-memory-consumption-and-out-of-memo...
在学习DRbox过程中,用训练好的模型在测试单个图片时总是出现显存溢出的问题,请问对电脑的硬件有什么要求
Input Image Size=(193, 120, 3) Start detection (64, 3, 300, 300) /home/jinsong/anaconda2/lib/python2.7/site-packages/skimage/transform/_warps.py:105: UserWarning: The default mode, ‘constant’, will be...
Caffe tensorflow和keras跑动程序时限制GPU所占显存和强制使用cpu
应用场景:       在实验室或者公司时,一般会遇到服务器紧张的情况。在这种情况下,可以通过限制GPU所占显存来使得一台服务器可以同时跑几个模型,当然,土豪实验室或者公司不用担心这个问题。 由于暂时只接触了Caffe,Tensorflow和keras,现只提供这三种深度学习框架的控制方法。 解决办法:       对于caffe而言,默认不是占满GPU全部的显存,而是通过网络设置batc...
pytorch 测试时候显存溢出
cuda out of memory 解决方法:http://www.cnblogs.com/Charlene-HRI/p/10234656.html 我的问题时在测试时候需要保存每次的输出中间向量,忘记转为 cpu().numpy(), 导致显存累积,越来越大,最终溢出 ...
Tensorflow显存溢出
报错信息 一直是 InternalError: Dst tensor is not initialized. 然后显示一大堆信息,通过谷歌大部分找到的就是 GPU 显存溢出。然后 加上 CUDA_VISIBLE_DEVICES=1 Environment Variable Syntax                               Results CUDA_VISIBL
GPU 显存 - Caffe 内存优化
Caffe 的一个优化版本 - [caffe-yjxiong](https://github.com/yjxiong/caffe). 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: [memory multiloading]
Tensorflow 在训练中的内存溢出以及线程安全问题
tensorflow
解决Mask RCNN训练时GPU内存溢出问题
首先自己是个小白对于如何使用GPU跑程序这个学习了一下: (1)使用的是putty,安装了Anaconda这个IDE环境,用的conda install tensorflow-gpu安装的GPU版本tf,之前只是安装了tf并没有选择GPU版本。安装完GPU版本的tf,可以进入python环境导入import tensorflow as tf 进行测试一下,如果没有报错即为成功。 (2)并在自己...
faster rcnn训练过程内存占用
faster rcnn训练过程内存占用曾经达到15.5g,而我的内存是16g
使用caffe训练faster-rcnn时遇到的问题总结
经过今天一天的实验,充分了解了在深度学习领域,显存大的重要性。 不得不承认,有了N卡以后,效率提高了很多,当然这也得益于纠缠于cpu训练faster rcnn的日子.... (1)今天早上,主要解决了faster rcnn 下的caffe不能编译的问题。 问题产生的原因是faster rcnn下的caffe不支持cudnn5.1,当时就单纯的把Makefile.config下的 USE_CU
NN模型设置--减小训练时的内存/显存占用
1)kennel_stride   一种技术是使用较大的步幅来进行卷积内核,也就是说,我们应用不是每个像素的平铺卷积,而是每两个或四个像素(stride为2或4),以便产生较少的输出数据。   这通常用于输入层,因为这些使用大部分内存。   当然,大stride通常是配合大的kenel_size一起使用;而使用大的kenel_size是为了扩大感受野。   为什么在第一层的stride要这么大? ...
GPU优化 - Caffe 显存优化[译]
1. Caffe - memory multiloading 功能 原文 - Squeezing Memory out of Caffe Caffe 的一个优化版本 - caffe-yjxiong. 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: memory multiload...
mxnet 显存优化
现状:基于 mxnet 开发的深度学习应用比 tensorflow 等框架 占用的显存更少、运行更快; mxnet 官方网站有一篇文章介绍了 mxnet 在显存方面的优化,以下概括大意: 使用同一个图去计算前向预测和反向传播还是显式地指定反向传播路径?Caffee,CXXNet,Torch 选择了前者,Theano,CGT,mxnet 选择了后者,同时 mxnet 也支持类似前者的情况;使用后...
深度学习运行过程中显存计算
亲,显存炸了,你的显卡快冒烟了! torch.FatalError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1524590031827/work/aten/src/THC/generic/THCStorage.cu:58 想必这是所有炼丹师们最不想看到的错误,没有之一。 OUT OF ...
TensorFlow使用GPU训练网络时多块显卡的显存使用问题
使用实验室的服务器网络训练时,发现我只使用单个GPU跑程序,但三块显卡的显存都被占用。查了官网说明,发现这是因为TensorFlow训练时默认占用所有GPU的显存导致的。于是记录一下解决方法。
Tensorflow占用GPU显存问题
我使用Pytorch进行模型训练时发现真正模型本身对于显存的占用并不明显,但是对应的转换为tensorflow后(权重也进行了转换),发现Python-tensorflow在使用时默认吃掉所有显存,并且不手动终结程序的话显存并不释放(我有两个序贯的模型,前面一个跑完后并不释放占用显存)(https://github.com/tensorflow/tensorflow/issues/1727),这一...
使用GPU训练大神经网络之 显存控制策略与提升
本文是“[PPoPP18] SuperNeurons:Dynamic GPU Memory Management for Training Deep Neural Networks”的论文阅读笔记,论文、talk视频PPT等详见作者主页:https://linnanwang.github.io/ 参考资料: https://linnanwang.github.io/ How to Optim...
Fast Mask-RCNN 配置及运行训练过程中踩坑(二)
Fast Mask-RCNN 配置及训练过程中踩坑及处理
tensorflow使用GPU训练时的显存占用问题
最近用GoogleNet (inception-v3)做fine-tune训练时,遇到了一个问题。当我选择单个GPU训练时候,服务器中所有的GPU显存都会被占满,如下图所示:     出现以上问题的原因是tensorflow在训练时默认占用所有GPU的显存。     可以通过以下方式解决该问题: 1、在构造tf.Session()时候通过传递tf.GPUOptions作为可选配置参数
TensorFlow和Keras解决大数据量内存溢出问题
NVIDIA DLI 深度学习入门培训 | 特设三场!4月28日/5月19日/5月26日一天密集式学习  快速带你入门阅读全文&amp;gt;正文共5771个字,1张图,预计阅读...
错误调试:Ubuntu-Tensorflow ,程序手动结束后,GPU的显存没有被释放
如题:Ubuntu-Tensorflow ,程序被手动强行结束后(win+c),程序所占用的GPU的显存没有被释放掉,影响下次运行,会出现以下错误:         failed to allocate 4.75G (5102921216 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY 解决方法:        方法1)终端上:sudo kill -...
Keras学习︱训练时显存out of memory的解决办法——fit_generator函数
keras默认情况下用fit方法载数据,就是全部载入。换用fit_generator方法就会以自己手写的方法用yield逐块装入 问题分析:fit()函数训练时,将全部训练集载入显存之后,才开始分批训练。显然很容易就超出了12G 解决办法:用fit_generator函数进行训练 fit_generator函数将训练集分批载入显存,但需要自定义其第一个参数——generator函数,从而分批...
一次内存和显存的优化
图片磁盘中的格式,bmp没有压缩,png,tga,jpeg等都是压缩格式!内存中,显存中都是ARGB_8888,GL_RGBA格式。 优化Tips: 避免使用小纹理,采用256*256,将尽可能多标注打包到一个大纹理中,减小纹理空间浪费,成倍减小draw call!
tensorflow中GPU相关设置解决显存不足
1.显存不足时报错如下:E tensorflow/stream_executor/cuda/cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERRORE tensorflow/stream_executor/cuda/cuda_dnn.cc:326] could not destroy cudnn hand...
Pytorch 训练与测试时爆显存(out of memory)的一个解决方案
Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法。 使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下: try: output = model(input) except RuntimeError as exception: if &quot;out of...
Tensorflow与Keras自适应使用显存
Tensorflow支持基于cuda内核与cudnn的GPU加速,Keras出现较晚,为Tensorflow的高层框架,由于Keras使用的方便性与很好的延展性,之后更是作为Tensorflow的官方指定第三方支持开源框架。但两者在使用GPU时都有一个特点,就是默认为全占满模式。在训练的情况下,特别是分步训练时会导致显存溢出,导致程序崩溃。可以使用自适应配置来调整显存的使用情况。 一、Ten...
Ubuntu系统下,训练Tensorflow - GAN网络资源耗尽ResourceExhaustedError1的问题
1、tensorflow训练网络模型出现资源耗尽的问题输入的训练代码为:$ python main.py --phase=train --data_dir=./data/CK+ --snapshot=5 --n_label=8 --image_size=256 --batch_size=16 --epoch=100其中,主要的问题在输入训练图片的大小。此处为256*256*3。训练到%17时,突然...
Keras解决OOM超内存问题
如果在Keras内部多次使用同一个Model,例如在不同的数据集上训练同一个模型进而得到结果,会存在内存泄露的问题。在运行几次循环之后,就会报错OOM。解决方法是在每个代码后面接clear_session()函数,显示的关闭TFGraph,再重启。详情参考 https://keras.io/backend/#backend-functions。from keras import backend as
GPU ID 和显存占用设定
                        GPU ID 和显存占用设定 Keras - GPU ID 和显存占用设定 初步尝试 Keras (基于 Tensorflow 后端)深度框架时, 发现其对于 GPU 的使用比较神奇, 默认竟然是全部占满显存, 1080Ti 跑个小分类问题, 就一下子满了. 而且是服务器上的两张 1080Ti. 服务器上的多张 GPU 都占满, 有点浪费性能. ...
TensorFlow训练模型,指定GPU训练,设置显存,查看gpu占用
1 linux查看当前服务器GPU占用情况:nvidia-smi  周期性输出GPU使用情况: (如设置每3s显示一次GPU使用情况) watch -n 3 nvidia-smi   效果如下:    2  指定GPU训练,使用CUDA_VISIBLE_DEVICES来指定    如果要指定第2块GPU训练,可以在python代码中如下指定:import os os.environ['CUDA...
卷积神经网络中参数量的计算与模型占用显存的计算
本文转自@花花知乎用户的文章片段「七夕的礼物」: 一日搞懂卷积神经网络,详细内容请看原作者的详细描述! 以前总看见别人说某某神经网络参数量有多少,大概占用多大的显存等等描述,但心里却并不知道为什么是这么多,今天看到这篇文章,大体上有了一定的理解。 参数量的计算: 「VGG Network」,牛津大学VGG实验室设计的架构,将AlexNet的8层提高到了...
tensorflow显存不够使用如何解决(windows系统)
本人在跑完训练部分,然后开始跑测试部分出现了以下问题,这个问题困扰了一上午 查看下显卡发现果然几乎用完了,具体查看步骤请参考:https://blog.csdn.net/zhuimengshaonian66/article/details/81286206 其实之前也出现过一次这种问题,忘记怎么解决了,好像是重启,不建议大家去试,因为下面有完美解决这个问题的办法 我是在 main...
关于TensorFlow GPU 跑神经网络爆内存的处理办法
本人上一篇博客介绍了vgg16模型的finetuning(网址:点击打开链接),在cpu上跑没问题,但是我在全部复制到gpu(gtx750TI)上跑却发生爆内存的情况,下面介绍一下我的解决办法。      不得不承认爆内存跟我的渣渣gpu有关,为了尽量的减少gpu内存的使用率,在加载vgg16模型的时候并没有直接调用命令,而是把网络的权重跟偏置都设为常值,直接赋值,减少了以后sess.r...
显存和GPU占用率
 显存和GPU的关系有点类似于内存和CPU的关系   显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用  模型大小:全连接很大,Embedding层很大,会导致模型很大 1)节省显存的方法: 降低batch-size 下采样(NCHW -&amp;gt; (1/4)*NCHW) 减少全连接层(一般只留最后一层分类用的全连接层)  ...
Ubuntu 16 释放显存的方法——深度学习模型关闭异常导致的现存占满
 在跑深度学习的时候,有时候由于关闭程序的不规范,导致显存一直被占用,以致于下一次跑网络的时候会出现现存不足的情况。在这种情况下可以使用如下指令:    kill -9 PID     PID这里应该由具体你想关闭哪个占用显存的程序的PID号代替,输入指令: watch -n 1 nvidia-smi     即可查看哪些程序占用了多少显存,如下图:       那么如果我想结束...
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 我学python 深度学习caffe视频

相似问题

1
我在使用caffe进行训练的时候在未耗尽显存的情况下显示显存溢出
1
回归问题,训练损失不断增大,测试损失不断减小
0
如何对使用ssd检测出来的目标进行计数
1
Opencv调用Canny算法时是否会在Canny算法本身内部进行高斯滤波?
0
调用chatterbot和其中bot对话的时候总是会有一句警告?
3
python3使用tesserocr图片识别,无报错,无输出
1
在磁盘分区中当空间分区之前是EFI系统分区时,如何处理未分配的空间分区?
1
ffmpeg的静态库,在连接的时候出现的问题,比较奇怪
0
vmware workstation 14 player 在安装ubuntu时无法使用键盘的问题
1
如何用python写一个可视化图形用户界面,实现一键使用训练好的模型检测物体
1
树莓派3b+安装ROS后,输入roscore显示Checking log directory for disk usage. This may take awhile.
2
使用quadprog++函数库的问题
2
为什么我这个程序每次交叉验证求取spread的结果都不同呢?最终结果也不相同?
1
caffe编译完成 想要打开的时候出错:提示libcaffe.lib该文件没有与之关联的应用来执行该操作
1
VLFeat工具包Sift相关函数使用?MATLAB
1
tf.train.shuffle_batch要求定义张量的shape,Tensor不定长时如何使用shuffle_batch
0
pytorch自定义loss,如何进行后向传播loss.backward()?
1
C语言输入加减乘除符号后,直接跳到程序结尾,不进行分支执行。
0
CNTK中LightRNN项目训练时出错
0
急求使用sparkGraphx实现相关联元素合并。