我在使用caffe进行训练的时候在未耗尽显存的情况下显示显存溢出

报错信息：

I0227 13:57:10.174791 17889 solver.cpp:365] Model Synchronization Communication time 0.071111 second
I0227 13:57:10.275547 17889 solver.cpp:365] Model Synchronization Communication time 0.0634275 second
I0227 13:57:10.275617 17889 solver.cpp:456] Iteration 0, Testing net (#0)
I0227 13:57:11.660853 17889 cudnn_conv_layer.cpp:186] Optimized cudnn conv
I0227 14:18:10.495625 17889 solver.cpp:513]     Test net output #0: accuracy_top1 = 0.857785
I0227 14:18:10.495926 17889 solver.cpp:513]     Test net output #1: accuracy_top1_motion = 0.0103093
I0227 14:18:10.495939 17889 solver.cpp:513]     Test net output #2: accuracy_top1_motion_14 = 0.0103093
I0227 14:18:10.495947 17889 solver.cpp:513]     Test net output #3: accuracy_top1_motion_28 = 0.010838
I0227 14:18:10.495954 17889 solver.cpp:513]     Test net output #4: accuracy_top1_motion_fusion = 0.856992
I0227 14:18:10.495965 17889 solver.cpp:513]     Test net output #5: loss = 4.6683 (* 1 = 4.6683 loss)
I0227 14:18:10.495975 17889 solver.cpp:513]     Test net output #6: loss_14 = 4.6196 (* 1 = 4.6196 loss)
I0227 14:18:10.495985 17889 solver.cpp:513]     Test net output #7: loss_28 = 4.62227 (* 1 = 4.62227 loss)
F0227 14:18:11.252009 17892 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
F0227 14:18:11.252311 17889 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7fd2deed9dbd  google::LogMessage::Fail()
    @     0x7f70d80dddbd  google::LogMessage::Fail()
F0227 14:18:11.254006 17891 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7fd2deedbcf8  google::LogMessage::SendToLog()
    @     0x7f70d80dfcf8  google::LogMessage::SendToLog()
F0227 14:18:11.254802 17890 syncedmem.cpp:51] Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
    @     0x7f766019fdbd  google::LogMessage::Fail()
    @     0x7fd2deed9953  google::LogMessage::Flush()
    @     0x7f70d80dd953  google::LogMessage::Flush()
    @     0x7f714c5cedbd  google::LogMessage::Fail()
    @     0x7f76601a1cf8  google::LogMessage::SendToLog()
    @     0x7fd2deedc62e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f70d80e062e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f714c5d0cf8  google::LogMessage::SendToLog()
    @     0x7f766019f953  google::LogMessage::Flush()
    @     0x7fd2df2aaa6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f70d84aea6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f714c5ce953  google::LogMessage::Flush()
    @     0x7f76601a262e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7fd2df3cc9f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f70d85d09f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f714c5d162e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f7660570a6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7fd2df423c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f70d8627c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f714c99fa6a  caffe::SyncedMemory::mutable_gpu_data()
    @     0x7f76606929f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7fd2df3f2905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f70d85f6905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f714cac19f2  caffe::Blob<>::mutable_gpu_data()
    @     0x7f76606e9c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7fd2df236ad6  caffe::Net<>::BackwardFromTo()
    @     0x7f70d843aad6  caffe::Net<>::BackwardFromTo()
    @     0x7f714cb18c84  caffe::BNLayer<>::Backward_gpu()
    @     0x7f76606b8905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7fd2df236d71  caffe::Net<>::Backward()
    @     0x7f70d843ad71  caffe::Net<>::Backward()
    @     0x7f714cae7905  caffe::CuDNNBNLayer<>::Backward_gpu()
    @     0x7f76604fcad6  caffe::Net<>::BackwardFromTo()
    @     0x7fd2df3c7bdf  caffe::Solver<>::Step()
    @     0x7f70d85cbbdf  caffe::Solver<>::Step()
    @     0x7f714c92bad6  caffe::Net<>::BackwardFromTo()
    @     0x7f76604fcd71  caffe::Net<>::Backward()
    @     0x7fd2df3c8408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f70d85cc408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f714c92bd71  caffe::Net<>::Backward()
    @     0x7f766068dbdf  caffe::Solver<>::Step()
    @     0x7fd2de10cf45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f70d7310f45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f714cabcbdf  caffe::Solver<>::Step()
    @     0x7f766068e408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f714cabd408  caffe::Solver<>::Solve()
    @           0x408e76  train()
    @           0x407386  main
    @     0x7f765f3d2f45  __libc_start_main
    @           0x40793d  (unknown)
    @     0x7f714b801f45  __libc_start_main
    @           0x40793d  (unknown)
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 0 on node s2 exited on signal 6 (Aborted).
--------------------------------------------------------------------------

资源使用情况：
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
phoenix-bai 2019-02-28 17:14
关注
syncedmem.cpp:51 CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);

从报错的代码点来看, 应该是想再分配 size_个内存, 不够用了,所以报错了.
目测是你的batch_size设太大, 每个batch整的体积有点大, 导致的. 你要以把batch设小点, 再试一下.
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

我在使用caffe进行训练的时候在未耗尽显存的情况下显示显存溢出人工智能深度学习
2019-02-27 14:28

回答 1 已采纳 ``` syncedmem.cpp:51 CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_); ``` 从报错的代码点来看
windows caffe在使用convert_imageset的时候没有处理所有图片 caffe windows
2016-12-25 07:07

回答 2 已采纳已经自己解决啦，谢谢大家
在ubuntu上构造深度学习框架caffe，说我python版本过低该怎么升级呢？ caffe python ubuntu
2021-10-10 15:45

回答 1 已采纳升吧，网上一搜一大堆
caffe在windows环境下的模型训练测试
2017-05-15 16:51

（1）caffe在windows环境下的模型训练MNIST数据集和leveldb版的转换数据（2）caffe.exe 和convert_mnist_siamese_data.exe可执行程序；第一个用于caffe模型训练，第二个用于MNIST数据到Leveldb格式转换（3）训练...
window下matlab调用caffe进行编译时提示错误 matlab
2017-06-14 12:07

回答 1 已采纳 http://www.cnblogs.com/njust-ycc/p/5776286.html
Caffe在win764bit安装人工智能
2017-10-29 08:36

回答 1 已采纳 http://blog.csdn.net/xzzppp/article/details/51510785
Caffe -SSD 训练报错，Cannot copy param 0 weights from layer 'conv1_1'; shape mismatch. caffe 目标检测
2018-10-30 03:34

回答 2 已采纳目测conv1_1的维度搞错了，一个是64 3 3 3，一个是64 4 3 3，要看你的代码，把多余的数据维度用切片切掉，或者把模型中conv1_1的维度补齐
my-caffe2-experiments:包含我使用caffe2进行的一些实验
2021-05-01 01:11

my-caffe2实验该存储库是我针对Caffe2框架进行的实验。第一个示例包括针对MNIST数据库的LeNet网络...） -这是一个进行中的工具，它使用受过训练的caffe prototxt文件并生成可用于对caffe2进行训练和推断的caffe2代码。
用ubuntu16.04安装caffe，编译的时候遇到了问题，查了很多资料还是不能解决，朋友们我该怎么做呀？ caffe ubuntu
2021-10-03 15:24

回答 1 已采纳 gedit的时候去掉sudo安装依赖：sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev l
C++与Python训练出来的TensorFlow或者Caffe 模型的文件是一样的吗？ tensorflow 人工智能深度学习神经网络
2020-05-09 10:47

回答 2 已采纳 Caffe如果模型完全一样的话，是可以通用的。tf的话，不同版本模型可能不兼容。
使用caffe的问题,求助 caffe 深度学习
2017-03-25 12:46

回答 2 已采纳已经解决了,是.prototxt文件中设置了保存路径...
人工智能-项目实践-模型研所-shufflenetv2使用pytorch训练2分类模型，转换为caffe，可压缩模型简化网络
2024-01-03 22:08

人工智能-项目实践-模型研所-shufflenetv2使用pytorch训练2分类模型，转换为caffe，可压缩模型简化网络 shufflenetv2使用pytorch训练2分类模型，转换为caffe，可压缩模型简化网络
caffe训练二分类问题：accuracy=0.5 caffe
2017-11-20 02:55

回答 2 已采纳 1、数据量太小，基本上没有进行训练 2、代码中accuracy计算公式有问题可以观看一下loss有没有变化
caffe学习笔记1CIFAR-10在caffe上进行训练与学习-薛开宇1
2022-08-03 19:51

1.1 使用数据库：CIFAR-10 1.2 准备 1.3 模型 1.4 训练和测试 1.5 其他
Caffe-SSD-Object-Detection:在Python中使用OpenCV在Caffe MobileNet上使用Single Shot MultiBox Detector进行目标检测
2021-05-27 22:14

在Python中使用OpenCV在Caffe MobileNet上使用Single Shot MultiBox Detector进行目标检测。 SSD框架单发MultiBox检测器可分为两部分：使用基础网络提取特征使用卷积滤波器进行预测此实现将MobileNet深度学习...
没有解决我的问题, 去提问

悬赏问题

¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题