tensorflow cifar10教程如何实现断点续训？我希望每次能从上次的结果继续训练

cifar10_train.py

FLAGS = tf.app.flags.FLAGS

tf.app.flags.DEFINE_string('train_dir', 'D:/tmp/cifar10_trainn',
"""Directory where to write event logs """
"""and checkpoint.""")
tf.app.flags.DEFINE_integer('max_steps', 100000,
"""Number of batches to run.""")
tf.app.flags.DEFINE_boolean('log_device_placement', False,
"""Whether to log device placement.""")
tf.app.flags.DEFINE_integer('log_frequency', 10,
"""How often to log results to the console.""")

def train():
"""Train CIFAR-10 for a number of steps."""
with tf.Graph().as_default():
global_step = tf.train.get_or_create_global_step()

# Get images and labels for CIFAR-10.
# Force input pipeline to CPU:0 to avoid operations sometimes ending up on
# GPU and resulting in a slow down.
with tf.device('/cpu:0'):
  images, labels = cifar10.distorted_inputs()

# Build a Graph that computes the logits predictions from the
# inference model.
logits = cifar10.inference(images)

# Calculate loss.
loss = cifar10.loss(logits, labels)

# Build a Graph that trains the model with one batch of examples and
# updates the model parameters.
train_op = cifar10.train(loss, global_step)

class _LoggerHook(tf.train.SessionRunHook):
  """Logs loss and runtime."""

  def begin(self):
    self._step = -1
    self._start_time = time.time()

  def before_run(self, run_context):
    self._step += 1
    return tf.train.SessionRunArgs(loss)  # Asks for loss value.

  def after_run(self, run_context, run_values):
    if self._step % FLAGS.log_frequency == 0:
      current_time = time.time()
      duration = current_time - self._start_time
      self._start_time = current_time

      loss_value = run_values.results
      examples_per_sec = FLAGS.log_frequency * FLAGS.batch_size / duration
      sec_per_batch = float(duration / FLAGS.log_frequency)

      format_str = ('%s: step %d, loss = %.2f (%.1f examples/sec; %.3f '
                    'sec/batch)')
      print (format_str % (datetime.now(), self._step, loss_value,
                           examples_per_sec, sec_per_batch))

saver = tf.train.Saver()
with tf.train.MonitoredTrainingSession(
    checkpoint_dir=FLAGS.train_dir,
    hooks=[tf.train.StopAtStepHook(last_step=FLAGS.max_steps),
           tf.train.NanTensorHook(loss),
           _LoggerHook()],
    config=tf.ConfigProto(
        log_device_placement=FLAGS.log_device_placement)) as mon_sess：
    while not mon_sess.should_stop():
        mon_sess.run(train_op)

def main(argv=None): # pylint: disable=unused-argument
cifar10.maybe_download_and_extract()
if tf.gfile.Exists(FLAGS.train_dir):
tf.gfile.DeleteRecursively(FLAGS.train_dir)
tf.gfile.MakeDirs(FLAGS.train_dir)
train()

if name == '__main__':
tf.app.run()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-25 19:24
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章：tensorflow——cifar10 样例解析也许能够解决你的问题，你可以看下

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

tensorflow断点续训报错 keras python tensorflow
2022-06-16 15:29

回答 3 已采纳执行model.load_weights(filepath)后，filepath这个文件会被占用，无法删除或重命名，导致后面的回调函数ModelCheckpoint(filepath)无法自动保存权重
fastdfs文件服务器与 java程序断点续传如何实现以及原理？ spring vue.js
2020-07-08 15:50

回答 1 已采纳前端vue上传到后台是一个文件流，后台直接把这个文件流上传到文件服务器后，返回一个文件地址保存到数据库，文件流会自动关闭，后台就没有了 fastdfs文件服务器不需要鉴权，一般不开放公网端口，只对内
yolov5打断之后继续训练 python 深度学习
2022-04-05 08:54

回答 1 已采纳你还要将--weights 指定到你要继续训练的exp文件的模型
PyTorch实现断点继续训练
2021-01-26 10:59

机器学习与AI生成创作的博客还需要保存lr_scheduler的state_dict，然后断点继续训练的时候恢复 #这里我设置了不同的epoch对应不同的学习率衰减，在10->20->30，学习率依次衰减为原来的0.1，即一个数量级 lr_schedule = torch.optim.lr_...
clion无法实现多进程+断点调试吗？ c++
2023-03-14 21:31

回答 6 已采纳看了半天没有发现有用的回答，可以看我自己写的这篇博客：http://t.csdn.cn/81voy
link 环境下，制作《网盘软件》的下载器，请问如何实现断点续传下载？
2015-06-08 12:31

回答 1 已采纳 http://www.cnblogs.com/finejob/articles/667873.html
link环境下使用codefirst的技术制作一个《网盘软件》，请问如何断点续传？
2015-05-31 05:51

回答 2 已采纳 http://www.cnblogs.com/finejob/articles/667873.html
TensorFlow搭建卷积神经网络：以Cifar10数据集分类为例
2020-06-14 15:49

一只干巴巴的海绵的博客所以在这一步中通常会加入断点续训以及模型参数保存等功能，使训练更加方便，同时防止程序意外停止导致数据丢失的情况发生。第六步：将神经网络模型的具体信息打印出来（model.summary），包括网络结构、网络各层的...
C++ curl 实现断点续传的时候，出现文件损坏问题
2016-09-12 07:20

回答 2 已采纳 http://blog.csdn.net/u013317006/article/details/23432853
python多线程爬虫如何在中断后继续上次的断点下载数据 python sql 数据挖掘
2021-06-03 15:53

回答 3 已采纳 redis记没成功的不就完事了，带同步访问，doge
html5实现视频断点续播，自动播放，和循环播放
2016-09-08 03:15

回答 2 已采纳循环就是 loop 自动 autoplay autoplay autoplay 如果出现该属性，则视频在就绪后马上播放。 controls controls 如果出现该属性，则向用户显示控件，比
如何零基础用tensorflow搭建基本的CNN框架 | 附训练断点续练、图像展示、参数保存模块
2021-05-16 09:36

「已注销」的博客如何零基础用tensorflow搭建基本的CNN框架 | 附训练断点续练、图像展示、参数保存模块嗨，我是error。这次的笔记是关于tensorflow基本框架的搭建，零基础带你熟悉如何应用keras搭建自己的CNN模型，并训练自己的...
java服务器文件断点续传 java 服务器
2015-12-24 09:14

回答 2 已采纳解析HTTP头部的Range字段，得到客户端要的数据范围，然后读取文件的这个位置，发送
卷积神经网络(CNN)的搭建及训练，（tensorflow，keras）
2022-04-08 14:58

牛+马=我的博客卷积神经网络搭建，CNN，训练
简单的卷积神经网络搭建(cifar10案例)
2022-02-07 17:28

Fuly1024的博客 from tensorflow.python.keras.datasets.cifar import load_batch def get_load_cifar10(): # 获取数据直接使用 tf.keras.datasets.cifar10.load_data() 会报错(160M数据,可能是因为网络不好) # cifar10数
没有解决我的问题, 去提问

悬赏问题

¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码

tensorflow cifar10教程如何实现断点续训？我希望每次能从上次的结果继续训练

1条回答 默认 最新

悬赏问题

1条回答默认最新