关于tensorflow运行时Optimization loop failed: Cancelled: Operation was cancelled的warning疑问

用的是tensorflow2.6.0

同一套代码，在A机子不出现，但B机子出现。

在注释掉代码tf.config.run_functions_eagerly(True)后便会开始偶尔性的发出如上warning。
时而不发生

时而发生

加回代码tf.config.run_functions_eagerly(True)后便不再有问题

然而
同样的代码，在另一台机子上便不再发生

现在不知道这是咋回事，也不知道该怎么办才能消除这个问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-12 17:29
关注
引自免费微信小程序：皆我百晓生

这个警告Optimization Loop failed: Cancelled: Operation was cancelled通常与TensorFlow的数据集读取有关，特别是在多线程数据加载的情况下。这可能是由于数据集读取过程中某些操作被取消，导致了这个错误提示。在某些情况下，当尝试在训练过程中并行处理数据时，可能会因为资源限制、网络延迟或者其他原因导致任务被取消。

从你提供的信息来看，你已经发现将tf.config.run_functions_eagerly(True)注释掉可以暂时解决这个问题，这表明可能是在开启 eager execution（即动态图执行）时，数据加载的优化策略产生了冲突。

要解决这个问题，你可以尝试以下几个步骤：

检查数据集：确保你的数据集是有效的，并且没有空值或者格式错误。错误的数据可能导致数据读取过程中的异常。

调整数据加载参数：在创建数据集时，看看是否可以调整数据加载的参数，例如减少tf.data.Dataset.map()函数的并发数。你可以在创建数据集时设置num_parallel_calls参数，将其设为较小的值，比如1，看是否能改善问题。

train_dataset = train_dataset.map(preprocess_data, num_parallel_calls=1)

使用不同的数据加载方法：试试看使用其他数据加载方式，比如使用numpy数组而不是Dataset对象，或者使用tf.data.Dataset.from_tensor_slices()方法。

更新TensorFlow版本：尽管你提到在另一个机器上没有问题，但是有时候不同版本的TensorFlow对数据加载的处理方式有所不同，所以尝试升级到最新版的TensorFlow也可能解决问题。

排查GPU资源：如果你在使用GPU进行训练，确认GPU资源没有被过度分配。过多的任务竞争GPU资源可能会导致任务被取消。可以监控GPU的使用情况，确保没有过载。

异步加载：如果问题依然存在，尝试使用异步数据加载技术，例如tf.data.Dataset.interleave()，它允许更细粒度的控制数据加载。

日志和调试：增加更多的日志输出，以便更好地定位问题发生的上下文。这可以帮助你了解是否在特定的模型操作或者数据预处理阶段出现问题。

如果你的问题仍然存在，那么可能需要更详细的代码示例以及环境配置信息，才能提供更具针对性的建议。不过上述步骤应该能帮你排除一些常见问题。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

运行tensorflow，通道无法调用 pycharm tensorflow 深度学习
2022-09-16 20:34

回答 1 已采纳这个应该是在CPU上面运行的。
关于#TensorFlow-GPU#的问题，运行结果中的提示信息如何解读？ python tensorflow 机器学习
2022-02-25 14:58

回答 1 已采纳一般只要不是E或者error报错，可以都不管，是tf输出的一些日志信息
有关matlab运行出现Optimization terminated问题 matlab
2022-12-09 16:00

回答 1 已采纳把第26行的分号去掉
fdoerror
2017-01-11 16:25

acngiser的博客 Constant Value Description FDO_E_LOADING_RESOURCE ...Failed to load a resource (string, icon, bitmap, etc). FDO_E_INDEX_OUT_OF_RANGE -2147220990 The index pass
Windows跑yolo时出现一堆错误萌新求解答 tensorflow
2021-06-05 10:16

回答 1 已采纳这个报错只能猜测cuda没有安装好或者安装好了cuda，但是你的tf里面设置cuda没有设置好，你可以看看这个，把这个语句加进去看下能不能解决。 https://blog.csdn.net/zhan
Go语言：重复的字符串常量编译
2015-07-17 16:08

回答 1 已采纳 The language spec says nothing regarding the internal storage of string constants or literals. Bas
matlab 使用optimization toolbox时，无法打开显示removed matlab 有问必答
2022-02-01 14:07

回答 3 已采纳从2021a版本后，Optimization 应用已经被移除了，提示你用Optimize Live Editor 代替。所以你有两个选择：（1）卸载当前MATLAB版本，使用2021a之前的版本（2）
Oracle 19c 参数列表及概要介绍
2020-04-13 18:47

SQLplusDB的博客 dscn_in_rac Enable Dependent Commit SCN tracking FALSE _ac_strict_SCN_check enforce strict SCN check for AC replay across DG failover FALSE _accept_versions List of parameters for rolling operation _...
MemoryError: failed to alloc mrg_uniform output——内存相关的报错？人工智能数据挖掘机器学习深度学习神经网络
2019-03-29 09:06

回答 1 已采纳没有人知道这个问题的答案吗
请问用tensorflow-gpu加速的时候在训练的时候库好像还没加载完就开始训练了请问怎么办？？这样导致loss好大 tensorflow 深度学习神经网络
2022-10-28 18:20

回答 1 已采纳你理解错了，训练的时候其实库已经加载完了。只是输出信息在缓冲区并没有及时输出到屏幕，你可以设置以下tflog信息的输出级别，I级别的调试信息不用输出。模型一开始loss大是正常的，后面训练会慢慢降低的
Golang：为什么runtime.GOMAXPROCS限制为256？
2016-12-03 00:46

回答 2 已采纳 Note that, starting the next Go 1.10 (Q1 2018), GOMAXPROCS will be limited by ... nothing. The
IDAPython类库---idc.py的源码
2017-03-20 18:38

「已注销」的博客 #!/usr/bin/env python #--------------------------------------------------------------------- # IDAPython - Python plugin for Interactive Disassembler # #...
服务静态文件Go似乎效率低下..或者也许只是我自己:-)
2017-03-31 03:37

回答 2 已采纳 All those PathPrefix and StripPrefix calls seem to me to be functionally pointless. If your static
vue.js1026版本
2018-10-29 17:36

Caishunqi的博客 /*! *转载自... * Vue.js v1.0.26 * (c) 2016 Evan You * Released under the MIT License. */ (function (global, factory) { typeof exports === 'object' &&... typeof m...
ORACLE ERROR大全
2019-11-11 17:22

马克力的博客 -83 ORA00083: warning: possibly corrupt SGA mapped -84 ORA00084: global area must be PGA, SGA, or UGA -85 ORA00085: current call does not exist -86 ORA00086: user call does not exist -87 ORA00087:...
sysvinit源码分析 Linux-init-process-analyse
2019-11-05 12:01

weixin_41740366的博客 Linux-init-process-analyse init 进程探悉前言… 2 INIT配置文件分析 … 4 INIT的官方资料 … 9 INIT命令的手册… 9 配置文件/ETC/INITTAB的手册 … 15...init 1 的运行… 27 主流程分析… 27 辅助函数介绍… 54 i...
Vue vue生命周期
2019-01-07 22:14

mqingo的博客 + 什么是生命周期：从Vue实例创建、运行、到销毁期间，总是伴随着各种各样的事件，这些事件，统称为生命周期！ + [生命周期钩子]( https://cn.vuejs.org/v2/api/ #选项-生命周期钩子)：就是生命周期事件的别名而已...
k8s怎么创建一个pod（源码分析）
2019-10-10 11:15

KingDragon_Baron的博客 kubelet 调用下层容器运行时的执行过程，并不会直接调用Docker 的 API，而是通过一组叫作 CRI（Container Runtime Interface，容器运行时接口）的 gRPC 接口来间接执行的。Kubernetes 项目之所以要在 kubelet 中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月12日

悬赏问题

¥15 做一个简单项目，用Python分析共享单车的数据
¥20 在使用CESM2.2.0模型进行case.submit过程中出现如下错误(关键词-Map)
¥15 有办法改变通过wifi进入的网站的设置吗
¥15 所以到底怎么算！算到凌晨五点都算不出来！
¥15 label_studio
¥15 请教如何phython发邮件
¥15 linux系统安装问题
¥15 路径规划如何采用矢量法让他们尽量在一个方向
¥15 crypto 一道rsa解密题
¥15 survIDINRI已将生存时间转为数值变量，仍错误 Time variable is not numeric。

关于tensorflow运行时Optimization loop failed: Cancelled: Operation was cancelled的warning疑问

关于tensorflow运行时Optimization loop failed: Cancelled: Operation was cancelled的warning疑问

用的是tensorflow2.6.0

同一套代码，在A机子不出现，但B机子出现。

现在不知道这是咋回事，也不知道该怎么办才能消除这个问题

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新