tensorflow.python.framework.errors_impl.InternalError: Job "" was not defined in cluster

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

import tensorflow as tf


tf.compat.v1.disable_eager_execution()
FLASS = tf.compat.v1.app.flags.FLAGS
tf.compat.v1.app.flags.DEFINE_string("job_name", "", "启动服务的类型ps or worker")
tf.compat.v1.app.flags.DEFINE_integer("task_index", 0, "指定ps或者worker当中的那一台服务器以task:0 ,task:1")



def main(argv):
    # 定义全局计数的op，给钩子列表当中的训练步数使用
    global_step = tf.compat.v1.train.get_global_step()

    # 指定集群描述对象， ps ， worker
    cluster = tf.compat.v1.train.ClusterSpec({"ps": ["192.168.254.128:2223"], "worker": ["10.213.26.88:2222"]})
    server = tf.compat.v1.train.Server(cluster, job_name=FLASS.job_name, task_index=FLASS.task_index)
    # 根据不同服务做不同的事情， ps：去更新保存参数 worker:指定设备去运行模型计算
    if FLASS.job_name == "ps":
        # 参数服务器什么都不用干， 是需要等待worker传递参数
        server.join()
    else:
        worker_device = "/job:worker/task:0/cpu:0/"
        # 可以指定设备去运行
        with tf.compat.v1.device(
            tf.compat.v1.train.replica_device_setter(
                worker_device = worker_device,
                cluster=cluster
            )):
            # 简单做一个矩阵乘法运算
            x = tf.compat.v1.Variable([[1, 2, 3, 4]])
            w = tf.compat.v1.Variable([2], [2], [2], [2])
            mat = tf.compat.v1.matmul(x, w)
            # 创建分布式会话
            with tf.compat.v1.train.MonitoredTrainingSession(
                master="grpc://10.213.26.88:2222", # 指定主worker
                is_chief=(FLASS.task_index == 0), # 判断是否是住worker
                config=tf.compat.v1.ConfigProto(log_device_placement=True), # 打印设备信息
                hooks=[tf.compat.v1.train.StopAtStepHook(last_step=200)]
            ) as mon_sess:
                while not mon_sess.should_stop():
                    print(mon_sess.run(mat))





if __name__ == "__main__":
    tf.compat.v1.app.run()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

tensorflow.python.framework.errors_impl.InternalError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory git python tensorflow 机器学习深度学习
2020-09-10 13:59

回答 2 已采纳感觉是显存爆了，把你的batch size搞小一些训练，再不行，简化下模型。
为什么在pycharm里成功下载TensorFlow模块，却在import时报错
2021-01-12 22:45

回答 2 已采纳这是DLL load failed，就是DLL加载失败。分析原因可能是安装TF的时候没有安装完全。建议可以使用conda方法来组织Python环境。具体步骤可以仿照我的手把手博客内容：《『带你学A
tensorflow 训练完后如何测试？尝试读取文件，报错了。 python tensorflow 深度学习
2022-08-01 00:41

回答 1 已采纳 Set up your data format vector and pass it into the Model for inference
tensorflow.python.framework.errors_impl.UnknownError: Failed to get convolution algorithm.
2024-03-25 16:08

luyanpingya的博客这个错误信息来自于TensorFlow，在尝试使用CUDA和cuDNN库执行卷积神经网络（CNN）操作时遇到问题。具体错误是，这通常意味着在尝试初始化cuDNN或者在执行一个cuDNN相关的函数（在这个例子中可能是做卷积运算）时遇到...
用tensorflow做训练os.environ['CUDA_VISIBLE_DEVICES'] = '/gpu:0' 无法调用gpu执行 tensorflow 人工智能深度学习
2021-09-05 22:51

回答 1 已采纳 os.environ['CUDA_VISIBLE_DEVICES'] = '0' 你就一张显卡，那肯定是写个0就可以了啊，也就是默认编号为0的显卡，你指定1，2，3的话你本身又没有多显卡，那只能
tensorflow出现这种错误是怎么回事？ python tensorflow 有问必答计算机视觉
2021-05-24 15:43

回答 2 已采纳因为显存不够，降低batchsize即可。参考(1条消息) tensorflow训练3dcnn报错：NotFoundError: No algorithm worked!_今天又是不求上进的一天的
vue适配出现Invalid options in vue.config.js: "css.modules" is not allowed vue.js
2022-04-25 16:39

回答 2 已采纳
tensorflow.python.framework.errors_impl.InternalError: Blas GEMM launch failed
2020-03-12 17:51

Jason本渣的博客 tensorflow.python.framework.errors_impl.InternalError: Blas GEMM launch failed : a.shape=(200, 1), b.shape=(1, 10), m=200, n=10, k=1 [[node MatMul (defined at C:\ProgramData\Anaconda3\lib\site-pa...
使用tensorflow时在 '__init__.py' 中找不到引用 python tensorflow 机器学习
2021-05-03 17:32

回答 1 已采纳我把你的代码拿到本地跑了，首先你的代码的API是TF1.x版本的，我本地用的是tf1.15，所以第一步是把TF切换到1.15(我测试通过了，看你用Anaconda，那么安装就很简单了conda ins
虚拟环境配置有问题，Collecting package metadata (current_repodata.json): failed python 深度学习计算机视觉
2023-04-11 22:41

回答 1 已采纳以下内容部分参考ChatGPT模型：这个问题可能是由于网络连接不稳定或者镜像源配置不正确导致的。你可以尝试更换镜像源或者使用国内的镜像源来解决问题。更换镜像源可以尝试更换镜像源，例如使用清华大
facenet中的train_tripletloss.py报错 python 人工智能
2022-06-07 10:28

回答 1 已采纳 embeddings为4096，后面的为3Xargs.embedding_size=384？4096无法整除以384，所以是无法reshape的，所以你应该是改了什么参数了，改回去看看
tensorflow.python.framework.errors_impl.UnknownError: 2 root error(s) found.
2020-07-13 21:46

不可以不读书的博客 tensorflow.python.framework.errors_impl.UnknownError: 2 root error(s) found. (0) Unknown: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to ...
eclipse 创建maven项目提示An internal error occurred during: "Creating maven-archetype-quickstart". Guice provision errors: eclipse maven spring
2020-04-24 11:47

回答 1 已采纳 https://blog.csdn.net/as763190097/article/details/50339703?utm_source=blogxgwz6
错误： tensorflow.python.framework.errors_impl.OutOfRangeError的解决方案
2023-03-02 20:12

|旧市拾荒|的博客近日，在使用CascadeRCNN完成目标检测任务时，我在使用这个模型训练自己的数据集时出现了如下错误： tensorflow.python.framework.errors_impl.OutOfRangeError: PaddingFIFOQueue '_1_get_batch/batch/padding_fifo...
【无标题】tensorflow.python.framework.errors_impl.InvalidArgumentError: Graph execution error:Detected
2023-10-19 10:30

m0_71314919的博客 E:\机器学习\1.py:67: UserWarning: `Model.fit_generator` is deprecated and will be removed in a future version. Please use `Model.fit`, which supports generators.File "E:\机器学习\1.py", line 67, in ...
tensorflow.python.framework.errors_impl.NotFoundError:Key **** not found in checkpoint
2019-03-12 18:11

qq_42006303的博客参考：https://sthsf.github.io/wiki/Algorithm/DeepLearning/使用Tensorflow爬过的坑/tensorflow.python.framework.errors_impl.NotFoundError.html 写在前面一般地，我们在使用tensorflow进行深度学习模型训练...
tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[0] = 82620 is not in [0, 81648
2021-12-01 23:26

小小菜叶的博客 File "/home/robot/.virtualenvs/tensor/lib/python3.6/site-packages/tensorflow_core/python/client/session.py", line 1365, in _do_call return fn(*args) File "/home/robot/.virtualenvs/tensor/lib/...
【tensorflow报错记录】InternalError: Attempting to perform BLAS operation using StreamExecutor without BL
2022-01-21 21:11

傅里叶也头大的博客 InternalError: Attempting to perform BLAS operation using StreamExecutor without BLAS support [[node sequential/dense/MatMul (defined at Users\Administrator\AppData\Local\Temp\ipykernel_1920\...
错误：errors_impl.InvalidArgumentError: ValueError: attempt to get argmax of an empty sequence的解决方案
2023-03-03 20:55

|旧市拾荒|的博客 def, op, message) tensorflow.python.framework.errors_impl.InvalidArgumentError: ValueError: attempt to get argmax of an empty sequence Traceback (most recent call last): File "/usr/local/lib/python3.6...
tensorflow2.10报错:InternalError: Graph execution error:/Failed initializing math mode node node seque
2023-11-19 20:39

Exppaii的博客【代码】tensorflow2.10报错:InternalError: Graph execution error:/Failed initializing math mode node node seque。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月14日

悬赏问题

¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错

tensorflow.python.framework.errors_impl.InternalError: Job "" was not defined in cluster

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新