Fisher的似然 2023-06-08 10:02 采纳率: 0%
浏览 15

The same RecvTensor (GrpcWorker) request was received twice

tensorflow1.15.5+python3.8/3.7训练深度强化学习算法时报错
该算法采用多进程分布式训练架构,包含1个ps,两个worker,在其中一个worker训练网络时每当遇到第2次
sess.run()会话运行时就报错,报错信息为


tensorflow.python.framework.errors_impl.AbortedError: From /job:train/replica:0/task:0:
The same RecvTensor (GrpcWorker) request was received twice. step_id: 105411384561817065 rendezvous_key: "/job:ps/replica:0/task:0/device:GPU:0;9d0efc4e4612caec;/job:train/replica:0/task:0/device:GPU:0;edge_206_pred_0/d1/bias/read;0:0" request_id: 7357696461822534118
Additional GRPC error information:
{"created":"@1686189090.458307545","description":"Error received from peer","file":"external/grpc/src/core/lib/surface/call.cc","file_line":1039,"grpc_message":"The same RecvTensor (GrpcWorker) request was received twice. step_id: 105411384561817065 rendezvous_key: "/job:ps/replica:0/task:0/device:GPU:0;9d0efc4e4612caec;/job:train/replica:0/task:0/device:GPU:0;edge_206_pred_0/d1/bias/read;0:0" request_id: 7357696461822534118","grpc_status":10}
     [[{{node pred_0/d1/bias/read}}]]

算法详细架构见https://github.com/mrahtz/learning-from-human-preferences

  • 写回答

2条回答 默认 最新

  • Mebius· 2023-06-13 03:10
    关注

    这个错误通常表示在多进程分布式训练架构中,两个工作节点(worker)之间的通信出现了问题。具体来说,错误信息中指出了相同的RecvTensor请求被接收了两次,这导致了AbortedError错误。

    这种错误可能有几种可能的原因:

    1. 网络通信问题:可能是由于网络问题或通信中断导致的。你可以检查网络连接是否正常,确保所有的节点可以正常通信。

    2. TensorFlow版本不兼容:TensorFlow 1.15.5和Python 3.8/3.7的组合可能存在兼容性问题。你可以尝试降低TensorFlow的版本,或者升级Python版本以查看是否可以解决问题。建议使用TensorFlow官方推荐的版本与Python版本进行配合使用。

    3. 训练代码中的错误:错误可能源于你的训练代码中。你可以仔细检查训练代码,确保正确处理了多进程分布式训练的设置和通信。

    以下是一些可能的解决方案:

    • 确保网络连接正常,并尝试重启相关的节点和服务。

    • 更新或降低TensorFlow版本,以及升级或降级Python版本,以获得更好的兼容性。

    • 仔细检查训练代码,确保正确设置了多进程分布式训练,并处理了相关的通信。

    • 尝试在单个工作节点上运行代码,以排除分布式训练造成的问题。

    评论

报告相同问题?

问题事件

  • 创建了问题 6月8日

悬赏问题

  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制
  • ¥20 usb设备兼容性问题
  • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
  • ¥15 安装svn网络有问题怎么办
  • ¥15 vue2登录调用后端接口如何实现