多机多卡，分布式学习

torch.distributed.DistNetworkError: Connection reset by peer


# 获取脚本路径和日志路径
SCRIPT_PATH="$(cd "$(dirname "$0")"; pwd -P)"
LOG_DIR="${SCRIPT_PATH}/logs"
mkdir -p "$LOG_DIR"
LOG_FILE="${LOG_DIR}/train.log-$(date +'%Y%m%d')"
sudo sysctl -w net.ipv6.conf.all.disable_ipv6=1
sudo sysctl -w net.ipv6.conf.default.disable_ipv6=1

# 固定 Master 地址和端口
MASTER_ADDR="（隐私，不方便透露）"
MASTER_PORT="39500"

# 解析 GPU_ID
GPU_IDS=$1
export CUDA_VISIBLE_DEVICES="$GPU_IDS"

# 记录启动信息
echo "-----------------------------------------------" | tee -a "$LOG_FILE"
echo "Starting distributed training" | tee -a "$LOG_FILE"
echo "Master Address: $MASTER_ADDR" | tee -a "$LOG_FILE"
echo "Master Port: $MASTER_PORT" | tee -a "$LOG_FILE"
echo "CUDA_VISIBLE_DEVICES: $CUDA_VISIBLE_DEVICES" | tee -a "$LOG_FILE"
echo "-----------------------------------------------" | tee -a "$LOG_FILE"

# 运行 Python 训练脚本
run_script() {
    local script_name=$1
    echo "Running $script_name..." | tee -a "$LOG_FILE"
    torchrun --nproc_per_node=1 --nnodes=2 \
             --node_rank=0 --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT \
             "$script_name.py" --gpu_id "$GPU_IDS" 2>&1 | tee -a "$LOG_FILE"
    if [ $? -ne 0 ]; then
        echo "Error in $script_name. Check logs." | tee -a "$LOG_FILE"
        exit 1
    fi
}

run_script MyTrain_Val_ddp
run_script MyTesting_ddp
run_script eval_ddp

echo "All scripts executed successfully." | tee -a "$LOG_FILE"

关闭防火墙，检查了网络连接，还是出现这个报错。
这是一个多机多卡的分布式学习任务，一直因为这个无法启动

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-03-17 09:16
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

多机多卡，分布式学习遇到的问题

你遇到了 torch.distributed.DistNetworkError: Connection reset by peer 错误，这个错误通常是由于分布式训练中网络连接被中断导致的。

在分布式训练中，需要确保每个机器之间的网络连接稳定，可以尝试以下解决方案：

检查网络连接：确保每个机器之间的网络连接稳定，可以使用 ping 命令来检查网络连接是否正常。
调整网络参数：可以尝试调整网络参数，例如增加 buffer size 或者减少 packet size，以提高网络传输效率。
检查脚本路径和日志路径：在你的脚本中，检查 SCRIPT_PATH 和 LOG_PATH 是否正确，如果不正确可能会导致错误。
检查分布式训练配置：检查分布式训练的配置文件，确保每个机器的配置文件正确。
尝试降低 batch size：如果 batch size 太大可能会导致网络连接被中断，可以尝试降低 batch size。

如果以上解决方案都不能解决问题，可以提供更多的错误信息和代码，以便更好地 debug。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

单机多卡分布式训练策略——MirroredStrategy
2024-06-11 10:05

大模型入门教程的博客使用分布式计算的All-reduce操作，在所有 GPU 间高效交换梯度数据并进行求和，使得最终每个设备都有了所有设备的梯度之和；使用梯度求和的结果更新各个 GPU 中的模型权重；因为该策略是同步的，所以只有当所有设备均...
PyTorch 多机多卡训练：分布式实战与技巧
2021-07-28 19:07

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayxDistributedDataParallel（DDP）是一个支持多机多卡、分布式训练...
聊一聊深度学习分布式训练
2022-06-01 14:05

kaiyuan_sjtu的博客作者|杨阳整理|NewBeeNLPhttps:...所以就需要进行分布式深度学习。在此总结下个人近期的研究成果，欢迎大佬指正。主要从以下几个方面进行总结：分布式训练的基本原理TensorFlow的分布式训练PyTorch的分布式训练框架H...
verl分布式训练：多机多卡部署详细步骤
2026-01-16 01:24

陳寶平的博客本文介绍了基于星图GPU平台自动化部署verl镜像的完整流程，适用于大语言模型的强化...通过该平台可高效实现多机多卡分布式训练，典型应用于RLHF（人类反馈强化学习）场景中的模型微调，显著提升训练吞吐与资源利用率。
PyTorch 多机多卡训练：DDP 实战与技巧
2020-12-25 11:03

视学算法的博客作者丨996黄金一代@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/250471767编辑丨极市平台零. 概览想要让你的PyTorch神经网络在多卡环境上...
从分布式训练到大模型训练
2024-06-05 18:10

脱泥不tony的博客随着数据量的增加，希望加快模型的训练速度，于是出现了单机多卡，多块AI芯片并行，以一台机器上配置8块AI芯片为例，把数据切分成8份，分别在8块AI芯片上都跑一次BP算法，计算出梯度，然后所有AI芯片上计算出的梯度...
分布式深度学习最佳入门（踩坑）指南
2022-08-04 10:05

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达仅作学术分享，不代表本公众号立场，...分布式常见问题汇总（踩坑指南）在各框架分布式简介中，将先从入门的角度介绍各个框架的分布式接口或...
PaddlePaddle镜像支持多语言混合编程，适配复杂GPU项目
2025-12-26 09:35

福建低调的博客 PaddlePaddle官方Docker镜像通过容器化技术实现开发与生产的环境一致性，支持Python与C++混合编程，简化GPU项目部署。其动静统一架构、原生中文支持及全链路工具链，显著提升OCR、NLP等国产化AI应用的落地效率，适用...
多卡分布式训练：torchrun --nproc_per_node=5
2025-04-10 19:12

ZhangJiqun&Hoper的博客包，核心目标是简化多进程分布式训练的启动和管理。是 PyTorch 提供的用于启动分布式训练作业的实用工具，它基于。是使用 PyTorch 分布式训练工具。以下是一个简单的数据并行训练示例，使用。来运行 Python 脚本。这...
分布式并行计算——数据并行
2023-02-20 07:36

云中君不见的博客单机多 GPU、多机多 GPU 分布式计算探讨与代码示例
在Kubernetes上部署分布式深度学习训练平台
2023-07-19 00:33

光子AI的博客深度学习技术的出现赋予了计算机视觉、自然语言处理等领域巨大的突破性进展。这使得深度学习技术得到广泛应用，如自动驾驶汽车、图像识别、语音识别、视频分析、垃圾邮件过滤、生物信息分析、股市预测等。
【深度学习】聊一聊深度学习分布式训练
2022-06-06 12:00

风度78的博客作者|杨阳整理|NewBeeNLPhttps:...所以就需要进行分布式深度学习。在此总结下个人近期的研究成果，欢迎大佬指正。主要从以下几个方面进行总结：分布式训练的基本原理TensorFlow的分布式训练PyTorch的分布式训练框架H...
PaddlePaddle支持多卡训练吗？详解分布式训练配置方法
2025-12-26 06:23

Vita Libre的博客 PaddlePaddle不仅支持多卡分布式训练，还提供数据并行、模型并行和流水线并行等多种策略，通过简洁API和自动通信机制，显著降低开发门槛。结合启动工具与工业级套件，实现从单机到集群的高效扩展，加速大模型训练与...
【深度学习】分布式训练常用技术总结
2021-06-23 19:57

OneFlow深度学习框架的博客概述分布式、高并发、多线程，似乎是程序员永远逃离不了的3个关键词，只要脱离了单机/单节点，涉及到2个以上的设备，就会碰到分布式。深度学习领域也一样，当你拥有海量数据/巨大模型的训练需求时...
【深度学习】分布式常见问题汇总（踩坑指南）
2021-06-23 19:59

OneFlow深度学习框架的博客一、框架分布式简介本文仅重点摘录对于OneFlow框架分布式的简介，更多分布式框架简介请移步原文获取，如需阅读请点击原文链接。OneFlow看过其他框架中的分布式代码示例，是不是觉得很复杂...
Qwen3-32B支持分布式推理吗？多卡部署指南
2025-11-29 13:50

拉米医生的博客本文详细介绍如何通过张量并行与模型并行实现Qwen3-32B的分布式推理，推荐使用vLLM和Hugging Face Accelerate进行高效部署，涵盖显存优化、多卡配置、生产架构设计及常见问题解决方案，助力大模型在企业环境稳定运行...
华为MindIE LLM开发指南-大型语言模型优化及其应用详解
2025-03-20 11:48

适用人群：本文适用于具备一定编程经验和硬件背景的研究员、工程师，特别是关注高性能计算平台以及对大规模分布式训练感兴趣的深度学习从业者。使用场景及目标：本手册主要用于指导企业内部开发者快速入门并深入...
云原生分布式训练技术综述
2024-06-15 15:27

lores__的博客小结大模型背景下的分布式训练，多机多卡通信是绕不过的事情。因此为保证训练稳定性，对于硬件组网情况进行监控就必不可少。参考： ...
一种分布式深度学习编程新范式：Global Tensor
2022-07-28 16:30

JAVAQXQ的博客在编程语言中，Global的含义通常是进程内的全局可见，比如全局变量（GlobalVariable）。但GlobalTensor中“Global”的含义是进程间全局可见，所以GlobalTensor更为准确的的说法是Global(onallprocesses)Tensor，即...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月17日

多机多卡，分布式学习

4条回答 默认 最新

多机多卡，分布式学习遇到的问题

问题事件

4条回答默认最新