多机多卡分布式启动问题

多机多卡分布式启动问题
bash脚本无法启动


/home/server/anaconda3/envs/cod/lib/python3.9/site-packages/torch/distributed/launch.py:180: FutureWarning: The module torch.distributed.launch is deprecated
and will be removed in future. Use torchrun.
Note that --use_env is set by default in torchrun.
If your script expects `--local_rank` argument to be set, please
change it to read from `os.environ['LOCAL_RANK']` instead. See 
https://pytorch.org/docs/stable/distributed.html#launch-utility for 
further instructions

  warnings.warn(

卡在这里了
网络没问题，防火请关了，torch.distributed.launch也没问题，其他人也能跑

#!/bin/bash

export TORCH_USE_CUDA_DSA=1
export CUDA_LAUNCH_BLOCKING=1
SCRIPT_PATH="$(cd "$(dirname "$0")"; pwd -P)"
SCRIPT_NAME=$(basename "$0")
export NCCL_DEBUG=INFO
LOG_DATE="$(date +'%Y%m%d')"
LOG_DIR="${SCRIPT_PATH}/logs"
LOG_FILE="${LOG_DIR}/${SCRIPT_NAME}.log-${LOG_DATE}"
sudo sysctl -w net.ipv6.conf.all.disable_ipv6=1
sudo sysctl -w net.ipv6.conf.default.disable_ipv6=1
MASTER_PORT=$(shuf -i 10000-65000 -n 1)
echo $MASTER_PORT > /home/server/project/gtc/ddp_master_port.txt
# 创建日志目录
mkdir -p "${LOG_DIR}"

# ------------------ 解析 GPU 参数 ------------------
GPU_IDS=""
if [[ $# -gt 0 ]]; then
    GPU_IDS="$1"
fi

# 如果没有提供GPU_IDS，则默认使用所有GPU
if [[ -z "$GPU_IDS" ]]; then
    GPU_IDS="0,1,2,3"  # 这里可以根据实际情况修改默认值
fi

export CUDA_VISIBLE_DEVICES=$GPU_IDS
echo "Using GPUs: ${GPU_IDS:-All available}"

run_script() {
    local script_name=$1
    local MASTER_PORT=$2

    echo "-----------------------------------------------"
    echo "Running $script_name with GPUs ${GPU_IDS:-All}..."
    echo "-----------------------------------------------"

    export MASTER_PORT=$MASTER_PORT
    echo "开始训练"
    /home/server/anaconda3/envs/cod/bin/python -m torch.distributed.launch \
        --nproc_per_node=1 \
        --nnodes=2 \
        --node_rank=0 \
        --master_addr="IP" \
        --master_port=$MASTER_PORT \
        "$script_name".py \
        2>&1 | tee -a "$LOG_FILE"

    echo "执行完毕"
    echo "$script_name completed. Logs appended to $LOG_FILE"
}

run_script My_Train_dis 39500
run_script My_Testing_dis 39500
run_script eval_dis 39500

echo "All scripts executed. Check logs at $LOG_FILE"

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-03-24 12:44

关注

让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。

如果答案让您满意，请采纳、关注，非常感谢！

根据错误提示和代码，可以看到使用的`torch.distributed.launch`模块已经被deprecated，建议使用`torchrun`代替，并且使用`os.environ['LOCAL_RANK']`获取local rank参数。此外，代码中还存在一些其他问题，比如没有正确设置IP地址，需要在`--master_addr`参数中填入正确的IP地址。下面是修改后的代码：

#!/bin/bash
export TORCH_USE_CUDA_DSA=1
export CUDA_LAUNCH_BLOCKING=1
SCRIPT_PATH="$(cd "$(dirname "$0")"; pwd -P)"
SCRIPT_NAME=$(basename "$0")
export NCCL_DEBUG=INFO
LOG_DATE="$(date +'%Y%m%d')"
LOG_DIR="${SCRIPT_PATH}/logs"
LOG_FILE="${LOG_DIR}/${SCRIPT_NAME}.log-${LOG_DATE}"
sudo sysctl -w net.ipv6.conf.all.disable_ipv6=1
sudo sysctl -w net.ipv6.conf.default.disable_ipv6=1
MASTER_PORT=$(shuf -i 10000-65000 -n 1)
echo $MASTER_PORT > /home/server/project/gtc/ddp_master_port.txt
# 创建日志目录
mkdir -p "${LOG_DIR}"
# 解析 GPU 参数
GPU_IDS=""
if [[ $# -gt 0 ]];
then
    GPU_IDS="$1"
fi
if [[ -z "${GPU_IDS}" ]];
then
    GPU_IDS="0,1,2,3"  # 这里可以根据实际情况修改默认值
fi
export CUDA_VISIBLE_DEVICES="${GPU_IDS}"
echo "Using GPUs: ${GPU_IDS:-All available}"
run_script() {
    local script_name=$1
    local MASTER_PORT=$2
    echo "-----------------------------------------------"
    echo "Running $script_name with GPUs ${GPU_IDS:-All}..."
    echo "-----------------------------------------------"
    export MASTER_PORT=$MASTER_PORT
    echo "开始训练"
    /home/server/anaconda3/envs/cod/bin/python -m torchrun \
        --nproc_per_node=1 \
        --nnodes=2 \
        --node_rank=0 \
        --master_addr="IP" \
        --master_port=$MASTER_PORT \
        "$script_name.py" \
        2>&1 | tee -a "$LOG_FILE"
    echo "执行完毕"
    echo "$script_name completed. Logs appended to $LOG_FILE"
}
run_script My_Train_dis 39500
run_script My_Testing_dis 39500
run_script eval_dis 39500
echo "All scripts executed. Check logs at $LOG_FILE"

请替换IP为正确的IP地址，并确保torchrun命令可用。希望这可以解决您的问题。

报告相同问题？

关注问题

PyTorch 多机多卡训练：分布式实战与技巧
2021-07-28 19:07

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayxDistributedDataParallel（DDP）是一个支持多机多卡、分布式训练...
verl分布式训练：多机多卡部署详细步骤
2026-01-16 01:24

陳寶平的博客本文介绍了基于星图GPU平台自动化部署verl镜像的完整流程，适用于大语言模型的强化...通过该平台可高效实现多机多卡分布式训练，典型应用于RLHF（人类反馈强化学习）场景中的模型微调，显著提升训练吞吐与资源利用率。
PyTorch 多机多卡训练：DDP 实战与技巧
2020-12-25 11:03

视学算法的博客作者丨996黄金一代@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/250471767编辑丨极市平台零. 概览想要让你的PyTorch神经网络在多卡环境上...
PaddlePaddle镜像支持多语言混合编程，适配复杂GPU项目
2025-12-26 09:35

福建低调的博客 PaddlePaddle官方Docker镜像通过容器化技术实现开发与生产的环境一致性，支持Python与C++混合编程，简化GPU项目部署。其动静统一架构、原生中文支持及全链路工具链，显著提升OCR、NLP等国产化AI应用的落地效率，适用...
PaddlePaddle支持多卡训练吗？详解分布式训练配置方法
2025-12-26 06:23

Vita Libre的博客 PaddlePaddle不仅支持多卡分布式训练，还提供数据并行、模型并行和流水线并行等多种策略，通过简洁API和自动通信机制，显著降低开发门槛。结合启动工具与工业级套件，实现从单机到集群的高效扩展，加速大模型训练与...
Qwen3-32B支持分布式推理吗？多卡部署指南
2025-11-29 13:50

拉米医生的博客本文详细介绍如何通过张量并行与模型并行实现Qwen3-32B的分布式推理，推荐使用vLLM和Hugging Face Accelerate进行高效部署，涵盖显存优化、多卡配置、生产架构设计及常见问题解决方案，助力大模型在企业环境稳定运行...
多卡分布式训练：torchrun --nproc_per_node=5
2025-04-10 19:12

ZhangJiqun&Hoper的博客包，核心目标是简化多进程分布式训练的启动和管理。是 PyTorch 提供的用于启动分布式训练作业的实用工具，它基于。是使用 PyTorch 分布式训练工具。以下是一个简单的数据并行训练示例，使用。来运行 Python 脚本。这...
【深度学习】分布式常见问题汇总（踩坑指南）
2021-06-23 19:59

OneFlow深度学习框架的博客一、框架分布式简介本文仅重点摘录对于OneFlow框架分布式的简介，更多分布式框架简介请移步原文获取，如需阅读请点击原文链接。OneFlow看过其他框架中的分布式代码示例，是不是觉得很复杂...
分布式并行计算——数据并行
2023-02-20 07:36

云中君不见的博客单机多 GPU、多机多 GPU 分布式计算探讨与代码示例
云原生分布式训练技术综述
2024-06-15 15:27

lores__的博客小结大模型背景下的分布式训练，多机多卡通信是绕不过的事情。因此为保证训练稳定性，对于硬件组网情况进行监控就必不可少。参考： ...
PyTorch分布式训练Qwen3-32B多卡并行配置指南
2025-12-15 15:42

TEDDYYW的博客本文介绍如何使用PyTorch的FSDP技术在多GPU环境下高效部署Qwen3-32B大模型，涵盖显存优化、混合精度、梯度检查点和Flash Attention等关键技术，提供从启动到监控的完整实战流程。
PyTorch多GPU训练全指南：单机到多机并行
2025-12-26 14:19

媛源啊的博客深入解析PyTorch中使用单GPU、多GPU及分布式训练的完整流程，涵盖DataParallel与DistributedDataParallel的核心差异，详细说明进程组初始化、数据采样器配置和同步BN处理等关键步骤，助你高效实现模型加速。
多GPU分布式训练实测：Llama-Factory如何提升大模型微调效率
2025-12-13 05:56

昊叔Crescdim的博客本文介绍如何利用Llama-Factory结合FSDP实现多GPU分布式训练，显著降低大模型微调的显存消耗与使用门槛。通过4-bit量化、LoRA和梯度累积等技术，可在双卡RTX 3090上高效微调7B级别模型，并支持WebUI操作，提升工程...
揭秘大语言模型实践：分布式推理的工程化落地才是关键！
2023-06-27 16:06

阿里云云栖号的博客随着越来越多的大语言模型发布，其中也有很多表现优秀的开源大语言模型能让大家体验，人们通过已有的大语言模型构建自己的应用也不再遥不可及。本文将以 Bloom7B1 模型为样例，分享在阿里云容器服务 ACK 上，进行大...
「新生手册」：PyTorch分布式训练
2021-04-06 00:24

视学算法的博客多机多卡DDP D. Launch / Slurm 调度方式 0X04 完整框架 Distribuuuu 0X05 Reference 文中所有教学代码和日志见：Tutorialgithub.com 文中提到的框架见：Distribuuuugithub.com 希望本文对你有帮助 0X01 分布式并行...
解决GAN模型的多智能体分布式训练难题 OpenAI 的 Scalable MultiAgent Training of Generative
2023-08-07 01:00

光子AI的博客 2017年底，Google开源了一个名叫Generative Adversarial Network（GAN）的模型。GAN可以生成类似真实数据样本的数据。最近几年，GAN又被应用到...当模型具有多个生成器或多个判别器时，通常需要用到分布式训练策略。
PyTorch-CUDA-v2.9镜像中分布式训练启动命令详解
2025-12-30 06:22

mater lai的博客深入剖析PyTorch-CUDA-v2.9镜像中torchrun命令的工作机制，揭示...从环境变量设置到NCCL通信，从DDP初始化顺序到数据加载采样，系统梳理多GPU训练的关键细节与常见陷阱，帮助开发者真正掌握高效稳定的分布式训练方法。
大规模模型训练：TensorFlow多卡并行实战案例
2025-12-27 17:34

福建低调的博客通过tf.distribute.Strategy实现单机多GPU高效并行训练，结合混合精度与梯度累积优化性能，详解数据流水线、通信瓶颈和容错设计等工程关键点，帮助从实验到生产无缝落地大规模模型训练任务。
分布式深度学习最佳入门（踩坑）指南
2022-08-04 10:05

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达仅作学术分享，不代表本公众号立场，...分布式常见问题汇总（踩坑指南）在各框架分布式简介中，将先从入门的角度介绍各个框架的分布式接口或...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月24日

多机多卡分布式启动问题

3条回答 默认 最新

问题事件

3条回答默认最新