DeepSpeed如何优化大模型训练中的显存使用？

在使用DeepSpeed优化大模型训练时，如何有效减少显存占用是一个常见问题。随着模型参数量的增加，显存消耗迅速增长，可能导致训练无法进行。DeepSpeed通过多种技术手段解决这一问题：首先，ZeRO（Zero-Redundancy Optimizer）技术通过分区优化器状态、梯度和参数，显著降低显存需求；其次，激活检查点（Activation Checkpointing）方法仅在需要时重新计算激活值，避免存储所有中间结果；最后，混合精度训练（Mixed Precision Training）利用FP16和FP32相结合的方式，在保证精度的同时进一步减少显存使用。这些技术如何协同工作以最大化显存优化效果，并确保模型性能不受影响？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

大乘虚怀苦 2025-10-21 20:21

关注

1. 深度学习显存优化的背景与挑战

随着模型参数量的指数级增长，显存占用成为大模型训练的核心瓶颈之一。以Transformer架构为例，其参数规模从数亿到数千亿不等，直接导致显存需求成倍增加。这种情况下，传统的单机单卡训练方式已无法满足需求。

为解决这一问题，DeepSpeed引入了多种技术手段，包括ZeRO、激活检查点和混合精度训练。这些技术通过不同的策略减少显存使用，但它们如何协同工作以实现最优效果，是需要深入探讨的问题。

ZeRO：分区优化器状态、梯度和参数。
激活检查点：仅在需要时重新计算激活值。
混合精度训练：结合FP16和FP32以降低显存消耗。

2. ZeRO技术详解及其对显存的影响

ZeRO（Zero-Redundancy Optimizer）是DeepSpeed的核心技术之一，通过将优化器状态、梯度和参数分布在多个GPU上，显著减少了单个GPU的显存占用。

具体来说，ZeRO分为三个阶段：

ZeRO-1：优化器状态分区。
ZeRO-2：梯度和优化器状态分区。
ZeRO-3：参数、梯度和优化器状态全面分区。

例如，在ZeRO-3模式下，每个GPU只需存储模型的一部分参数，而不是完整的模型权重。这使得模型可以扩展到TB级别的参数规模，同时保持较低的显存占用。

3. 激活检查点的工作原理

激活检查点是一种内存优化技术，它通过避免存储所有中间激活值来减少显存使用。在前向传播过程中，某些层的激活值会被丢弃；而在反向传播时，这些激活值会根据需要重新计算。

这种方法虽然增加了计算开销，但大幅减少了显存占用。以下是激活检查点的基本流程：


def forward_with_checkpoint(module, input):
    def custom_forward(*inputs):
        return module(*inputs)
    return checkpoint(custom_forward, *input)

通过合理选择需要进行检查点的层，可以在性能和显存之间取得平衡。

4. 混合精度训练的实现与优势

混合精度训练结合了FP16和FP32两种数据类型，在保证模型精度的同时减少显存使用和加速训练过程。FP16用于存储模型权重和激活值，而FP32则用于维护主副本和梯度累积。

以下是一个简单的混合精度训练代码示例：


from deepspeed import DeepSpeedConfig
config = DeepSpeedConfig("ds_config.json")
model_engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    config=config,
    model_parameters=model.parameters()
)

配置文件中可以通过设置`fp16.enabled`为True启用混合精度训练。

5. 技术协同工作的机制分析

ZeRO、激活检查点和混合精度训练并非独立工作，而是相互配合以最大化显存优化效果。以下是它们协同工作的机制：

技术	主要作用	与其他技术的协同
ZeRO	分区优化器状态、梯度和参数。	与混合精度训练结合，进一步减少每个GPU的显存需求。
激活检查点	避免存储所有中间激活值。	与ZeRO结合，减少因激活值存储带来的显存压力。
混合精度训练	结合FP16和FP32降低显存占用。	与ZeRO和激活检查点共同作用，确保模型性能不受影响。

为了更直观地展示这些技术的协同工作流程，以下是一个简单的流程图：

graph TD; A[开始训练] --> B{是否启用ZeRO}; B --是--> C[分区优化器状态]; C --> D[分区梯度和参数]; B --否--> E[标准训练]; D --> F{是否启用激活检查点}; F --是--> G[丢弃部分激活值]; G --> H[反向传播时重新计算]; F --否--> I[存储所有激活值]; H --> J{是否启用混合精度}; J --是--> K[使用FP16存储权重]; K --> L[使用FP32累积梯度]; J --否--> M[使用FP32存储权重]; L --> N[完成训练]; M --> N;

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

新手必读：大语言模型训练与优化全攻略
2024-10-26 10:24

AI小白熊的博客然而，对于许多对AI感兴趣的新手来说，大语言模型的训练和应用似乎是一件高不可攀的事情。复杂的技术术语、晦涩的理论知识，以及高昂的硬件要求，往往让人望而却步。但其实，只要掌握正确的方法和工具，每个人都能...
ComfyUI与DeepSpeed结合可能性探讨：大模型训练的支持潜力
2025-12-14 00:55

半清斋的博客探讨ComfyUI与DeepSpeed结合的可能性，通过可视化节点图实现大模型训练的低门槛配置。利用ComfyUI的数据流编程模型和DeepSpeed的分布式优化能力，构建可复用、易调试的训练流程，推动AI训练从编码转向图形化配置，...
CUDA调度波次Wave实战：如何优化大模型训练中的GPU资源利用率
2025-10-19 02:34

sony5的博客通过分析Wave调度导致的GPU资源闲置问题，特别是尾波效应，文章从内核设计、框架优化到系统配置层面，提供了一系列实战技巧，旨在帮助开发者优化线程块划分、实现负载均衡，从而显著提升大模型训练中的GPU资源利用率...
新手入门：大语言模型训练指南
2024-08-06 08:45

和老莫一起学AI的博客然而，对于许多对AI感兴趣的新手来说，大语言模型的训练和应用似乎是一件高不可攀的事情。复杂的技术术语、晦涩的理论知识，以及高昂的硬件要求，往往让人望而却步。但其实，只要掌握正确的方法和工具，每个人都能...
部署大型语言模型 (LLM) 服务需要多少 GPU 显存？
2025-03-10 22:35

AI大模型学习不迷路的博客了解为 LLM 服务的 GPU 显存需求不仅仅是一个面试问题，更是现实世界的必需。下次部署模型或在面试中回答这个问题时，希望大家可以有精确的数学计算来支持...对这些数字了解得越多，就越有信心在生产中优化和部署 LLM！
混合专家模型（MoE）在大模型训练中的高效实践与性能优化
2025-10-11 06:42

pz890123的博客本文深入探讨了混合专家模型（MoE）在大模型训练中的高效实践与性能优化。通过类比“医院分诊”机制，阐释了MoE如何通过稀疏激活，在保持海量参数容量的同时，大幅降低训练与推理的计算成本。文章结合实战案例，详细...
RTX4090显卡在超大模型训练中的速度
2025-09-27 17:47

lanjieying的博客 RTX4090凭借强大算力和高显存带宽，在大模型训练中展现潜力，适用于中小团队本地微调与推理。通过混合精度、梯度检查点、Flash Attention及多卡并行等技术可提升效率，结合LoRA、FSDP等显存优化方案，能有效支持7B至...
Qwen3-VL读取DeepSpeed配置文件优化训练
2026-01-03 02:44

御坂10057的博客通过DeepSpeed的ZeRO-3、CPU卸载和混合精度等技术，成功实现Qwen3-VL这类大规模多模态模型在有限显存下的高效训练。结合Activation Checkpointing、FlashAttention-2与MoE负载均衡，显著降低内存占用并提升吞吐。...
DeepSpeed 训练优化套件实战指南：CPU Offload、Activation Checkpointing 与 Gradient Accumulation 高效实践
2025-04-27 18:08

观熵的博客在超大模型训练中，单靠混合精度与分布式并行已难以突破显存瓶颈和计算开销限制。本文系统解析了 DeepSpeed 训练优化套件，包括 CPU Offload、Activation Checkpointing、Gradient Accumulation 三大关键技术，详细...
Firefly (流萤) - 中文对话式大语言模型
2023-10-06 10:23

E的工程笔记的博客模型训练数据格式全量参数微调 QLoRA微调模型使用 1、权重合并 2、模型推理 3、服务部署 FAQ 1、OOM如何解决？ 2、安装包错误 3、是否支持DeepSpeed+QLoRA？ 4、如何指定使用某些卡训练？ 5、QLoRA微调ChatGLM2，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月31日