如何在Hugging Face上加载预训练模型？

如何在Hugging Face上加载预训练模型时避免显存不足的问题？在使用 `transformers` 库通过 `from_pretrained()` 加载大型预训练模型（如 BERT-large 或 LLaMA）时，常因GPU显存不足导致崩溃。即使设备支持推理，初始加载阶段也可能因权重全部加载至显存而失败。常见报错包括“CUDA out of memory”。如何在保证模型完整加载的前提下，有效降低显存占用？是否可通过分批加载、模型切分或启用 `device_map="auto"` 结合 `accelerate` 库实现多卡/混合精度分配？这对于在资源受限环境下部署大模型尤为关键。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ScandalRafflesia 2025-12-23 21:50
关注
如何在Hugging Face上加载预训练模型时避免显存不足的问题

1. 显存不足的常见原因分析

当使用 transformers 库中的 from_pretrained() 方法加载大型语言模型（如 BERT-large、LLaMA-7B 或更大）时，系统会尝试将全部模型权重一次性加载到当前设备（通常是 GPU）的显存中。对于参数量超过数十亿的模型，仅模型权重就可能占用 10GB 以上的显存，导致“CUDA out of memory”错误。

即使后续推理阶段可以在较低资源下运行，但初始加载过程仍需完整载入模型结构与参数，这成为部署瓶颈。

模型参数规模过大（例如 LLaMA-65B 参数约 130GB FP16）
默认加载方式将所有层加载至单个 GPU 显存
中间激活值和优化器状态进一步增加内存压力
未启用分布式或量化策略

2. 基础级解决方案：按需加载与设备映射

最直接的缓解方法是利用 Hugging Face 提供的 device_map 参数，结合 accelerate 库实现跨设备分配。

通过设置 device_map="auto"，accelerate 会自动将模型的不同层分配到可用的 GPU 或 CPU 上，从而分散显存压力。

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "meta-llama/Llama-2-7b-hf" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", # 自动分配到多GPU/CPU torch_dtype="auto" )

该方法无需修改模型结构，适用于大多数支持模块化拆分的模型架构。

3. 进阶方案：量化技术降低精度占用

量化是一种有效减少模型显存占用的技术，通过降低权重精度（如从 FP32 到 INT8 或 NF4），可显著压缩模型体积。

Hugging Face 支持通过 bitsandbytes 实现 4-bit 和 8-bit 量化加载：

model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", load_in_8bit=True # 启用 8-bit 量化 )

量化类型每参数位数显存节省性能影响
FP32 32 基准无损失
FP16/BF16 16 ~50% 轻微
INT8 8 ~75% 可控下降
NF4 (QLoRA) 4 ~87.5% 需微调补偿

4. 高级策略：模型切分与流水线并行

对于超大规模模型（如 LLaMA-65B），即使使用量化也可能超出单卡容量。此时应采用模型并行策略，尤其是流水线并行（Pipeline Parallelism）。

通过 accelerate 配置文件定义多设备分布：

accelerate config

生成如下配置示例：

compute_environment: LOCAL_MACHINE distributed_type: MULTI_GPU num_gpus: 4 mixed_precision: fp16 use_cpu: false device_map: auto

然后在代码中使用：

from accelerate import Accelerator accelerator = Accelerator() model = accelerator.prepare(model)

5. 深度优化：QLoRA 与低秩适配技术

QLoRA（Quantized Low-Rank Adaptation）是当前最前沿的大模型微调技术之一，允许在仅 24GB 显存的消费级 GPU（如 RTX 3090/4090）上微调 65B 模型。

其核心思想是在 4-bit 量化基础模型上引入可训练的低秩矩阵（LoRA layers），冻结原始权重。

加载 4-bit 量化基础模型
插入 LoRA 适配层（仅这些层参与梯度更新）
使用 peft 库管理适配模块
训练完成后合并 LoRA 权重或单独保存增量

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=64, lora_alpha=16, target_modules=["q_proj", "v_proj"], lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config)

6. 架构级设计：延迟加载与内存感知调度

某些框架（如 vLLM, Tensor Parallel）实现了更细粒度的内存管理机制，包括 PagedAttention 和块级内存分配。

此外，可通过自定义 _init_weights=False 实现延迟初始化：

model = AutoModelForCausalLM.from_config( config, _init_weights=False # 推迟权重初始化 )

结合设备感知的分批加载逻辑，可在运行时动态载入所需层。

graph TD A[开始加载模型] --> B{是否有足够显存?} B -- 是 --> C[直接加载至GPU] B -- 否 --> D[启用device_map='auto'] D --> E[检测可用设备(GPU/CPU)] E --> F[按层拆分模型] F --> G[量化处理(load_in_8bit/4bit)] G --> H[应用PEFT(如LoRA)] H --> I[完成分布式加载] I --> J[进入推理/训练流程]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

量化类型	每参数位数	显存节省	性能影响
FP32	32	基准	无损失
FP16/BF16	16	~50%	轻微
INT8	8	~75%	可控下降
NF4 (QLoRA)	4	~87.5%	需微调补偿

报告相同问题？

关注问题

Hugging Face Transformers进阶：模型微调与训练
2025-05-03 19:25

CarlowZJ的博客模型微调是指在预训练模型的基础上，针对特定任务进行进一步训练的过程。...定义模型：加载预训练模型，并根据任务需求添加额外的层（如分类层）。定义优化器和损失函数：选择合适的优化器和损失函数。训练模型。
基于python的中文预训练生成模型代码实现
2022-03-25 21:33

Python中，可以使用Hugging Face的Transformers库直接加载预训练模型，并根据需求进行微调。 2. GPT-like模型：GPT模型是基于自回归的，适用于文本生成。在Python中，可以使用Transformer库或原生PyTorch实现。 3....
基于python的中文预训练RoBERTa模型型
2022-03-21 20:20

在自然语言处理（NLP）领域，预训练模型已经成为理解和生成人类语言的关键技术。RoBERTa（Robustly Optimized BERT Pretraining Approach）是BERT（Bidirectional Encoder Representations from Transformers）的一...
Hugging Face Transformers库入门，轻松调用BERT、GPT等预训练模型！
2025-06-24 16:01

我爱学大模型的博客以前只有大厂才能玩得起的深度学习模型，现在个人开发者也能轻松上手。这种技术民主化的趋势，正在重塑整个行业的格局。不过话说回来，工具再好，基础还是要扎实。理解Attention机制、掌握模型调优技巧、知道何时该...
基于Hugging Face -Transformers的预训练模型微调
2021-09-10 21:13

神洛华的博客 Hugging Face transformers课程文章目录Hugging Face transformers课程1. IntroductionTransformers的历史Architectures和checkpointsThe Inference API用pipeline处理... 构建Trainer API微调预训练模型从Hub上下载d
基于中文 GPT2 预训练模型的文本分类微调.zip
2024-01-07 17:38

6. **transformers 4.27.3**：Transformers是Hugging Face开发的库，它封装了多种预训练模型，如GPT2，方便用户在Python环境中进行微调。这个版本提供了对GPT2模型和其他最新模型的支持，以及优化的训练和推理工具。...
【人工智能大模型】基于Wiki数据集的大语言模型预训练及Qwen3全参数微调：实战应用与医学领域对话生成系统构建
2025-06-24 22:11

适合人群：对大语言模型预训练感兴趣的开发者和研究人员，尤其是有一定编程基础和技术背景的人群。使用场景及目标：①了解大语言模型的预训练过程，包括数据集准备、模型构建和训练监控；②掌握如何使用 Hugging ...
使用Hugging Face管道轻松应用NLP预训练模型
2021-07-14 18:39

javastart的博客作者|Robin van Merle 编译|VK 来源|Towards Data Science ...最近，BERT模型在语言处理领域得到了广泛的应用，因为它能够将最先进的性能与计算能力结合起来。在本文中，我将向你展示如何使用Hugging F..
使用Hugging Face训练自定义重排模型(Reranker)完全指南
2025-04-01 10:00

扫地的小何尚的博客重排模型(Reranker)是一种特殊类型的神经网络模型，专门用于评估查询(query)和文档(document)之间的相关性。...# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程", "Python编程基础"],
什么是预训练模型？
2023-03-01 14:32

小学生玩编程的博客什么是预训练模型？
学习AI大模型必须要懂得知识点：Ollama 、 Hugging Face 、 vLLM 介绍与AI大模型文件后缀的介绍
2025-02-13 21:13

Json____的博客 vLLM 是一个针对大规模语言模型推理的高效框架，通过优化内存管理、支持分布式...它适用于需要处理超大语言模型的任务，并且能够有效地在本地或分布式环境中运行。好了这三个知识点说完了，接下来再来总结一下。
【Hugging Face平台】核心组件与Transformers库详解：NLP模型的探索、使用及常见问题解决
2025-06-12 19:57

适合人群：对自然语言处理感兴趣的开发者、研究人员以及希望利用预训练模型快速构建NLP应用的技术人员。; 使用场景及目标：①快速获取并使用高质量的预训练NLP模型；②通过在线或本地部署的方式灵活地将模型集成到...
第十三章：多语言预训练模型
2024-05-04 00:56

程序员光剑的博客第十三章：多语言预训练模型 1. 背景介绍 1.1 自然语言处理的重要性在当今的数字时代,自然语言处理(NLP)已经成为人工智能领域中最重要和最具挑战性的研究方向之一。随着人机交互的日益普及,有效地理解和生成自然...
Hugging Face 核心组件介绍
2025-08-19 22:35

@鱼香肉丝没有鱼的博客它的核心价值在于通过快速访问海量预训练模型，并提供端到端的机器学习开发工具链，极大降低了构建智能应用的门槛。在架构上，包含模型库（Model Hub）、数据集库（Datasets）、训练工具（和）、推理部署方案等多个...
探秘Hugging Face与DeepSeek：AI开源世界的闪耀双子星
2025-02-11 21:38

奔跑吧邓邓子的博客本文深入探讨 Hugging Face 和 DeepSeek 在 AI 开源领域的卓越贡献，剖析它们的技术优势、应用场景以及对未来 AI 发展的深远影响，带你领略 AI 开源世界的无限魅力。
Python-使用预训练语言模型BERT做中文NER
2019-08-10 06:35

4. **Hugging Face Transformers库**：了解如何使用这个库来加载和微调预训练的BERT模型，包括模型实例化、数据预处理、模型训练和评估。 5. **中文处理**：讨论处理中文文本的特殊性，如分词和字符编码，以及如何...
一文彻底搞懂大模型 - Hugging Face Transformers
2024-10-09 14:00

Cc不爱吃洋葱的博客 Hugging Face Transformers是一个开源的预训练模型库，旨在将NLP领域的最新进展向更广泛的机器学习社区开放。该库包含了经过精心设计的最先进的Transformer架构，并提供了易于使用的API，使得研究人员和开发者能够...
Hugging Face：现代自然语言处理的领导者
2024-07-20 18:00

一休哥助手的博客自然语言处理（NLP）领域在近年来取得了显著的进步，而Hugging Face作为这一领域的重要推动者，提供了强大的工具和资源，极大地方便了研究者和开发者的工作。本文将详细介绍Hugging Face，包括其背景、核心产品和...
百川公司开发的大规模7B预训练语言模型.zip
2024-02-07 13:31

在使用百川公司的7B预训练模型时，首先需要安装必要的依赖库，比如Transformer库，然后根据说明.txt中的指示加载模型。模型可以用于各种自然语言处理任务，例如机器翻译、文本生成、问答系统、情感分析等。对于特定...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答今天
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月23日

如何在Hugging Face上加载预训练模型？

1条回答 默认 最新

如何在Hugging Face上加载预训练模型时避免显存不足的问题

1. 显存不足的常见原因分析

2. 基础级解决方案：按需加载与设备映射

3. 进阶方案：量化技术降低精度占用

4. 高级策略：模型切分与流水线并行

5. 深度优化：QLoRA 与低秩适配技术

6. 架构级设计：延迟加载与内存感知调度

问题事件

1条回答默认最新