每次推理都Loading checkpoint shards:

语言模型推理代码为:

hf_generator = pipeline("text2text-generation", model="aaa"
output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True)

每次推理都会显示:

Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.64s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.74s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:08<00:00,  4.17s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.67s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.69s/it]

导致十分占用时间,如何解决?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
故事不长丨 2023-07-20 06:12
关注
缩减模型大小：考虑使用更小的模型或模型子集来减少加载时间。您可以尝试使用经过压缩或剪枝的模型，或使用具有较少参数的模型。

持久化加载：将模型加载到内存中，以避免在每次推理时重新加载模型。您可以将加载模型代码放置在循环外部，并在每次推理时重用已加载的模型。这样可以减少重复加载的时间消耗。

下面是示例代码，展示了如何在循环外加载模型并重复使用：

hf_generator = pipeline("text2text-generation", model="aaa") # 在循环之前加载模型 for i in range(num_iterations): output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True) # 进行推理操作
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 3
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

提示工程L1：关键原则
2023-05-11 03:43

今晚打佬虎的博客 6b", trust_remote_code=True) model = AutoModel.from_pretrained("./chatglm-6b", trust_remote_code=True).half().quantize(8).to('cuda') Loading checkpoint shards: 0%| | 0/8 [00:00 辅助函数：输入提示，...
Langchain-Chatchat大语言模型本地知识库的踩坑、部署、使用
2024-11-04 07:28

LLM教程的博客 Langchain-Chatchat是一个基于ChatGLM大语言模型与Langchain应用框架实现，开源、可离线部署的检索增强生成(RAG)大模型的本地知识库问答应用项目。
【ChatGLM3】（6）：使用1个2080Ti-11G版本，运行ChatGLM3-Int8模型，可以正常运行，速度6 words/s，不支持vllm启动，2张卡速度24 words/s
2023-12-02 15:06

fly-iot的博客 it/s] Loading checkpoint shards: 14%|█████████████▏ | 1/7 [00:02<00:12, 2.11s/it] Loading checkpoint shards: 29%|██████████████████████████▎ | 2/7 [00:04<00:10...
Langchain-Chatchat大语言模型本地知识库的踩坑、部署、使用（附教程）
2025-03-26 09:57

LLM教程的博客 Langchain-Chatchat是一个基于ChatGLM大语言模型与Langchain应用框架实现，开源、可离线部署的检索增强生成(RAG)大模型的本地知识库问答应用项目。
AI大模型学习二：DeepSeek R1+蒸馏模型组本地部署与调用
2025-04-03 14:12

浪淘沙jkp的博客 /workspace/R1-Distill# python runDeepSeek.py Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████...
使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理
2023-06-07 13:44

吃果冻不吐果冻皮的博客之前的一系列大模型相关文章都是在LLaMA 7B/13B模型参数上面进行微调，文本使用 LoRA 技术对 LLaMA 30B/65B 大模型进行微调。首先，对 LLaMA 65B 进行微调，65B 参数的模型大约120G左右。当然，从提升模型的推理速度...
在CSDN gitcode AI平台实践ChatGLM4-9B聊天机器人@MindSpore
2024-10-13 23:00

skywalk8163的博客 ids'].shape[1]:] print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # _framework_profiler_step_end() 报错信息： Loading checkpoint shards: 100% 10/10 [01:42<00:00, 11.44s/it] \ -----...
大模型 - Langchain-Chatchat小白本地部署踩坑血泪史
2024-06-12 14:29

Zyred的博客成功后，界面如下，可以进行愉快的聊天了输出的日志如下： Loading checkpoint shards: 0%| | 0/2 [00:00 8.2 失败（完整的人生） 8.2.1 Torch not compiled with CUDA enabled 错误 2024-06-12 21:53:34 | ERROR |...
AIGC大模型ChatGLM2-6B：国产版chatgpt本地部署及体验
2023-08-03 16:07

智慧医疗的博客支持与用户通过自然语言对话进行交互，处理多种自然语言任务。比如：对话聊天、智能问答、创作文章、创作剧本、事件抽取、生成代码等等基于ChatGLM初代模型的开发经验，全面升级了ChatGLM2-6B的基座模型。ChatGLM2-...
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Gradio
2024-10-21 06:30

开源技术探险家的博客使用Gradio快速体验Qwen2.5-7B-Instruct与vllm集成推理的效果。
Using model weights format [‘*.safetensors‘] 此日志是什么意思？
2024-11-20 05:05

MonkeyKing.sun的博客通过这些优化，可以显著减少大模型的加载时间，从而加快服务启动速度。这些日志信息表明，系统正在加载大型语言模型（），并且模型权重使用的是。
使用Lmdeploy将Qwen2-7B量化和加速推理
2024-06-17 08:32

mybbsss的博客量化前 53words/s （设备为50%A100）使用lmdeploy测试性能 python benchmark_qwen.py Loading checkpoint shards: 100%|███████████████████████████████████████████...
开源模型应用落地-glm模型小试-glm-4-9b-chat-批量推理（二）
2024-11-04 10:13

开源技术探险家的博客使用GLM-4-9B-Chat批量推理提升计算效率和处理速度，通过同时处理多个输入数据，加速模型的推理过程。
解决colab微调ChatGLM-6B时train.sh25行被killed问题
2023-10-28 06:01

Momosaki的博客在用colab对chatglm-6b进行微调时，运行bash train.sh的时候经常会被killed在train.sh的25行。查看colab资源看到系统RAM满了，GPU RAM一点没消耗...把train.sh和推理文件的模型地址改为本地模型地址，减少系统RAM占用。
使用openEuler安装大模型
2023-10-10 11:44

gaoyi1234560的博客 No space left on device 在~/.bashrc文件中设置 export TMPDIR=‘/var/tmp’ ， source ~/.bashrc 解决问题 Loading checkpoint shards: 进度到29%之后，会kill掉是因为内存不足导致的，需要增加内存，即可解决...
【错误记录】llamafactory-train的时候-跑到50%左右-OOM
2024-12-12 06:03

yxx122345的博客主要问题是--cutoff_len 100000 \引起的由于我的pormpt和input字段都很长，所以直击把llama factory里的截断长度拉到最大了（应该是13万多），这个导致了内存溢出，实际上改成4096就可以运行了。 2. 在来一套组合...
大模型推理使用transformers 后端代码报错
2024-10-09 07:40

wyh_111的博客 Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 10/10 [00:00<00:00, 18.18it/s] Welcome to the GLM-4-9B ...
【机器人】复现 ECoT 具身思维链推理
2025-05-11 15:45

一颗小树x的博客文章介绍了如何在VLA（视觉-语言-动作）模型的基础上训练一个视觉-语言-动作模型，该模型能够在选择机器人动作之前，根据指令和图像生成思考决策的推理步骤，从而提高性能、可解释性和泛化能力。文章提供了具体的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月15日

每次推理都Loading checkpoint shards:

1条回答 默认 最新

问题事件

1条回答默认最新