VLLM本地加载模型报错

我的显卡是A100 80G。
然后我本地用VLLM封装了3个LLM
分别是3B的QwenLLM
7B的QwenVL
14B的QwenLLM
然后3B的GPU设置为0.2
14B的GPU设置为0.7
可以正常运行。
但是一加载7B的QwenVL，不管怎么调参数都报错。各种参数配比，我都尝试过了。
一直报“ValueError: No available memory for the cache blocks. Try increasing gpu_memory_utilization when initializing the engine.”

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

35条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2025-01-01 02:28
关注
获得0.15元问题酬金
以下回复引自免费微信小程序：皆我百晓生。如问题解决，还请采纳。如仍有疑问，请回复留言或私信博主，以便获得更精准的帮助。

解决方法：

确保你的显卡驱动程序版本与VLLM兼容。
检查并更新你的显卡驱动。
如果你使用的是GPU驱动，确保它也支持VLLM。
在虚拟机中启用VLLM的GPU加速功能。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

VLLM本地加载模型报错：ValueError: No available memory for the cache blocks. Try increasing gpu_memory...
2025-01-24 08:56

bug菌¹的博客然后我本地用VLLM封装了3个LLM 分别是3B的QwenLLM 7B的QwenVL 14B的QwenLLM 然后3B的GPU设置为0.2 14B的GPU设置为0.7 可以正常运行。但是一加载7B的QwenVL，不管怎么调参数都报错。各种参数配比，我都尝试过了。 ...
vllm 推理报错，无法导入本地大模型路径
2024-04-27 22:46

jieshenai的博客是本地经过lora权重合并后的大模型路径，无论是使用相对路径还是绝对路径都会报错；进行大模型推理时，出现了报错，无法从本地路径导入大模型；升级一下 vllm 的版本就好了。
VLLM镜像部署报错解决[项目源码]
2025-11-19 02:04

当开发者通过Docker命令运行vllm/vllm-openai:v0.6.0镜像时，系统会要求提供一个本地文件夹路径或者一个存储在Hub上的模型的repo_id。这就提示开发者需要在本地环境中正确配置这些参数，以便系统能够识别并加载相应...
【VLLM】大模型本地化部署
2025-07-13 10:46

一叶千舟的博客 vLLM 非常适合中高级开发者、AI 工程团队，在具备一定 GPU 资源的前提下部署高效、低成本、可控的大语言模型服务，尤其适合本地化、安全敏感、高并发调用等场景。
vLLM 部署本地大模型
2024-11-24 22:16

Michael阿明的博客兼容OpenAI服务命令行输入 vllm serve Qwen/Qwen2.5-1.5B-Instruct --port 9999 --dtype float16 输出 INFO 11-24 21:45:42 api_server.py:528] vLLM API server version 0.6.3.post1 INFO 11-24 21:45:42 api_...
VLLM部署模型，api调用报错502的解决办法
2025-04-06 19:28

Restart222的博客检查端口占用情况，如果是端口被占用，换一个端口再启动。如果不是，在调用api的代码中加入。
通过vllm快速部署本地大模型
2025-11-10 19:32

寒秋丶的博客摘要：本文详细介绍了使用vLLM框架在本地部署大模型的完整流程。文章首先对比了vLLM和Ollama两种部署方案，分析其适用场景和技术差异。随后分步骤讲解了环境准备、模型下载、原生部署和Docker部署的具体方法，特别...
vLLM能否支持LoRA微调模型加载？插件扩展说明
2025-11-26 03:00

FasterThanMind的博客 vLLM通过PagedAttention和LoRA动态加载机制，实现多LoRA模型共享底座、热插拔切换与高效显存管理，显著提升推理吞吐并降低资源消耗，适用于多任务、多租户的大模型部署场景。
内网部署VLLM+本地大模型，避坑指南
2025-04-10 10:02

*U.M.R^的博客首先要检查你本地的模型文件的绝对路径和启动命令中-v挂在的本地目录文件夹（这个到模型文件夹的上一层，即如果config.json在/vllm/models/bge-reranker-v2-m3中，则这里写/vllm/models）。–served-model-name 模型...
Window环境下使用VLLM高效推理框架本地部署模型
2025-06-14 15:04

Bug不讲武德的博客首先对比了Ollama、VLLM、SGLang、LightLLM和Llama.cpp等主流本地大模型部署框架的特点。重点讲解了在Windows中安装WSL的详细步骤，包括系统要求、功能启用和Ubuntu子系统安装。随后展示了如何在Linux环境中搭建vLLM...
vllm本地部署qwen3-4b
2025-07-15 00:27

夜深人静写代码☞的博客主要内容包括：1) 创建Python 3.10虚拟环境并安装vLLM框架；2) 通过Hugging Face镜像下载Qwen3-4B模型；3) 配置参数优化显存使用（限制55%显存、最大序列长度2000）；4) 启动OpenAI兼容API服务（端口6009）；5) 测试...
使用 vLLM 加载大模型（如 DeepSeek-R1-Distill-Llama-70B）的完整指南
2025-09-08 16:21

吞花卧酒的博客本文提供了使用vLLM加载70B大模型的完整指南，涵盖环境准备、常见错误解决和性能优化。关键内容包括：必须使用8卡张量并行(TP=8)才能加载模型；需明确指定输入/输出长度以避免脚本错误；成功测试显示系统吞吐量达920...
vLLM支持模型分片加载，突破显存限制
2025-11-25 11:59

目楚的博客本文深入解析vLLM通过PagedAttention、连续批处理和动态内存管理三大技术，显著提升显存利用率与推理吞吐...支持模型分片加载与量化，使单卡也能高效运行70B级大模型，实测吞吐提升达8倍，是大模型高效部署的关键方案。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月1日

VLLM本地加载模型报错

35条回答 默认 最新

问题事件

35条回答默认最新