dicktv_8341 2025-09-22 21:01 采纳率: 66.7%

已结题

vllm本地部署Qwen模型，这个速度，正常吗？

问题遇到的现象和发生背景

本地采用VLLM架构作后端，open-webui作前端部署大模型，下载了Qwen-235B-A22B-2507的模型（模型大小400G），VLLM后段日志显示每秒只有0.6-0.8 token,

操作环境、软件版本等信息

电脑配置英特尔6530 双路，1024GB DDR5 4800频率内存，显卡为一张RTX 5880 Ada,48G显存，我看很多朋友4070或者4080跑deepseek 671B Q4量化都能有10多tokens，我这个速度是不是不正常？

尝试过的解决方法

VLLM端显存限制 gpu-memory-utilization 为0.95,上下文限制为8192,因为显存不够，分配了480内存和48显存混合运算

我想要达到的结果

这个配置跑这个速度正常吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

.摘星. 优质创作者: 人工智能技术领域 2025-09-22 22:03

关注

摘星参考千问来帮您回答这个问题！

您的部署速度（0.6-0.8 token/s）明显低于正常水平，尤其对比其他用户运行67B量级模型的10+ token/s。以下是详细分析和优化建议：

一、速度慢的核心原因

模型规模过大 vs 显存不足
- Qwen-235B-AWQ（2350亿参数）即使量化后仍需约120GB显存，而您的RTX 5880 Ada仅48GB显存。
- 混合运算代价高昂：VLLM的--gpu-memory-utilization 0.95虽启用了480GB内存作为Swap空间，但CPU-GPU频繁数据交换会成为巨大瓶颈（延迟提升百倍）。
硬件配置瓶颈
- 单卡限制：235B模型需多卡并行（如2×80GB A100/A6000），单卡RTX 5880 Ada无法高效承载。
- 内存带宽限制：DDR5 4800带宽仅76.8GB/s，远低于显存（RTX 5880 Ada为960GB/s），Swap时IO成为致命瓶颈。
对比案例差异
- 其他用户的DeepSeek 67B Q4仅需约34GB显存，配合24GB显存的4080可完全载入显存，速度自然快（无需Swap）。

二、当前速度是否正常？

✅ 在当前配置下是正常的，但属于“勉强运行”状态

理论极限：Swap模式下，PCIe 4.0×16带宽（64GB/s）仅支持约1-2 token/s，您的0.6-0.8 token/s符合预期。
若关闭Swap（显存不足），模型甚至无法启动。

三、优化建议

（1）紧急方案：调整VLLM参数

# 启动命令添加以下参数（降低Swap频率）
vllm-entrypoint api_server \
  --model Qwen/Qwen-235B-AWQ \
  --swap-space 480 \          # 保持480GB Swap
  --gpu-memory-utilization 0.9 \       # 预留更多显存缓冲
  --max-num-batched-tokens 1024 \      # 减少批处理大小
  --tensor-parallel-size 1             # 确保单卡模式

（2）根本性解决方案

方案	实施方法	预期速度提升
更换小模型	换用Qwen-72B-AWQ（需36GB显存），可在单卡完全加载	可达10-15 token/s
增加显卡数量	添加第二张RTX 5880 Ada，使用`--tensor-parallel-size 2`并行推理	预计3-5 token/s
升级硬件	使用2×A100 80GB或H100 SXM，通过NVLink互联	可达20+ token/s
启用量化压缩	转换为更激进的GPTQ-3bit（需重新量化模型）	显存需求降至72GB

（3）模型选择建议

单卡48GB显存上限：推荐运行Qwen-72B-AWQ（72B参数）或DeepSeek 67B-Q4。
实测参考：RTX 4090（24GB）运行Qwen-72B-AWQ可达12 token/s。

四、配置验证步骤

检查显存占用

nvidia-smi  # 确认显存是否被充分利用

监控Swap延迟

vllm.entrypoints.api_server: INFO  # 查看日志中的"Swap in/out"频率

性能对比测试

# 使用微型输入测试极限速度
curl http://localhost:8000/v1/completions \
  -d '{"prompt": "Hello", "max_tokens": 10}'

总结

结论：您的速度是Swap机制下的正常表现，但硬件配置无法满足235B模型的高吞吐需求。
优先建议：更换为Qwen-72B-AWQ（下载链接），预计速度提升15倍以上。
扩展方案：如需运行235B模型，必须升级到多卡（如2×A100/A6000 Ada）+ NVLink环境。

参考：VLLM官方文档明确指出，Swap机制下速度会下降10-100倍（出处）。建议根据显存需求选择模型：模型显存计算器。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(5条)

报告相同问题？

关注问题

vLLM 本地部署Qwen大模型
2025-05-03 16:10

风筝超冷的博客打印结果 for output in outputs: print(output.outputs[0].text) 启动 vLLM 的 OpenAI 兼容服务命令行输入 vllm serve Qwen/Qwen2.5-1.5B-Instruct --port 9999 --dtype float16 # 使用绝对路径 vllm serve /...
vllm本地部署qwen3-4b
2025-07-15 00:27

夜深人静写代码☞的博客本文详细介绍了在Ubuntu 24.04系统下使用NVIDIA RTX 3090显卡部署Qwen3-4B大语言模型的完整流程。主要内容包括：1) 创建Python 3.10虚拟环境并安装vLLM框架；2) 通过Hugging Face镜像下载Qwen3-4B模型；3) 配置参数...
【大模型部署】基于vLLM与Ubuntu搭建：支持GPU加速的Qwen系列模型本地化推理系统配置 AI大模型部署+VLLM+Windows环境大模型服务搭建+实践指南
2025-10-26 11:23

本文详细介绍了在Windows系统上通过WSL2环境的Ubuntu使用vLLM部署大语言模型的完整流程，涵盖环境准备、虚拟环境配置、模型下载、Docker容器配置及服务部署测试等关键步骤。适用于AI开发者、机器学习爱好者和希望在...
5分钟搞定vLLM本地部署Qwen大模型：从安装到API调用全流程（含避坑指南）
2025-10-23 01:11

orange的博客本文详细介绍了如何在本地高效部署Qwen大语言模型，并利用vLLM推理引擎提升服务性能。通过从环境准备、模型下载到启动OpenAI兼容API服务的全流程实战指南，帮助开发者快速搭建可调用的本地大模型服务，并提供了关键...
如何在本地用vLLM快速部署Qwen大模型？保姆级教程（含常见问题解决）
2025-10-04 05:38

work3的博客本文提供了一份详尽的本地部署Qwen大模型的保姆级教程，核心是使用vLLM推理引擎。内容涵盖从CUDA环境配置、模型下载与验证，到启动OpenAI兼容的API服务，并深入探讨了性能调优、量化技术及常见GPU内存不足等问题的...
大模型部署：VLLM部署Qwen3模型的详解
2026-02-21 22:15

常耀斌的博客 VLLM 作为一个高性能的推理引擎，通过其先进的内存管理和批处理技术，可以显著提升大模型的推理效率。配合 Qwen3 系列模型的优秀性能，您可以构建出高效、稳定的 AI 应用服务。
本地部署Qwen2大模型之五：vLLM与大语言模型的关系
2024-12-27 01:42

康顺哥的博客经过几天的实践探索，对大语言模型（Qwen2）及其部署工具（vLLM）有了比较清晰的了解，这里做个简单的梳理，以作备忘吧。
vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ模型
2025-04-17 16:47

花晓木的博客 vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ模型。
Ubuntu部署vLLM+Qwen3[可运行源码]
2025-11-14 12:01

在Ubuntu操作系统上部署vLLM推理引擎和Qwen3 32B大语言模型是人工智能领域中的一项技术挑战。这一过程首先需要准备相应的运行环境，包括检查系统硬件和软件的最低要求，安装CUDA工具包以支持GPU计算，以及配置...
7个步骤打造企业级本地AI服务：基于vLLM的Qwen模型部署实战
2026-02-07 05:12

胡晗研的博客本文将带你通过7个实战步骤，利用开源AI推理框架vLLM构建高性能Qwen模型服务，探索大模型本地化方案的完整落地流程。从环境搭建到性能调优，从问题诊断到企业级架构设计，全方位掌握本地AI服务的核心技术与最佳实践...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月22日