dicktv_8341 2025-09-22 21:01 采纳率: 66.7%
浏览 60
已结题

vllm本地部署Qwen模型,这个速度,正常吗?

问题遇到的现象和发生背景

本地采用VLLM架构作后端,open-webui作前端部署大模型,下载了Qwen-235B-A22B-2507的模型(模型大小400G),VLLM后段日志显示每秒只有0.6-0.8 token,

img

操作环境、软件版本等信息

电脑配置英特尔6530 双路,1024GB DDR5 4800频率内存,显卡为一张RTX 5880 Ada,48G显存,我看很多朋友4070或者4080跑deepseek 671B Q4量化都能有10多tokens,我这个速度是不是不正常?

尝试过的解决方法

VLLM端显存限制 gpu-memory-utilization 为0.95,上下文限制为8192,因为显存不够,分配了480内存和48显存混合运算

我想要达到的结果

这个配置跑这个速度正常吗?

  • 写回答

6条回答 默认 最新

  • .摘星. 优质创作者: 人工智能技术领域 2025-09-22 22:03
    关注

    摘星参考千问来帮您回答这个问题!

    您的部署速度(0.6-0.8 token/s)明显低于正常水平,尤其对比其他用户运行67B量级模型的10+ token/s。以下是详细分析和优化建议:


    一、速度慢的核心原因

    1. 模型规模过大 vs 显存不足

      • Qwen-235B-AWQ(2350亿参数)即使量化后仍需约120GB显存,而您的RTX 5880 Ada仅48GB显存。
      • 混合运算代价高昂:VLLM的--gpu-memory-utilization 0.95虽启用了480GB内存作为Swap空间,但CPU-GPU频繁数据交换会成为巨大瓶颈(延迟提升百倍)。
    2. 硬件配置瓶颈

      • 单卡限制:235B模型需多卡并行(如2×80GB A100/A6000),单卡RTX 5880 Ada无法高效承载。
      • 内存带宽限制:DDR5 4800带宽仅76.8GB/s,远低于显存(RTX 5880 Ada为960GB/s),Swap时IO成为致命瓶颈。
    3. 对比案例差异

      • 其他用户的DeepSeek 67B Q4仅需约34GB显存,配合24GB显存的4080可完全载入显存,速度自然快(无需Swap)。

    二、当前速度是否正常?

    在当前配置下是正常的,但属于“勉强运行”状态

    • 理论极限:Swap模式下,PCIe 4.0×16带宽(64GB/s)仅支持约1-2 token/s,您的0.6-0.8 token/s符合预期。
    • 若关闭Swap(显存不足),模型甚至无法启动。

    三、优化建议

    (1)紧急方案:调整VLLM参数

    # 启动命令添加以下参数(降低Swap频率)
    vllm-entrypoint api_server \
      --model Qwen/Qwen-235B-AWQ \
      --swap-space 480 \          # 保持480GB Swap
      --gpu-memory-utilization 0.9 \       # 预留更多显存缓冲
      --max-num-batched-tokens 1024 \      # 减少批处理大小
      --tensor-parallel-size 1             # 确保单卡模式
    

    (2)根本性解决方案

    方案实施方法预期速度提升
    更换小模型换用Qwen-72B-AWQ(需36GB显存),可在单卡完全加载可达10-15 token/s
    增加显卡数量添加第二张RTX 5880 Ada,使用--tensor-parallel-size 2并行推理预计3-5 token/s
    升级硬件使用2×A100 80GB或H100 SXM,通过NVLink互联可达20+ token/s
    启用量化压缩转换为更激进的GPTQ-3bit(需重新量化模型)显存需求降至72GB

    (3)模型选择建议

    • 单卡48GB显存上限:推荐运行Qwen-72B-AWQ(72B参数)或DeepSeek 67B-Q4
    • 实测参考:RTX 4090(24GB)运行Qwen-72B-AWQ可达12 token/s。

    四、配置验证步骤

    1. 检查显存占用
      nvidia-smi  # 确认显存是否被充分利用
      
    2. 监控Swap延迟
      vllm.entrypoints.api_server: INFO  # 查看日志中的"Swap in/out"频率
      
    3. 性能对比测试
      # 使用微型输入测试极限速度
      curl http://localhost:8000/v1/completions \
        -d '{"prompt": "Hello", "max_tokens": 10}'
      

    总结

    • 结论:您的速度是Swap机制下的正常表现,但硬件配置无法满足235B模型的高吞吐需求。
    • 优先建议:更换为Qwen-72B-AWQ下载链接),预计速度提升15倍以上。
    • 扩展方案:如需运行235B模型,必须升级到多卡(如2×A100/A6000 Ada)+ NVLink环境。

    参考:VLLM官方文档明确指出,Swap机制下速度会下降10-100倍出处)。建议根据显存需求选择模型:模型显存计算器

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

问题事件

  • 系统已结题 10月1日
  • 已采纳回答 9月23日
  • 创建了问题 9月22日