2401_87554739 2025-01-01 02:28 采纳率: 0%
浏览 879
已结题

VLLM本地加载模型报错

我的显卡是A100 80G。
然后我本地用VLLM封装了3个LLM
分别是3B的QwenLLM
7B的QwenVL
14B的QwenLLM
然后3B的GPU设置为0.2
14B的GPU设置为0.7
可以正常运行。
但是一加载7B的QwenVL,不管怎么调参数都报错。各种参数配比,我都尝试过了。
一直报“ValueError: No available memory for the cache blocks. Try increasing gpu_memory_utilization when initializing the engine.”

  • 写回答

35条回答 默认 最新

  • 专家-赤兔[在线] 优质创作者: 编程框架技术领域 2025-01-01 02:28
    关注
    获得0.15元问题酬金

    以下回复引自免费微信小程序:皆我百晓生。 如问题解决,还请采纳。如仍有疑问,请回复留言或私信博主,以便获得更精准的帮助。

    解决方法:

    1. 确保你的显卡驱动程序版本与VLLM兼容。
    2. 检查并更新你的显卡驱动。
    3. 如果你使用的是GPU驱动,确保它也支持VLLM。
    4. 在虚拟机中启用VLLM的GPU加速功能。
    评论

报告相同问题?

问题事件

  • 系统已结题 1月9日
  • 创建了问题 1月1日