我的显卡是A100 80G。
然后我本地用VLLM封装了3个LLM
分别是3B的QwenLLM
7B的QwenVL
14B的QwenLLM
然后3B的GPU设置为0.2
14B的GPU设置为0.7
可以正常运行。
但是一加载7B的QwenVL,不管怎么调参数都报错。各种参数配比,我都尝试过了。
一直报“ValueError: No available memory for the cache blocks. Try increasing gpu_memory_utilization when initializing the engine.”
VLLM本地加载模型报错
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-