dicktv_8341 2025-08-31 17:40 采纳率: 66.7%

已结题

用Docker方式，VLLM架构配合Openweb-ui本地部署大模型前端无法访问本地容器大模型

问题遇到的现象和发生背景

本人想本地部署大模型用于学生学习，设计采用VLLM框架作为推理后段（满足并发），openweb-ui作为前端让用户有网页图形界面进行访问，本来是想采用docker部署，电脑配置如下

ubuntu 版本24.04 LTS，显存48GB，内存1024GB
已成功安装Nvidia驱动，驱动版本580.76.05,Cuda版本13.0

在终端输入

docker -v

可以看到docker版本28.3.3

首先进入虚拟环境，输入

conda activate CQUPT

进入环境了

此时输入命令安装VLLM

pip install vllm

显示如图

输入命令查看VLLM版本

pip list | grep vllm

可以看到输出如图，版本号是0.10.0.1

因为前面已经设置了docker的镜像源和拉取镜像，直接可以查看已经有的openweb-ui镜像
输入命令

docker images

可看到目前仓库显示如图

遇到的现象和发生背景，请写出第一个错误信息

然后在开始按照教程利用docker部署vllm和openweb-ui开始，出现问题了
我本地模型下载的是Qwen3-235B-22B-2507蒸馏版，Deepseek 70B蒸馏版和14B模型
首先，我问了deepseek，采用start脚本模式，命令如下
新建start_vllm.sh脚本，并编辑

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

#!/bin/bash

MODEL_PATH="/home/frankmartin/home/frankmartin/Models/models/Qwen3-235B-A22B-Instruct-2507-AWQ"
NUM_GPUS=1
API_KEY="CQUPTYYX5003"

docker run --runtime nvidia --gpus all \
    -v ${MODEL_PATH}:/model \
    -p 8000:8000 \
    --ipc=host \
    --name CQEA830\
    -d \
    vllm/vllm-openai:latest \
    --model /model \
    --tensor-parallel-size ${NUM_GPUS} \
    --served-model-name Qwen3-235B-A22B \
    --host 0.0.0.0  \
    --port 8000
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95 \
    --swap-space 128 \
    --cpu-offload-gb 512 \
    --quantization awq \
    --api-key ${API_KEY}

运行结果及详细报错内容

按照该脚本启动之后，屏幕报错

之后尝试调整VLLM的参数，例如加大swap-space交换空间，调高cpu-offload-gb加大内存卸载空间，要么提示swap-space 是无效命令，要么删除该字段后提示CUDA out of memory（爆显存）

我的解答思路和尝试过的方法

无奈，只有采用更小模型，并且不使用start_vllm.sh脚本尝试启动docker运行vllm，切换成14B的模型，启动命令行如下：

    docker run -d \
  --gpus all \
  --restart unless-stopped \
  --name VLLM830 \
  --network host \
  -v /home/frankmartin/DeepSeek-R1-Distill-Qwen-14B:/model \
  vllm/vllm-openai:latest \
  --model /model \
  --served-model-name DSR1 1.5B \
  --dtype half \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \
  --cpu-offload-gb 0  \
  --max-model-len 8196 \
  --api-key CQUPTYYX5003
  --host 0.0.0.0  \
  --port 8000  \

之后系统开始加载deepseek 14B模型，显示显存有占用

并且日志部分也显示 Application startup complete

本地浏览器访问 http://localhost:8000/，看到如图

然后通过docker 启动 openweb-ui前端，采用yml脚本，输入 docker compose up -d，脚本内容如下
端口调整为3212


services:
  
  open-webui:
    image: swr.cn-north-4.myhuaweicloud.com/ddn-k8s/ghcr.io/open-webui/open-webui:v0.6.25
    container_name: open-webui-app
    ports:
      - "3212:8080" # 
    volumes:
      - open-webui-data:/app/backend/data  # 
    environment:
      - OLLAMA_BASE_URL=http://vllm-backend:8000 # 
      - WEBUI_NAME=DeepSeek-70B Chat
      - WEBUI_URL=http://localhost:3212 
      - DISABLE_SIGNUP=false  #
    extra_hosts:
      - "host.docker.internal:host-gateway"
    restart: unless-stopped
    networks:
      - openwebui-net

networks:
  openwebui-net:
    driver: bridge

volumes:
  open-webui-data:
    driver: local

最初我的脚本里面是没有

extra_hosts:
      - "host.docker.internal:host-gateway"

这一块的，后来进入到openweb-ui设置API连接为http://localhost:8000/，或者http://localhost:8000/v1，openweb-ui都显示netweork problem,我才把那个extra的参数加入，但是仍然无效

然后进入对话界面，也是无法对话，始终在转圈

终端界面显示的是这样

查看docker运行情况，VLLm服务没有显示端口

我想要达到的结果

按理说Qwen3模型文件有200多G，可能后期我会加卡，但目前连14B模型都无法跑通，应该是我的命令行或者docker的网络地址设置哪里出了问题？请大家帮帮我

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-08-31 17:44
关注
下午好🌅🌅🌅
本答案参考通义千问

您在部署 VLLM + OpenWebUI 的过程中遇到了前端无法访问后端容器的问题，这是典型的网络配置或容器通信问题。以下是对您问题的详细分析和解决方案。

✅ 一、问题现象总结

后端服务（VLLM）：已启动并运行，占用显存。
前端服务（OpenWebUI）：无法访问 VLLM 的 API 接口（http://localhost:8000/v1）。
错误信息：
前端提示 Network problem 或 Connection refused。
日志中可能显示 Failed to connect to vllm-backend:8000。

模型尝试：从 Qwen3-235B 到 DeepSeek 14B 都未能成功。

🚨 二、问题原因分析

1. Docker 网络配置问题

您使用了 --network host 启动 VLLM 容器，这会导致容器与宿主机共享网络栈。
但 OpenWebUI 容器使用的是默认的桥接网络（bridge），无法直接通过 localhost 访问 VLLM 容器。
关键点：localhost 在 Docker 中是容器内部的地址，不是宿主机的地址。

2. 缺少 extra_hosts 配置

如果您的 OpenWebUI 容器和 VLLM 容器不在同一个自定义网络中，那么它们之间无法通过容器名互相访问。
因此需要添加 extra_hosts 来映射宿主机的 IP 到容器内。

3. API 地址设置不正确

OpenWebUI 的环境变量中设置了 OLLAMA_BASE_URL=http://vllm-backend:8000，但这只有在两个容器在同一自定义网络中时才有效。
如果没有配置网络，这个地址就无效。

🔧 三、解决方法（分步说明）

第一步：确保 VLLM 和 OpenWebUI 容器在同一个自定义网络中

修改 docker-compose.yml 文件，为两个容器创建一个自定义网络，并让它们加入该网络。

version: '3.8' services: vllm-backend: image: vllm/vllm-openai:latest container_name: vllm-backend ports: - "8000:8000" volumes: - /home/frankmartin/DeepSeek-R1-Distill-Qwen-14B:/model environment: - MODEL_PATH=/model - PORT=8000 - HOST=0.0.0.0 command: --model /model \ --served-model-name DSR1 1.5B \ --dtype half \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --cpu-offload-gb 0 \ --max-model-len 8196 \ --api-key CQUPTYYX5003 networks: - openwebui-net restart: unless-stopped runtime: nvidia deploy: resources: limits: devices: - type: gpu count: all open-webui: image: swr.cn-north-4.myhuaweicloud.com/ddn-k8s/ghcr.io/open-webui/open-webui:v0.6.25 container_name: open-webui-app ports: - "3212:8080" volumes: - open-webui-data:/app/backend/data environment: - OLLAMA_BASE_URL=http://vllm-backend:8000 - WEBUI_NAME=DeepSeek-70B Chat - WEBUI_URL=http://localhost:3212 - DISABLE_SIGNUP=false extra_hosts: - "host.docker.internal:host-gateway" networks: - openwebui-net restart: unless-stopped networks: openwebui-net: driver: bridge volumes: open-webui-data: driver: local

⚠️ 注意：请根据您的模型路径和参数调整 command 和 volumes。

第二步：确保 VLLM 容器监听 0.0.0.0 而非 127.0.0.1

在 VLLM 容器中，必须使用 --host 0.0.0.0 参数，否则只允许本地访问。

✅ 您的脚本中已经包含了 --host 0.0.0.0，这是正确的。

第三步：检查 VLLM 容器是否正常运行

运行以下命令查看 VLLM 容器日志：

docker logs vllm-backend

确认输出中无报错，且能看到类似如下信息：

Application startup complete

如果出现 CUDA 内存不足等错误，请尝试降低 --gpu-memory-utilization 或减少 --tensor-parallel-size。

第四步：访问 OpenWebUI 前端

打开浏览器访问：

http://localhost:3212

登录后，在设置中确认 API 地址为：

http://vllm-backend:8000

或者在 OpenWebUI 设置中手动填写：

API URL: http://vllm-backend:8000
Model Name: DSR1 1.5B

📌 四、常见问题排查清单

| 问题 | 解决方案 | |------|----------| | 前端无法访问 VLLM | 确保两个容器在同一个 Docker 网络中 | | CUDA Out of Memory | 减少 --gpu-memory-utilization 或使用更小模型 | | 无法连接到 localhost:8000 | 使用容器名 vllm-backend:8000 替代 localhost | | OpenWebUI 显示 Network Problem | 检查 OLLAMA_BASE_URL 是否正确，确保网络互通 |

✅ 五、最终验证步骤

启动所有容器：

docker-compose up -d

查看容器状态：

docker ps

应看到 vllm-backend 和 open-webui-app 正常运行。

访问 OpenWebUI：

打开浏览器，访问 http://localhost:3212，输入用户名和密码（默认为 admin / admin），然后测试对话功能。

📦 六、推荐的简化部署方式（可选）

如果您希望简化部署流程，可以考虑使用 docker run 直接启动 VLLM 和 OpenWebUI，但建议优先使用 docker-compose 以管理多个服务之间的依赖关系。

✅ 总结

您遇到的核心问题是 Docker 容器间网络不通，导致 OpenWebUI 无法访问 VLLM 的 API 接口。解决的关键在于：

使用自定义 Docker 网络，让两个容器能够通过容器名互相访问；
确保 VLLM 监听 0.0.0.0；
配置 OLLAMA_BASE_URL 为 http://vllm-backend:8000。

如有更多关于模型加载、显存优化、多 GPU 支持等问题，欢迎继续提问！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

Open-WebUI：解锁大模型的本地化应用潜力
2025-04-17 22:25

CarlowZJ的博客 Open-WebUI 作为一个功能强大的工具，为调用和应用大模型提供了便捷的途径。它不仅支持多种大模型的集成，还具备本地部署、离线运行、多用户管理等优势，适用于各种应用场景，如 AI 聊天机器人、智能搜索引擎、自动...
GLM-4v-9b生产环境落地：Docker Compose编排vLLM+Open-WebUI高可用服务
2026-01-12 10:07

凌莫凡的博客本文介绍了如何在星图GPU平台上自动化部署GLM-4v-9b多...通过Docker Compose编排vLLM推理引擎与Open-WebUI交互界面，用户可轻松构建一个支持图片理解、图表分析和中文对话的智能助手，适用于内容分析、智能客服等场景。
超详细喂饭版！linux/openeuler部署Qwen3-32B等大模型华为昇腾Arm架构服务器anaconda+modelscope+mindie+docker等+openwebui可视化前端界面
2025-09-18 16:46

nice_evil的博客本文详细介绍了在华为Arm架构服务器（openEuler 22.03系统）上部署Qwen3-32B大语言模型的完整流程。主要内容包括：1）通过Anaconda配置Python 3.9虚拟环境并安装ModelScope；2）下载模型权重到指定存储位置；3）获取...
本地部署Qwen3-8b大模型：Docker与物理机实践
2025-12-16 11:55

Salton Z的博客详解如何通过Docker和物理机部署Qwen3-8b大模型，重点强调vLLM版本需≥0.8.5以确保兼容性，支持一键启动与Gradio可视化对话，涵盖环境配置、模型拉取及常见问题解决方案。
Llama3-8B多轮对话优化：vllm+open-webui最佳实践指南
2026-01-18 05:24

君子心理的博客本文介绍了基于星图GPU平台自动化部署Meta-Llama-3-8B-Instruct镜像的完整实践方案，结合vLLM与Open WebUI实现高效多轮对话系统。该平台支持一键启动模型服务，适用于AI应用开发、智能客服等场景，显著降低大模型...
基于vLLM与Docker的DeepSeek-R1高效部署实战指南
2026-02-15 00:57

框框框子的博客本文详细介绍了使用vLLM与Docker容器化技术高效部署DeepSeek-R1大语言模型的实战指南。通过结合vLLM的PagedAttention显存优化技术与Docker的环境一致性优势，重点解决了单机多卡场景下的模型部署、性能调优及生产...
在 8x 1080Ti 服务器上使用Ollama部署 Qwen 大模型使用Open WebUI作为前端界面
2025-12-21 15:56

NaG1的博客 Ollama 基于 llama.cpp，...无论使用 Ollama 还是 vLLM，部署后都可以通过兼容 OpenAI 格式的 API 进行调用。在模型运行时，在宿主机新开一个终端输入。如果慢，可以在命令前加代理环境变量。目前 Qwen 最新稳定版为。
从0到上线：国产大模型部署的Docker化实战全流程（支持多模型 × 自动重启 × 接口封装）
2025-03-30 22:10

观熵的博客 Docker 容器的单位不是“代码”，而是“功能组件”✅ 模型不要封装，服务要尽量拆清楚✅ 一套 Compose 网络 + 路由方案能支撑多模型长期演进✅ 模型和代码解耦，有利于版本控制与多模型复用报错信息出现场景解决方案...
大模型初探和本地部署
2026-01-09 16:09

代码输入中...的博客大语言模型（Large Language Model, LLM）简称大模型，本质上是基于海量文本数据训练的、通过统计规律映射语言与知识的 “概率生成模型” —— 核心并非 “理解” 语言或世界，而是通过学习人类文本中的字符（词 / ...
Hunyuan-MT-7B翻译模型5分钟快速部署：vllm+open-webui一键搞定
2026-03-10 00:06

计算机视觉算法的博客本文介绍了如何在星图GPU平台上自动化部署Hunyuan-MT...该方案集成了vLLM推理引擎与Open WebUI界面，用户无需复杂配置即可在5分钟内启动服务，轻松实现中英等33种语言的高质量互译，适用于文档翻译、内容本地化等场景。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月31日

码龄粉丝数原力等级 --

用Docker方式，VLLM架构配合Openweb-ui本地部署大模型前端无法访问本地容器大模型

问题遇到的现象和发生背景

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法

我想要达到的结果

4条回答默认最新

码龄粉丝数原力等级 --

✅ 一、问题现象总结

🚨 二、问题原因分析

1. Docker 网络配置问题

2. 缺少 `extra_hosts` 配置

3. API 地址设置不正确

🔧 三、解决方法（分步说明）

第一步：确保 VLLM 和 OpenWebUI 容器在同一个自定义网络中

第二步：确保 VLLM 容器监听 `0.0.0.0` 而非 `127.0.0.1`

第三步：检查 VLLM 容器是否正常运行

第四步：访问 OpenWebUI 前端

📌 四、常见问题排查清单

✅ 五、最终验证步骤

📦 六、推荐的简化部署方式（可选）

✅ 总结

问题事件

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

用Docker方式，VLLM架构配合Openweb-ui本地部署大模型 前端无法访问本地容器大模型

问题遇到的现象和发生背景

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。 不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法

我想要达到的结果

4条回答 默认 最新

✅ 一、问题现象总结

🚨 二、问题原因分析

1. Docker 网络配置问题

2. 缺少 extra_hosts 配置

3. API 地址设置不正确

🔧 三、解决方法（分步说明）

第一步：确保 VLLM 和 OpenWebUI 容器在同一个自定义网络中

第二步：确保 VLLM 容器监听 0.0.0.0 而非 127.0.0.1

第三步：检查 VLLM 容器是否正常运行

第四步：访问 OpenWebUI 前端

📌 四、常见问题排查清单

✅ 五、最终验证步骤

📦 六、推荐的简化部署方式（可选）

✅ 总结

问题事件

用Docker方式，VLLM架构配合Openweb-ui本地部署大模型前端无法访问本地容器大模型

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

4条回答默认最新

2. 缺少 `extra_hosts` 配置

第二步：确保 VLLM 容器监听 `0.0.0.0` 而非 `127.0.0.1`