Skip to main content

gpt-oss + Ollama 本地化部署指南

一、引言

  • gpt-oss 系列是 OpenAI 于 2025 年 8 月首次发布的开源模型。
gpt-oss:20b(适用于约 16GB 的内存) gpt-oss:120b(适用于≥ 60GB 的内存)
  • 使用 Ollama 在本地部署,无需向云端发送 API 请求。数据始终在本地运行,适用于对隐私和响应速度有要求的场景。
  • LangChat Pro 是一个开源的 LLM 应用平台,支持集成本地模型、快速构建 AI 应用程序和 RAG 流程。
目标: 展示如何使用 Ollama 在本地部署 gpt-oss 并将其集成到 LangChat Pro 中,以构建一个私有且安全的 LLM 服务。

二、环境准备

第一步:使用 Ollama 本地部署 gpt-oss 模型

  1. 安装 Ollama
访问 Ollama 官网下载安装,根据操作系统选择 macOS、Windows 或 Linux 版本。
  1. 拉取 gpt-oss 模型
  • gpt-oss:20b(推荐日常开发机器,需 ≥ 16 GB 显存或统一内存) ollama pull gpt-oss:20b
  • gpt-oss:120b(需 ≥ 60 GB 显存或多 GPU 支持) ollama pull gpt-oss:120b
这两个模型均默认已量化为 MXFP4 格式,适合大多数本地部署场景
  1. 启动 Ollama 服务
服务默认监听在: http://localhost:11434。

五、附录

常见问题及建议
  • 模型下载速度慢
提示:配置 Docker 代理或使用图像加速服务以加快下载速度。
  • GPU 内存不足
提示:对于 GPU 内存有限的设备,请使用 gpt-oss:20b。您还可以启用 CPU 转发功能,但这样会导致响应速度变慢。
  • 端口访问问题
提示:检查防火墙规则、端口绑定和 Docker 网络设置,以确保连接正常。