【文本大模型】从0开始 - 本地部署一个ChatGLM对话模型（基于WebUI）

从0开始 - 本地部署一个ChatGLM对话模型（基于WebUI）

白熊9808

1380人浏览 · 2025-06-18 23:50:09

白熊9808 · 2025-06-18 23:50:09 发布

在这里插入图片描述

【从0开始】本地部署一个ChatGLM对话模型（基于WebUI）

本文将带你从零开始，在本地部署一个开源大语言模型 —— ChatGLM3-6B，并通过 WebUI 实现可视化对话界面。无论你是想构建自己的 AI 助手，还是想做产品原型演示，这篇文章将为你打下基础。

一、项目简介

1.1 什么是 ChatGLM？

ChatGLM 是由清华大学 KEG 实验室和智谱 AI 联合推出的开源中文大语言模型，拥有完整的指令微调能力，支持多轮对话，特别适合中文语境下的自然语言理解与生成任务。

目前主流版本包括：

ChatGLM-6B（初代）
ChatGLM2-6B（性能提升，支持推理优化）
ChatGLM3-6B（最新版本，支持多模态接口、插件、函数调用等）

1.2 为什么选择 WebUI 部署？

传统的 transformers 调用方式需要写代码、配置环境，不利于非开发者使用。而 WebUI 提供了一种“即开即用”的模型交互方式，让我们可以像操作网页一样，与本地模型进行多轮对话。

二、环境准备

本教程以 Windows 10/11 + NVIDIA GPU + Conda 环境为例，支持 Linux/MacOS 平替。建议使用 24GB 显存以上 GPU（RTX 3090/4090/A6000），或选择量化模型运行。

2.1 安装 Anaconda

官网下载地址：https://www.anaconda.com/products/distribution

安装完成后，在终端中创建一个新的 Python 环境：

conda create -n chatglm python=3.10 -y
conda activate chatglm

2.2 安装 PyTorch

根据你使用的 CUDA 版本选择合适的 PyTorch：

# 示例：CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

若不确定 CUDA 版本，可使用：

nvcc --version

三、克隆项目并下载模型

项目仓库地址（官方）：https://github.com/THUDM/ChatGLM3

git clone https://github.com/THUDM/ChatGLM3.git
cd ChatGLM3

安装依赖：

pip install -r requirements.txt

下载 ChatGLM3-6B 模型权重：

方式一：从 HuggingFace 下载（推荐）

pip install huggingface_hub
huggingface-cli login  # 登录或输入 Token

然后运行：

python download_model.py --repo_id THUDM/chatglm3-6b

或者手动前往：https://huggingface.co/THUDM/chatglm3-6b 进行下载，解压至 ChatGLM3/chatglm3-6b 目录下。

四、运行 WebUI 对话界面

项目中已集成 Gradio WebUI 界面。

执行以下命令：

python web_demo.py

运行成功后，会看到类似输出：

Running on local URL: http://127.0.0.1:7860

打开浏览器，访问该地址，即可开始与 ChatGLM 进行交互。

五、实测效果

ChatGLM3 对于中文理解和对话能力有较强表现：

指令理解：

用户：请总结以下内容：……
代码生成：

用户：帮我写一个爬虫，抓取CSDN博客标题
知识问答：

用户：解释一下 Transformer 的工作原理

模型还能记住上下文，进行简单多轮对话。

六、常见问题与解决方案

6.1 显存不足报错

CUDA out of memory

解决办法：

启用 4-bit / 8-bit 量化加载模型
使用 transformers 的 AutoGPTQ 方式
或换用 ChatGLM2-6B int4 模型版本

6.2 无法启动 WebUI

检查是否已安装 gradio：

pip install gradio

或者端口占用导致服务未启动，尝试：

python web_demo.py --server-port 7861

6.3 CPU也能跑吗？

可以，但速度极慢。推荐最低 16GB 内存 + 模型量化版本运行。

七、进阶建议

使用 FastAPI 接口调用模型：适合嵌入自己的网站或应用中
用 LoRA 微调自己的模型：自定义应答风格或知识库
构建 RAG 问答系统：结合向量检索和本地文档，实现智能问答

八、总结

通过本文，你已经掌握了：

本地部署 ChatGLM3 的完整流程
通过 WebUI 与模型交互的方法
遇到常见问题时的排查方式

本地大模型不再是遥不可及的“科研玩具”，通过合理的部署与配置，人人都可以拥有自己的私有大模型助手。

下一篇：《使用 LMDeploy 对 ChatGLM3 模型加速部署（支持 INT4）》敬请期待。

欢迎关注本专栏，持续更新关于大模型部署、微调、推理优化的实战教程。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插