GLM-4-9B-Chat-1M部署教程：AWS EC2 g5.xlarge实例部署GLM-4-9B-Chat-1M-洪萨配资

GLM-4-9B-Chat-1M部署教程：AWS EC2 g5.xlarge实例部署GLM-4-9B-Chat-1M

想不想让AI一口气读完一本200万字的小说，还能跟你讨论剧情、总结要点？这听起来像是科幻电影里的场景，但现在，你只需要一台普通的云服务器就能实现。今天，我就手把手带你，在AWS的g5.xlarge实例上，部署这个能处理百万字长文的“大胃王”模型——GLM-4-9B-Chat-1M。

这个模型最大的魅力在于，它把“长文本处理”的门槛拉低到了个人开发者也能轻松玩转的程度。9B的参数规模，经过INT4量化后，只需要大约9GB显存，这意味着一张消费级的RTX 3090显卡就能流畅运行。而它支持的1M上下文长度，相当于一次性能“吞下”约200万个汉字，无论是分析整本小说、处理超长合同，还是总结海量会议记录，它都能轻松应对。

通过这篇教程，你将学会如何在云端快速搭建起这个强大的长文本对话助手，并立即通过网页界面开始使用它。我们开始吧。

1. 环境准备：启动你的AWS GPU实例

首先，我们需要一台带有GPU的云服务器。AWS的g5.xlarge实例搭载了NVIDIA A10G显卡（24GB显存），性能强劲且性价比高，完美契合我们的需求。

1.1 创建并启动EC2实例

登录你的AWS管理控制台，进入EC2服务页面，点击“启动实例”。

为实例命名：比如glm-4-9b-chat-1m-server。
选择AMI（操作系统镜像）：这是最关键的一步。为了省去安装驱动和CUDA的麻烦，我们直接使用AWS预置的“Deep Learning AMI GPU PyTorch”系列镜像。在搜索框中输入“Deep Learning AMI GPU PyTorch”，选择一个较新的版本（例如，基于Ubuntu 20.04或22.04的）。这个镜像已经预装了NVIDIA驱动、CUDA、PyTorch等深度学习所需的全套环境。
选择实例类型：在筛选器中，选择“g”系列，然后找到并选中g5.xlarge。它的配置是4个vCPU，16GB内存，以及1张24GB显存的NVIDIA A10G GPU。
创建或选择密钥对：这是你后续通过SSH登录服务器的凭证。如果你没有现成的，创建一个新的密钥对（例如glm-key）并妥善保管下载的.pem文件。
配置网络和安全组：确保你的安全组（防火墙规则）允许以下端口：
- SSH (22)：用于远程连接。
- 自定义TCP (7860)：这是我们后续Web UI服务要用的端口。
- 自定义TCP (8888)：这是Jupyter服务的默认端口，方便我们进行一些调试。
配置存储：根卷建议至少50GB，因为模型文件本身就有10多GB。

检查所有配置无误后，点击“启动实例”。等待几分钟，实例状态变为“运行中”。

1.2 连接到你的云服务器

实例启动后，在EC2控制台找到它的“公有IPv4地址”。打开你的终端（Linux/Mac）或PuTTY（Windows），使用SSH连接。

# 将下面的 IP_ADDRESS 替换为你的实例公有IP，将 KEY_PAIR.pem 替换为你的密钥文件路径 ssh -i /path/to/your/KEY_PAIR.pem ubuntu@IP_ADDRESS

连接成功后，你就进入了你的云端GPU服务器。首先，我们可以验证一下GPU是否可用：

# 查看GPU信息 nvidia-smi

你应该能看到类似下面的输出，确认A10G显卡已被识别且驱动正常。

+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================+ | 0 NVIDIA A10G On | 00000000:00:1E.0 Off | 0 | | 0% 33C P8 18W / 300W | 0MiB / 23028MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+

2. 部署GLM-4-9B-Chat-1M模型服务

Deep Learning AMI已经帮我们准备好了Python和pip环境。接下来，我们使用vLLM这个高性能推理引擎来部署模型，它能极大提升吞吐量并优化显存使用。

2.1 安装vLLM

vLLM的安装非常简单。在SSH终端中执行：

# 使用pip安装vLLM及其Web服务器组件 pip install vllm

安装过程可能需要几分钟。完成后，你可以通过pip list | grep vllm来确认安装成功。

2.2 下载并启动模型服务

GLM-4-9B-Chat-1M的模型权重已经开源在HuggingFace等社区。vLLM支持直接从HuggingFace仓库拉取模型。我们使用量化后的INT4版本，这样显存占用更少，在A10G上运行更从容。

创建一个简单的启动脚本start_server.py：

# start_server.py from vllm import LLM, SamplingParams from vllm.entrypoints.openai import api_server # 指定模型路径（HuggingFace仓库ID） model = "THUDM/glm-4-9b-chat-1m" # 启动OpenAI兼容的API服务器 # --model: 指定模型 # --served-model-name: 服务名称，可自定义 # --api-key: 设置一个简单的API密钥（可选，用于基础验证） # --port: 服务端口，我们设为5000 # --quantization: 使用AWQ量化（INT4），显著减少显存占用 # --max-model-len: 设置最大模型上下文长度，这里我们设为模型支持的1M # --enable-chunked-prefill: 启用分块预填充，优化长序列生成性能 # --max-num-batched-tokens: 设置最大批处理token数，提升吞吐 # 注意：以下参数需要根据你的显存情况调整。对于24GB的A10G，使用量化后运行1M上下文是可行的。 if __name__ == "__main__": # 实际上，我们更常用命令行启动。但这里用代码示意参数。 # 真实部署时，建议使用下面的命令行。 print("请使用命令行启动服务，命令如下：")

实际上，我们更倾向于使用命令行直接启动，这样更灵活。在终端中运行以下命令：

# 在后台启动vLLM OpenAI API服务器 python -m vllm.entrypoints.openai.api_server \ --model THUDM/glm-4-9b-chat-1m \ --served-model-name glm-4-9b-chat-1m \ --api-key “your-simple-key” \ --port 5000 \ --quantization awq \ --max-model-len 1048576 \ --enable-chunked-prefill \ --max-num-batched-tokens 8192 \ > vllm.log 2>&1 &

命令解释：

--quantization awq：使用AWQ量化技术，将模型精度降至INT4，显存占用从~18GB降至~9GB。
--max-model-len 1048576：设置最大上下文长度为1,048,576 tokens，即1M。
--enable-chunked-prefill和--max-num-batched-tokens 8192：这是vLLM的优化参数，能显著提升长文本处理的吞吐量，官方测试可提升3倍性能。
> vllm.log 2>&1 &：将服务日志输出到vllm.log文件，并在后台运行。

运行命令后，你可以用tail -f vllm.log查看日志，等待模型加载完成。首次运行需要从网上下载模型权重（约9GB），时间取决于你的网络速度。

2.3 测试API服务

模型加载完成后，我们可以简单测试一下API是否正常工作。新开一个SSH终端窗口，或者使用curl命令测试：

# 测试聊天补全接口 curl http://localhost:5000/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer your-simple-key" \ -d '{ "model": "glm-4-9b-chat-1m", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己。"} ], "max_tokens": 100 }'

如果返回一个包含模型回复的JSON响应，说明API服务部署成功！

3. 搭建用户友好的Web界面（Open WebUI）

虽然API很好用，但有个网页界面会更方便。我们将使用Open WebUI（原Ollama WebUI），它是一个功能强大且美观的开源ChatGPT风格界面，支持连接多种后端（包括OpenAI兼容的vLLM API）。

3.1 使用Docker安装Open WebUI

Open WebUI官方推荐使用Docker安装，最简单。首先确保Docker已安装（Deep Learning AMI通常已预装）。

# 拉取并运行Open WebUI容器 docker run -d \ --name open-webui \ -p 7860:8080 \ -e OLLAMA_API_BASE_URL=http://host.docker.internal:5000/v1 \ # 指向我们本地的vLLM API -e WEBUI_SECRET_KEY="a-random-secret-key-for-security" \ # 设置一个安全密钥 -v open-webui:/app/backend/data \ # 持久化数据 --restart always \ ghcr.io/open-webui/open-webui:main

参数解释：

-p 7860:8080：将容器内的8080端口映射到宿主机的7860端口。这样我们就能通过http://<你的服务器IP>:7860访问界面。
-e OLLAMA_API_BASE_URL=...：这是关键！它告诉Open WebUI后端API的地址。host.docker.internal是一个特殊的DNS名称，指向宿主机（即我们的EC2实例）。
-v open-webui:/app/backend/data：将数据卷挂载到容器，确保你的聊天记录、设置等信息在容器重启后不会丢失。

3.2 配置Open WebUI连接vLLM

容器启动后，打开浏览器，访问http://<你的EC2公有IP>:7860。

首次访问会要求你创建管理员账户。请使用教程开头提供的演示账号信息（账号：kakajiang@kakajiang.com，密码：kakajiang）进行登录，以体验预置环境。请注意，此为公开演示账号，请勿用于处理任何敏感或私人信息。
登录后，点击左下角设置图标（⚙），进入“设置” -> “连接”页面。
在“Ollama”部分，确保“Ollama API Base URL”已经自动填充为http://host.docker.internal:5000/v1（就是我们启动容器时设置的环境变量）。
点击“测试连接”，如果显示成功，说明Open WebUI已经连上了我们的vLLM后端。

3.3 开始你的百万字长文对话

现在，一切就绪！你可以在Open WebUI的聊天框中：

进行普通对话：像使用ChatGPT一样提问。
处理长文本：直接将整篇长文档（如PDF、TXT文本）复制粘贴进去，或者使用文件上传功能。模型会利用其1M的上下文能力，理解全文并回答你的问题。
使用高级功能：尝试系统预设的“长文本总结”、“信息抽取”等提示词模板，高效处理文档。

例如，你可以上传一份技术白皮书，然后提问：“请用500字总结这份文档的核心观点”或者“文档中提到了哪几种解决方案？请列出并简要比较”。

4. 常见问题与优化建议

部署过程中可能会遇到一些小问题，这里提供一些解决思路。

4.1 模型加载失败或显存不足

问题：启动vLLM时出现CUDA out of memory错误。
解决：
1. 确认你使用了--quantization awq参数加载INT4量化模型。
2. 如果仍需更多显存，可以尝试在vLLM命令中增加--gpu-memory-utilization 0.9，稍微提高GPU内存利用率（但不要超过0.95）。
3. 极端情况下，可以减小--max-model-len，例如设为524288（512K），但这会牺牲模型处理超长文本的能力。

4.2 WebUI无法连接到vLLM API

问题：Open WebUI测试连接失败。
解决：
1. 首先在服务器上运行curl http://localhost:5000/v1/models，确认vLLM API本身是否存活。
2. 检查Docker容器日志：docker logs open-webui，看是否有错误信息。
3. 确保Open WebUI容器启动命令中的OLLAMA_API_BASE_URL设置正确。如果vLLM运行在宿主机，使用http://host.docker.internal:5000/v1通常是有效的。

4.3 生成速度慢

问题：模型回复生成时间较长。
优化：
1. 确保vLLM启动时使用了--enable-chunked-prefill和--max-num-batched-tokens 8192优化参数。
2. 在Open WebUI或API请求中，适当调整max_tokens参数，不要一次性请求生成过长的文本。
3. g5.xlarge的A10G性能足够，通常不是瓶颈。速度慢可能源于首次生成时的缓存构建，后续生成会变快。

5. 总结

通过以上步骤，我们成功在AWS EC2 g5.xlarge实例上，搭建了一个功能完整的GLM-4-9B-Chat-1M长文本对话服务。回顾一下我们的成果：

低成本高能力：利用云上按需付费的GPU实例和开源的量化模型，我们以极低的成本获得了一个能处理百万字上下文的企业级AI能力。
全栈部署：从底层的GPU驱动、CUDA环境（通过Deep Learning AMI），到中层的vLLM高性能推理引擎，再到顶层的Open WebUI用户界面，我们构建了一个稳定、易用的完整应用。
开箱即用：部署完成后，你立即拥有了一个可通过网页访问的AI助手，它能阅读和分析超长文档，进行多轮深度对话，执行代码，调用工具，极大地提升了处理长文本信息的效率。

这个部署方案不仅适用于个人学习和测试，其稳定性和性能也足以支撑一些小规模的生产应用或团队内部工具。你可以在此基础上，进一步探索如何将其集成到你的工作流中，比如自动分析项目文档、总结客户反馈、或是构建一个智能知识库问答系统。