Clawdbot Web网关部署教程：Qwen3-32B模型服务链路追踪（Jaeger）-洪萨配资

Clawdbot Web网关部署教程：Qwen3-32B模型服务链路追踪（Jaeger）

1. 为什么需要这套部署方案

你有没有遇到过这样的问题：明明模型跑起来了，用户却说“响应慢”“有时候卡住”“不知道哪一步出错了”？尤其是当Qwen3-32B这种大参数量模型接入Web聊天平台后，请求路径变长——从浏览器 → Clawdbot前端 → Web网关 → Ollama代理 → 模型推理服务，任意一环出问题，都很难快速定位。

这不是单纯“调通就行”的场景。真实业务中，你需要知道：

用户发的一条消息，到底卡在网关转发？还是Ollama加载模型超时？
是某次对话触发了显存溢出，还是Jaeger能帮你抓到那段异常的Span？
当多个用户并发提问时，哪个环节最先成为瓶颈？

本教程不只教你“怎么把Qwen3-32B挂上去”，而是带你完整构建一条可观测的服务链路：从Clawdbot前端发起请求，经Web网关路由、Ollama代理调度，最终抵达Qwen3-32B模型，并通过Jaeger实现全链路追踪。每一步都可查、可测、可优化。

全程无需修改模型代码，不依赖云厂商APM，所有组件本地可控，适合私有化AI平台建设者、AI运维工程师和希望真正掌控推理链路的技术负责人。

2. 整体架构与数据流向

2.1 服务拓扑图（文字版还原）

我们先用一句话理清各组件角色和连接关系：

浏览器访问Clawdbot前端页面 → 前端通过HTTP请求发送至http://localhost:8080/v1/chat/completions→ 该地址由Clawdbot Web网关监听 → 网关将请求反向代理至http://localhost:18789/v1/chat/completions→ 此处是Ollama提供的Qwen3-32B模型API服务 → 模型返回结果后，逐层回传至前端。

而Jaeger的注入点位于两个关键位置：

Web网关层：在Clawdbot网关中启用OpenTelemetry HTTP中间件，为每个入站请求生成Trace ID；
Ollama代理层：通过自定义代理脚本（非直接调用ollama run），在转发前后手动创建Span，标注模型加载、token流式响应等耗时节点。

整个链路共形成4个核心Span：

frontend:request（浏览器发起）
gateway:proxy（网关接收并转发）
ollama:call（代理调用Ollama API）
qwen3:inference（模型实际推理，含prompt处理+streaming生成）

它们自动串联成一条Trace，时间轴清晰，错误自动标红，毫秒级延迟一目了然。

2.2 各组件职责简明对照表

组件	端口	核心职责	是否需埋点
Clawdbot Web网关	`8080`	接收前端请求，做基础鉴权、日志记录、反向代理	必须（HTTP中间件）
Ollama代理服务	`18789`	封装对`ollama serve`的调用，添加OpenTelemetry Span上报	必须（自定义Python代理）
Ollama引擎	`11434`（默认）	加载Qwen3-32B模型，提供原始API	❌ 无需（Ollama原生不支持OTel）
Jaeger Collector	`14268`	接收Span数据，写入内存或后端存储	⚙ 部署即启用
Jaeger UI	`16686`	可视化查询Trace，按Service/Operation过滤	🖥 浏览器访问

注意：Ollama本身不支持OpenTelemetry，因此不能直接在ollama run qwen3:32b中埋点。我们必须用一层轻量代理来“包裹”它——这也是本教程的关键设计。

3. 环境准备与依赖安装

3.1 基础运行环境（单机验证版）

以下操作均在一台具备32GB+内存、NVIDIA GPU（推荐RTX 4090 / A100）的Linux服务器（Ubuntu 22.04 LTS）上完成。如使用Mac或Windows WSL，请确保Docker Desktop已启用。

# 更新系统 & 安装基础工具 sudo apt update && sudo apt install -y curl wget git python3-pip docker.io docker-compose # 启动Docker服务 sudo systemctl enable docker && sudo systemctl start docker # 验证Docker权限（避免后续sudo） sudo usermod -aG docker $USER newgrp docker # 刷新组权限

3.2 安装Ollama并加载Qwen3-32B模型

Ollama是当前最轻量、最易集成的大模型本地运行引擎。注意：Qwen3-32B需至少24GB显存，若GPU不足，请改用qwen3:4b进行链路验证。

# 下载并安装Ollama（官方一键脚本） curl -fsSL https://ollama.com/install.sh | sh # 启动Ollama服务（后台运行） ollama serve & # 拉取Qwen3-32B模型（约22GB，需稳定网络） ollama pull qwen3:32b # 验证模型可调用（本地测试） curl http://localhost:11434/api/chat -H "Content-Type: application/json" \ -d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "你好"}], "stream": false }' | jq '.message.content'

若返回“你好！很高兴见到你。”，说明模型已就绪。

3.3 部署Jaeger All-in-One（开发验证用）

我们采用Jaeger官方推荐的all-in-one镜像，内置Collector、Query、Agent，适合单机调试：

# 创建jaeger目录并进入 mkdir -p ~/clawdbot-jaeger && cd ~/clawdbot-jaeger # 编写docker-compose.yml cat > docker-compose.yml << 'EOF' version: '3.8' services: jaeger: image: jaegertracing/all-in-one:1.55 ports: - "16686:16686" # UI - "14268:14268" # Collector HTTP endpoint - "14250:14250" # Collector gRPC endpoint environment: - COLLECTOR_ZIPKIN_HOST_PORT=:9411 restart: unless-stopped EOF # 启动Jaeger docker-compose up -d # 等待30秒，检查是否正常运行 sleep 30 && curl -s http://localhost:16686 | head -n 1 | grep -q "Jaeger" && echo " Jaeger UI已启动，访问 http://localhost:16686"

提示：首次访问Jaeger UI可能需等待1–2分钟初始化。服务启动后，左上角Service下拉菜单应能看到clawdbot-gateway和ollama-proxy（稍后注册）。

4. Clawdbot Web网关配置与Jaeger集成

4.1 获取Clawdbot网关源码并启用OTel中间件

Clawdbot Web网关基于Go语言开发，其核心是gin框架。我们需在路由入口处注入OpenTelemetry HTTP中间件。

# 克隆Clawdbot网关（假设使用开源版本，此处以v0.2.1为例） git clone https://github.com/clawdbot/web-gateway.git ~/clawdbot-gateway cd ~/clawdbot-gateway # 安装OpenTelemetry Go SDK依赖 go mod init clawdbot-gateway go get go.opentelemetry.io/otel@v1.25.0 go get go.opentelemetry.io/otel/sdk@v1.25.0 go get go.opentelemetry.io/otel/exporters/jaeger@v1.21.0 go get go.opentelemetry.io/otel/propagation@v1.24.0 go get go.opentelemetry.io/otel/trace@v1.24.0

4.2 修改main.go，添加链路追踪逻辑

打开~/clawdbot-gateway/main.go，在func main()开头附近插入以下初始化代码（替换原有gin.Default()）：

// main.go 新增部分（放在 router := gin.Default() 之前） import ( "go.opentelemetry.io/otel" "go.opentelemetry.io/otel/exporters/jaeger" "go.opentelemetry.io/otel/propagation" "go.opentelemetry.io/otel/sdk/resource" sdktrace "go.opentelemetry.io/otel/sdk/trace" semconv "go.opentelemetry.io/otel/semconv/v1.24.0" "net/http" ) func initTracer() func(context.Context) error { exp, err := jaeger.New(jaeger.WithCollectorEndpoint(jaeger.WithEndpoint("http://localhost:14268/api/traces"))) if err != nil { log.Fatal(err) } tp := sdktrace.NewTracerProvider( sdktrace.WithBatcher(exp), sdktrace.WithResource(resource.MustNewWithAttributes( semconv.SchemaURL, semconv.ServiceNameKey.String("clawdbot-gateway"), semconv.ServiceVersionKey.String("0.2.1"), )), ) otel.SetTracerProvider(tp) otel.SetTextMapPropagator(propagation.TraceContext{}) return tp.Shutdown } func main() { cleanup := initTracer() defer cleanup(context.Background()) router := gin.New() // 添加OTel中间件：自动为每个HTTP请求创建Span router.Use(otelgin.Middleware("clawdbot-gateway")) // ... 原有路由注册保持不变（如 proxy to :18789） }

注意：需额外安装gin-contrib/otel中间件包：

go get github.com/gin-contrib/otel@v0.2.0

4.3 配置反向代理指向Ollama代理（非直连Ollama）

关键点来了：网关不直接代理到Ollama的11434端口，而是指向我们即将编写的Python代理服务（18789）。修改网关配置文件（如config.yaml）：

# config.yaml proxy: target: "http://localhost:18789" # 不再是 11434！ timeout: 300s

保存后，编译并启动网关：

go build -o clawdbot-gateway . ./clawdbot-gateway --config config.yaml

此时访问http://localhost:8080/health应返回{"status":"ok"}，且Jaeger UI中Service列表将出现clawdbot-gateway。

5. 构建Ollama代理服务（18789端口）并注入Span

5.1 为什么必须自建代理？

Ollama的/api/chat接口不支持自定义Header透传（如traceparent），且无回调钩子。若网关直接代理到11434，Jaeger将无法关联ollama:callSpan。因此，我们用Python快速搭建一层带OTel能力的代理：

# 创建代理目录 mkdir -p ~/ollama-proxy && cd ~/ollama-proxy # 初始化虚拟环境 python3 -m venv venv source venv/bin/activate # 安装依赖 pip install fastapi uvicorn opentelemetry-api opentelemetry-sdk opentelemetry-exporter-jaeger-thrift requests

5.2 编写带追踪的Ollama代理（app.py）

# app.py from fastapi import FastAPI, Request, Response from fastapi.responses import StreamingResponse import httpx import asyncio from opentelemetry import trace from opentelemetry.exporter.jaeger.thrift import JaegerExporter from opentelemetry.sdk.trace import TracerProvider from opentelemetry.sdk.trace.export import BatchSpanProcessor from opentelemetry.trace.propagation.tracecontext import TraceContextTextMapPropagator from opentelemetry.instrumentation.httpx import HTTPXClientInstrumentor # 初始化Tracer provider = TracerProvider() jaeger_exporter = JaegerExporter( agent_host_name="localhost", agent_port=6831, ) provider.add_span_processor(BatchSpanProcessor(jaeger_exporter)) trace.set_tracer_provider(provider) # 自动注入HTTPX客户端追踪 HTTPXClientInstrumentor().instrument() app = FastAPI(title="Ollama Qwen3 Proxy", version="0.1") OLLAMA_URL = "http://localhost:11434" @app.api_route("/v1/chat/completions", methods=["POST", "GET"]) async def proxy_chat(request: Request): tracer = trace.get_tracer(__name__) # 从请求Header提取父Span上下文 carrier = {} for key, value in request.headers.items(): if key.lower() in ["traceparent", "tracestate"]: carrier[key] = value ctx = TraceContextTextMapPropagator().extract(carrier) # 创建新的Span：ollama:call with tracer.start_as_current_span("ollama:call", context=ctx) as span: span.set_attribute("ollama.model", "qwen3:32b") span.set_attribute("http.method", request.method) # 构造Ollama请求 url = f"{OLLAMA_URL}/api/chat" headers = dict(request.headers) body = await request.body() # 异步调用Ollama async with httpx.AsyncClient() as client: try: resp = await client.post( url, content=body, headers=headers, timeout=300.0 ) # 记录响应状态 span.set_attribute("http.status_code", resp.status_code) if resp.status_code != 200: span.set_status(trace.StatusCode.ERROR) span.record_exception(Exception(f"Ollama returned {resp.status_code}")) # 流式响应处理（关键！保持streaming体验） async def stream_response(): async for chunk in resp.aiter_bytes(): yield chunk return StreamingResponse( stream_response(), status_code=resp.status_code, media_type=resp.headers.get("content-type", "application/json") ) except Exception as e: span.set_status(trace.StatusCode.ERROR) span.record_exception(e) raise e

5.3 启动Ollama代理服务

# 启动代理（监听18789端口） uvicorn app:app --host 0.0.0.0 --port 18789 --reload

此时访问http://localhost:18789/v1/chat/completions（用curl测试）应能正常返回Qwen3-32B响应，且Jaeger中将出现ollama-proxy服务。

6. 发起一次完整请求并查看Jaeger追踪效果

6.1 用curl模拟前端请求（带Trace上下文）

# 生成一个测试Trace ID（简化版，实际由网关生成） TRACE_ID=$(openssl rand -hex 16) SPAN_ID=$(openssl rand -hex 8) # 发送带traceparent头的请求 curl -X POST http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -H "traceparent: 00-${TRACE_ID}-${SPAN_ID}-01" \ -d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "请用三句话介绍量子计算"}], "stream": false }' | jq '.choices[0].message.content'

6.2 在Jaeger UI中定位这条Trace

打开http://localhost:16686
Service选择clawdbot-gateway
Operation选择POST /v1/chat/completions
点击“Find Traces”
在结果列表中找到最新一条，点击查看详情

你将看到一条4段式垂直时间轴：

最上层：clawdbot-gateway（8080端口接收）
第二层：ollama-proxy（18789端口转发）
第三层：http.client（代理内部调用Ollama 11434）
底层：qwen3:inference（隐含在Ollama内部，可通过日志补充）

每段标注了精确耗时（如clawdbot-gateway: 12ms,ollama-proxy: 4.2s），点击任一Span可查看Tag详情：http.status_code=200,ollama.model=qwen3:32b,error=false。

进阶提示：若某次请求超时，Jaeger会自动标红ollama-proxySpan，并显示status=ERROR。点击后可查看完整异常堆栈，精准定位是Ollama加载慢，还是网络抖动。

7. 常见问题与排错指南

7.1 Jaeger看不到`ollama-proxy`服务？

检查代理是否启动：curl http://localhost:18789/docs应返回FastAPI文档页
检查代理日志是否有Starting new HTTP connection类输出
检查app.py中jaeger_exporter的agent_host_name是否为localhost（Docker内需改为host.docker.internal）

7.2 网关报502 Bad Gateway？

确认Ollama服务正在运行：ollama list应显示qwen3:32b状态为running
确认代理服务监听18789端口：ss -tuln | grep 18789
检查网关配置中proxy.target是否拼写正确（末尾无斜杠）

7.3 Trace中缺少`qwen3:inference`Span？

Ollama原生不支持OTel，此Span需通过日志解析或Prometheus指标间接体现
建议在Ollama启动时添加--log-level debug，观察llm_load_tensors等关键阶段耗时
后续可结合ollama ps命令监控GPU显存占用，作为推理瓶颈辅助判断

7.4 如何让前端也参与链路？

只需在Clawdbot前端JS中添加OpenTelemetry Web SDK（@opentelemetry/sdk-trace-web），并在fetch调用前注入traceparentHeader。因篇幅所限，此部分未展开，但原理与后端一致：前端生成Span → 注入Header → 网关提取并延续。

8. 总结：你已掌握一条可落地的AI服务可观测链路

回顾整个过程，你不是在配置一堆孤立组件，而是在构建一个有呼吸、可诊断、能进化的AI服务神经网络：

Clawdbot Web网关不再是黑盒反向代理，它成了链路的“守门人”，记录每一次请求的起点；
Ollama代理服务不再是简单转发，它成了链路的“翻译官”，把模型调用转化为可度量的Span；
Jaeger不再是静态UI，它成了你的“AI手术室监控屏”，毫秒级看清每一处延迟与异常；
Qwen3-32B不再是神秘黑箱，它的推理耗时、失败率、并发表现，全部暴露在阳光下。

这套方案没有引入Kubernetes、Istio或复杂Sidecar，全部基于轻量级、可验证、易维护的开源组件。它不承诺“全自动根因分析”，但保证“每一毫秒都可追溯”。

下一步，你可以：

将Jaeger后端切换为Elasticsearch，支持长期Trace存储与SQL查询；
在ollama-proxy中增加缓存层，对高频问答做LRU缓存，降低模型调用频次；
为Clawdbot前端添加性能水印（Performance Mark），将首屏渲染、输入响应等前端指标也纳入同一Trace。

真正的AI工程化，始于“看见”。而你，已经迈出了最关键的一步。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Clawdbot Web网关部署教程：Qwen3-32B模型服务链路追踪（Jaeger）