"我们公司也想用 AI,但预算有限,怎么做?"——这是今年中小团队最高频的问题。好消息:2026 年的开源生态已经成熟到「堆几台显卡就能搭建一个生产级 AI 系统」的水平。坏消息:选错一个架构反悔成本很高。本文不做纸上谈兵,只给可执行方案。
一、中小企业的「真需求」是什么
与大型企业不同,中小企业部署 AI 有三个刚性约束:
| 约束 | 实际情况 | 对选型的影响 |
|---|---|---|
| 预算 | AI项目总预算 5-30 万/年 | 拒绝按年订阅高价 SaaS,优先开源 |
| 人力 | 0-2 名技术同学兼做 | 必须开箱即用,部署时间 < 1 周 |
| 安全 | 客户数据 / 内部文档不能上公有云 | 必须支持本地 / 私有化部署 |
基于这三个约束,中小企业 AI 落地的最短路径就一条:
本地部署开源模型 + RAG 知识库 + 轻量 API 服务 = 最小可行 AI 系统。
二、三个梯队,需要按预算对号入座
🟢 入门方案:Ollama + Open WebUI(零成本,1 天部署)
适用场景:需要 AI 问答能力,但还没有明确产品形态。内部知识查询、文档总结、邮件草拟等个人辅助场景。
核心组件:
- Ollama:一条命令下载运行开源模型,自动处理 CUDA/依赖
- Open WebUI:Docker 一键部署,提供类 ChatGPT 网页界面
- 模型选择:Qwen2.5 7B(中文友好)或 DeepSeek R1 8B(推理强)
硬件要求:
| 模型 | 推荐显存 | GPU 投入参考 |
|---|---|---|
| Qwen2.5 3B / Llama 3.2 3B | 4GB | RTX 2060(二手 ¥800) |
| Qwen2.5 7B / DeepSeek R1 8B | 8GB | RTX 4060(¥2,300) |
| DeepSeek V3 Lite 16B | 16GB | RTX 5070(¥5,000)+ 系统内存 32GB |
| Qwen2.5 32B | 24GB | RTX 5090(¥12,000+) |
部署步骤(总共 30 分钟):
bash
# 1. 安装 Ollama brew install ollama # macOS # 或从 ollama.com/download 下载安装包 # 2. 拉取并启动模型 ollama run qwen2.5:7b # 3. 部署 Web 界面 docker run -d -p 3000:8080 \ -v open-webui:/app/backend/data \ -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \ --name open-webui ghcr.io/open-webui/open-webui:main # 4. 浏览器打开 http://localhost:3000,完成方案优势:零成本、无依赖、数据完全本地化。
方案局限:单用户模式,无权限管理,不支持高并发 API 调用。属于「先用起来」的方案。
🟡 进阶方案:vLLM + RAGFlow + FastAPI(约 ¥2,000/月,可产品化)
适用场景:需要将 AI 能力嵌入自有产品,提供 API 服务给前端 / 客户端调用。
核心组件:
- vLLM:生产级推理引擎,比 Ollama 的吞吐量高 3~5 倍,支持并发请求
- RAGFlow(开源 RAG 框架):文档解析 + 向量检索 + 大模型回答,支持 PDF/Word/PPT 等 20+ 格式
- FastAPI:将模型和 RAG 封装为 RESTful API,供自有系统调用
- Milvus Lite:本地向量数据库,无需单独部署向量库服务
硬件配置:
- 一台搭载 RTX 5070(16GB 显存)的服务器
- 32GB 系统内存 + 512GB SSD
- 云服务器等效配置(如阿里云 ecs.gn7i-2xlarge8)约 ¥2,000/月
架构示意:
用户请求 → FastAPI 网关 ├── 路由判斷:简单问答 → vLLM (Qwen2.5 14B) └── 路由判斷:知识库查询 → RAGFlow → vLLM部署要点:
- 模型选择:DeepSeek V3 Lite(16B MoE)或 Qwen2.5 14B,中文问答质量接近商业模型 85% 水平。
- RAG 选型:优先 RAGFlow(国产开源,中文文档解析能力强),配合 BGE-M3 作为 Embedding 模型。注意:Embedding 模型也需要 GPU 算力,需留 2~3GB 显存。
- 并发控制:RTX 5070 单卡建议设置 max_num_seqs=8(vLLM 并发参数),超过后排队。
- 成本预估:服务器月租 ¥2,000 + 电力约 ¥200 = 月固定成本约¥2,200。对比 OpenAI API 同等调用量(日均 5 万 Token),年费约 ¥2,700,接近持平——但数据安全优势明显。
🔴 生产方案:多模型架构 + API 混合调用(按需组合,可控成本)
适用场景:已有明确 AI 产品,需要同时覆盖高并发简单任务和低并发复杂推理,且对成本敏感。
核心设计思路:不依赖单一模型,而是构建一个「智能路由层」。
┌─→ 简单分类/意图识别:本地 Qwen-Flash (7B) 用户请求 → API 网关 ─┼─→ 标准问答/知识库:本地 DeepSeek V3 Lite (16B) └─→ 复杂推理/代码生成:API调用 → Claude Sonnet 4.6成本拆解(按日均 10 万次请求估算):
| 请求类型 | 占比 | 模型 | 单次 Token | 日成本 |
|---|---|---|---|---|
| 简单分类 | 40% | 本地 Qwen 7B | 0 | ¥0(本地推理) |
| 标准问答 | 50% | 本地 DeepSeek 16B | 0 | ¥0(本地推理) |
| 复杂推理 | 10% | Claude Sonnet API | 2K Token | ≈ ¥25/日 |
- 月固定成本:服务器 ¥2,000 + API ¥700 =¥2,700
- 如果全部走 API:日均 10 万请求 × 0.5K Token × ¥0.15 = 月费约¥18,000(DeepSeek V4-Flash 价)
- 节省:约 85%
这个模型的底层逻辑:高频简单任务本地化,低频复杂任务走 API。每一块钱花在最需要它的地方。
三、成本全测绘:从零到一的真实花销
假设你是一家 20 人规模的 SaaS 公司,想搭建「内部 AI 知识库 + 客户问答 API」双功能系统。
一次性投入
| 项目 | 配置 | 费用 |
|---|---|---|
| GPU 服务器(自购) | RTX 5070 + 32GB + 1TB | ¥12,000~15,000 |
| 或 GPU 云服务器(租用) | ecs.gn7i-2xlarge8,月租 | ¥2,000/月 |
| 域名 + SSL 证书 | — | ¥200/年 |
| 合计(自购) | — | ¥12,200~15,200 |
| 合计(租用,首年) | — | ¥24,200 |
月度运行成本
| 项目 | 费用 |
|---|---|
| GPU 云服务器(选租用方案) | ¥2,000 |
| API 调用(复杂推理补强) | ¥500~1,000 |
| 运维人力(兼职,约 20% 工时) | ¥2,000~4,000(按 10K-20K 月薪折算) |
| 合计 | ¥4,500~7,000/月 |
对比:纯 API 方案的成本
| 方案 | 日均请求量 | 月成本 |
|---|---|---|
| 纯 DeepSeek V4-Flash API | 5 万次 | ≈ ¥9,000 |
| 纯 Claude Sonnet API | 5 万次 | ≈ ¥34,000 |
| 纯 GPT-5.5 API | 5 万次 | ≈ ¥68,000 |
| 混合方案(本文推荐) | 5 万次(90%本地 + 10% API) | ≈ ¥4,500 |
混合方案在请求量达到日均 2,000 次左右即盈亏平衡,此后请求越多,成本优势越显著。
四、踩坑预警
基于优码云团队 7 个企业项目的交付经验,以下三个坑最容易翻车:
🕳️ 坑 1:低估 RAG 文档解析的工程难度
你以为:把 PDF 扔进去就能搜。
实际上:扫描件 PDF 需要 OCR,表格 PDF 需要专门解析器(否则丢失行列结构),Word 里的图片需要多模态模型单独处理。
解法:直接用RAGFlow或Dify的内置文档解析——它们已经处理了这 20+ 种格式的兼容性问题。不要自己从零写解析器。
🕳️ 坑 2:幻觉导致「机器替你做主」
真实事故:某电商平台 AI 客服把「用户问能不能退」理解成「用户要求退」,自动执行了退款。
解法:三层兜底:
- Action 分级:只读操作(查询订单)AI 自主执行;写操作(退款、改价)必须人工确认。
- Confidence 阈值:LLM 置信度低于 0.85 时转人工。
- 回滚窗口:所有写操作保留 72 小时可回滚。
🕳️ 坑 3:推理成本失控
场景:Agent 在复杂推理中疯狂调用 LLM,Token 消耗比预期高 10 倍。
三种解法:
- 预算熔断:单次对话超过 50 万 Token 自动降级为规则引擎。
- 小模型路由:分类/意图识别用本地小模型,走通之后再调用大模型。
- Prompt 压缩:长对话摘要化,不完整拼接历史。
五、一个完整的最小可行方案(复制粘贴即用)
以下配置适用于20 人以内团队,搭建内部知识库问答系统:
硬件清单
- 1 台服务器(RTX 5070 16GB + 32GB RAM + 1TB SSD)或等效云服务器
- 内网环境(数据不出公司网络)
软件栈(全部开源,免费)
Ollama — 模型运行 Qwen2.5:14b — 主力问答模型 BGE-M3 — Embedding 模型 RAGFlow — 知识库管理 + 文档解析 + 检索 + 问答 Open WebUI — 前端聊天界面(可选)部署脚本(10 分钟)
bash
# 1. 安装 Ollama curl -fsSL https://ollama.com/install.sh | sh # 2. 下载模型 ollama pull qwen2.5:14b ollama pull bge-m3 # 3. 部署 RAGFlow(Docker) git clone https://github.com/infiniflow/ragflow.git cd ragflow/docker docker compose up -d # 4. 在 RAGFlow 管理界面创建知识库 # 访问 http://localhost:80 # 上传企业文档(PDF/Word/PPT),系统自动解析入库 # 5. 配置 RAGFlow 使用本地 Ollama 模型 # 设置 → 模型提供商 → 添加 Ollama → 填入 http://host.docker.internal:11434上线后效果:
- 员工用自然语言查询内部文档「去年的合同模板在哪?」「报销流程是什么?」
- 新员工入职不用翻 wiki,直接问 AI
- 客服团队可提取知识库 API 嵌入工单系统
六、决策框架:我的团队适合哪种方案?
1. 先问自己:数据能不能上公有云? ├── 能 → 直接用 DeepSeek V4-Flash API(最省心,¥1/MTok) └── 不能 → 继续 ↓ 2. 团队有没有懂 Docker + Linux 的技术同学? ├── 没有 → Ollama + Open WebUI 一键部署(零门槛) └── 有 → 继续 ↓ 3. 日均 API 请求量是否超过 2,000 次? ├── 不是 → Ollama 本地方案 + 按需 API 补强 └── 是 → 混合方案(vLLM + 智能路由 + API 补强)参考来源:FlowPix Ollama部署指南、优码云企业Agent落地实战、黑豹社中国企业AI应用采纳调研报告(2026)、各开源项目官方文档