news 2026/5/6 19:11:07

AI大模型部署大模型 -为什么要部署这么多大模型-实战篇

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI大模型部署大模型 -为什么要部署这么多大模型-实战篇

背景

前文讲了一些为啥部署这么多大模型,今天我们来开始实战,留存文档,备忘。

本文部署选择-国内常用为主

组件选择技术核心原因替代方案不选替代的原因
DifyDocker1. 官方支持Docker部署
2. 依赖复杂(数据库/Redis等)
3. 需要环境隔离
直接安装依赖冲突,维护困难
DeepSeek/QwenOllama1. 模型格式支持好(GGUF)
2. 一条命令运行
3. 社区生态完善
vLLM/TGI更复杂,需要更多配置
Embedding/RerankXinference1. 专门为向量模型优化
2. 支持多模型并发
3. 生产级API和管理
单独部署需自建服务框架,成本高

技术匹配矩阵

需求特征DifyLLM推理向量模型匹配技术
多服务编排✅需要❌不需要❌不需要Docker Compose
简单易用❌不是重点✅核心需求⚠️中等需求Ollama最简
高性能API✅需要✅需要✅核心需求Xinference专业
模型管理❌不需要✅需要✅核心需求Ollama/Xinference
生产就绪✅必须⚠️可选✅必须Xinference企业级

一句话选择逻辑

  • Dify用Docker:因为它是一套复杂Web应用,需要多个组件协同
  • LLM用Ollama:因为你只想快速跑起来测试,不是生产部署
  • 向量模型用Xinference:因为这是生产核心服务,需要性能和稳定性

国内最低成本部署方案(严格按三主线)

一、三主线最低成本方案总览

主线组件最低成本方案月费用替代方案选择理由
主线1腾讯云 + Docker + Dify腾讯云轻量服务器(2核4G6M)¥48/月阿里云轻量(¥60)最便宜的有公网IP服务器
主线2Ollama + DeepSeek/QwenAutoDL RTX 3090(按量计费)约¥300-500自己显卡/租赁性价比最高的GPU方案
主线3Xinference + Embedding/Rerank与主线2共享AutoDL实例¥0(已含)单独租实例充分利用GPU资源

总月成本:¥350-550(最经济方案)


二、主线1:腾讯云服务器部署Dify(最便宜方案)

1. 购买最便宜服务器

购买路径

  1. 访问:腾讯云轻量服务器
  2. 选择"2核4G6M"配置
  3. 地域:上海/广州(网络最好)
  4. 镜像:Ubuntu 22.04
  5. 时长:1个月(先测试)
  6. 价格:¥48元/月

2. 一键安装Docker和Dify(纯命令复制)

SSH登录服务器后,逐行执行:

# 1. 更新系统sudoaptupdate&&sudoaptupgrade -y# 2. 安装Docker(官方脚本)curl-fsSL https://get.docker.com -o get-docker.shsudoshget-docker.sh# 3. 安装Docker Composesudocurl-L"https://github.com/docker/compose/releases/download/v2.23.0/docker-compose-$(uname-s)-$(uname-m)"-o /usr/local/bin/docker-composesudochmod+x /usr/local/bin/docker-compose# 4. 下载Dify配置mkdir-p ~/dify&&cd~/difywgethttps://github.com/langgenius/dify/raw/main/docker/docker-compose.yamlwgethttps://github.com/langgenius/dify/raw/main/docker/.env.example -O .env# 5. 修改配置(最小化资源)cat>docker-compose.override.yaml<<EOF version: '3' services: api: deploy: resources: limits: memory: 1G cpus: '1' ports: - "5001:5001" worker: deploy: resources: limits: memory: 1G cpus: '1' web: ports: - "3000:3000" EOF# 6. 启动Difydocker-composeup -d# 7. 查看状态(等待2分钟)sleep120&&docker-composeps

3. 配置防火墙(必需)

在腾讯云控制台操作:

  1. 进入轻量服务器管理页面
  2. 点击"防火墙" → 添加规则
  3. 开放端口:3000、5001、80、443
  4. 保存

4. 访问Dify

  • 地址:http://你的服务器IP:3000
  • 初始账号:admin@example.com
  • 初始密码:查看容器日志获取
    docker-composelogs web|grep"password"

三、主线2:AutoDL部署Ollama(最低成本GPU)

1. 选择最经济GPU实例

AutoDL操作步骤

  1. 注册:AutoDL官网(手机号注册)
  2. 充值:¥100元(按量计费先充)
  3. 租用实例:
    • 地区:北京A(最便宜)
    • GPU:RTX 3090(24G显存,性价比最高)
    • 镜像:Miniconda + Python 3.8
    • 计费模式:按量计费(约¥2-3/小时)
    • 开机:按需开机,不用时关机

2. 安装Ollama(复制执行)

在AutoDL终端中执行:

# 1. 安装Ollamacurl-fsSL https://ollama.com/install.sh|sh# 2. 启动Ollama服务ollama serve&# 保持后台运行# 3. 在另一个终端拉取模型(二选一)# 方案A:DeepSeek-Coder(6.7B,编程强)ollama pull deepseek-coder:6.7b# 方案B:Qwen2.5-7B(中文理解好)ollama pull qwen2.5:7b# 4. 测试模型ollama run qwen2.5:7b"你好"# 输入后按Ctrl+D结束

3. 设置内网穿透(让腾讯云能访问)

使用AutoDL提供的代理

  1. 在实例详情页找到"自定义服务"
  2. 添加映射:
    • 本地端口:11434(Ollama默认)
    • 协议:HTTP
  3. 获得代理地址:类似https://xxxx.proxy.autodl.com
  4. 测试访问:
    curlhttps://xxxx.proxy.autodl.com/api/tags
    应返回模型列表

四、主线3:同一AutoDL部署Xinference(不额外花钱)

1. 在主线2的实例上安装Xinference

继续在AutoDL终端执行

# 1. 安装Xinferencepipinstall"xinference[all]"-U# 2. 启动Xinference(使用不同端口)xinferencelocal--host0.0.0.0 --port9997&# 3. 启动Web UI(管理界面)xinferencelocal--host0.0.0.0 --port9998--web-ui&

2. 部署Embedding和Rerank模型

# 1. 部署Embedding模型(二选一)# 方案A:BGE-M3(中文最强)xinference launch --model-name"bge-m3"--model-format"pytorch"--endpoint"http://localhost:9997"# 方案B:BGE-small-zh(轻量快速)xinference launch --model-name"bge-small-zh-v1.5"--model-format"pytorch"--endpoint"http://localhost:9997"# 2. 部署Rerank模型(二选一)# 方案A:BGE-reranker-v2xinference launch --model-name"bge-reranker-v2"--model-format"pytorch"--endpoint"http://localhost:9997"# 方案B:bce-reranker-base(轻量)xinference launch --model-name"bce-reranker-base_v1"--model-format"pytorch"--endpoint"http://localhost:9997"

3. 配置第二个内网穿透

  1. 回到AutoDL控制台
  2. 再添加一个自定义服务:
    • 本地端口:9997(Xinference API)
    • 协议:HTTP
  3. 获得第二个代理地址

4. 验证服务

# 测试Embeddingcurl-X POST"你的代理地址/v1/embeddings"\-H"Content-Type: application/json"\-d'{"model": "bge-m3", "input": "测试文本"}'# 测试Rerankcurl-X POST"你的代理地址/v1/rerank"\-H"Content-Type: application/json"\-d'{"model": "bge-reranker-v2", "query": "问题", "documents": ["文档1", "文档2"]}'

五、三主线连接配置

在Dify中配置模型端点

  1. 登录Dify(http://服务器IP:3000
  2. 进入"模型供应商" → “添加模型”

配置Ollama(主线2):

  • 模型类型:Ollama
  • 基础URL:https://你的ollama代理地址
  • 模型名称:qwen2.5:7bdeepseek-coder:6.7b

配置Xinference(主线3):

  • 模型类型:OpenAI兼容
  • 基础URL:https://你的xinference代理地址/v1
  • Embedding模型:bge-m3
  • Rerank模型:bge-reranker-v2

配置工作流

  1. 在Dify创建"知识库应用"
  2. 上传PDF/TXT文档
  3. 配置处理流程:
    用户提问 → Embedding检索 → Rerank重排序 → LLM生成 → 返回答案

六、成本控制与优化表

成本项控制方法月节省风险
腾讯云服务器轻量服务器(¥48)不升级¥200+性能有限
AutoDL GPU按量计费 + 不用时关机¥1000+模型需重载
网络流量国内服务器 + AutoDL国内节点¥100+延迟较低
模型存储只用必要模型,及时删除¥50+重新下载耗时

每日关机策略

# 创建定时任务(AutoDL实例)# 每天凌晨2点关机,早上9点开机(如需要)# 通过AutoDL控制台"定时任务"设置# 或使用API控制

七、常见问题解决表

问题现象解决方法
Dify访问慢页面加载久1. 检查服务器带宽
2. 优化Docker资源限制
Ollama无响应代理访问失败1. 检查AutoDL实例状态
2. 重新配置内网穿透
Xinference模型加载失败显存不足1. 改用小模型
2. 关闭不需要的服务
网络延迟高问答响应慢1. 确保所有服务在国内节点
2. 使用CDN加速
费用超预期AutoDL扣费快1. 设置消费限额
2. 严格按时关机

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 2:46:07

探索xnbcli:解锁游戏资源定制的全能工具

探索xnbcli&#xff1a;解锁游戏资源定制的全能工具 【免费下载链接】xnbcli A CLI tool for XNB packing/unpacking purpose built for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/xn/xnbcli 想让你的《星露谷物语》角色穿上独特服装&#xff1f;或是拥…

作者头像 李华
网站建设 2026/5/5 12:55:55

Windows控制器虚拟化完全指南:ViGEmBus驱动使用与开发详解

Windows控制器虚拟化完全指南&#xff1a;ViGEmBus驱动使用与开发详解 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus ViGEmBus是一款专业的Windows虚拟游戏控制器驱动&#xff0c;能够完美模拟Xbox 360和DualShock 4等主流游戏控制…

作者头像 李华
网站建设 2026/5/2 2:36:09

3步突破下载瓶颈:如何让你的文件传输速度提升20倍?

3步突破下载瓶颈&#xff1a;如何让你的文件传输速度提升20倍&#xff1f; 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 我们是否都曾经历过这样的场景&#xff1a;重要文件…

作者头像 李华
网站建设 2026/4/30 15:48:51

告别语言壁垒:XUnity.AutoTranslator游戏翻译工具全面解析

告别语言壁垒&#xff1a;XUnity.AutoTranslator游戏翻译工具全面解析 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator Unity游戏实时翻译技术正在改变全球玩家的游戏体验。XUnity.AutoTranslator作为一款…

作者头像 李华
网站建设 2026/5/4 21:09:41

DownKyi视频下载工具技术解析:8K超高清内容获取方案

DownKyi视频下载工具技术解析&#xff1a;8K超高清内容获取方案 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、去水印等&#xf…

作者头像 李华