🤍 前端开发工程师、技术日更博主、已过CET6
🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1
🕠牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》
🍚蓝桥云课签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入门到实战全面掌握 uni-app》
文章目录
- 一、架构设计核心原则(实战版)
- 二、标准分层架构(企业通用)
- 三、工程规范(直接进团队文档)
- 1)API 规范
- 2)Prompt 规范
- 3)RAG 规范
- 4)部署规范
- 5)安全规范
- 6)成本规范
- 7)日志规范
- 四、上线前必做检查(防崩清单)
- 五、一句话总结(最精髓)
一、架构设计核心原则(实战版)
统一入口,不裸调模型
所有业务 → 网关层 → 模型服务,绝不前端直连第三方API。能规则就规则,能检索就检索,最后才大模型
查询、计算、固定流程 → 用代码/数据库
知识问答 → RAG
自然语言生成 → 大模型模型与业务解耦
今天用GPT,明天换文心/通义/Llama,业务代码不动。必须有缓存、限流、降级
缓存扛重复请求,限流防账单爆炸,降级保证服务不死。输入必校验,输出必审核
输入防注入、防恶意prompt;输出防幻觉、违规、越权。流式优先,异步兜底
对话用stream,长任务用异步,不阻塞、体验好。多模型路由,动态选择
简单问题小模型,复杂问题强模型,敏感问题本地模型。一切可观测:日志、埋点、监控
调用量、耗时、token、成本、错误率、幻觉率,全都要看得见。
二、标准分层架构(企业通用)
接入层
鉴权、限流、流量管控、协议统一业务层
意图识别、状态管理、流程控制、工具调用能力层
RAG检索、函数调用、插件系统、多模态模型调度层
路由、熔断、重试、负载均衡模型适配层
统一封装OpenAI/文心/通义/Claude/本地模型护栏层
敏感词、越权行为、违规输出、事实校验日志与治理层
审计、成本、质量、复盘
三、工程规范(直接进团队文档)
1)API 规范
- 统一使用类 OpenAI 格式:
/v1/chat/completions - 必传参数:request_id、user_id、scene、stream
- 统一返回结构:code、data、message、usage
2)Prompt 规范
- 固定结构:角色 + 约束 + 资料 + 格式 + 示例
- 禁止超长prompt,必须走RAG
- 禁止动态拼接用户输入无过滤
- 温度: factual=0.10.3,创意=0.40.7
3)RAG 规范
- 文档分段:200~500 token
- 召回数量:3~8段
- 召回策略:向量 + 关键词混合
- 必加引用来源,减少幻觉
4)部署规范
- 模型服务容器化(Docker)
- 外网模型走代理,统一出口IP白名单
- 流式返回用SSE,不轮询
- 量化优先:INT4/INT8,降低显存
5)安全规范
- 用户输入过滤:对抗指令、敏感词、越权请求
- 输出审核:违规、极限词、越权承诺
- 关键业务必须人工审核
- 绝不把业务数据、隐私数据传入公网模型
6)成本规范
- 相同请求必须缓存
- 历史对话自动截断
- 简单请求强制走低成本模型
- 每日/每月额度硬限制
7)日志规范
- 必记录:输入、输出、耗时、token、场景、模型
- 不记录敏感信息(手机号、身份证、密钥)
- 全链路可追踪
四、上线前必做检查(防崩清单)
- 超时设置
- 重试机制
- 熔断降级
- 缓存策略
- 额度限制
- 敏感词过滤
- 输出审核
- 转人工兜底
- 全链路日志
- 监控告警
五、一句话总结(最精髓)
大模型应用要做好,就三件事:
架构分层解耦,工程规范稳定,安全护栏兜底。