news 2026/5/4 19:31:19

大模型接入指南:API、本地部署与 SDK 三种接入

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型接入指南:API、本地部署与 SDK 三种接入

文章目录

    • LLM的接入方式
      • 1. API接入
      • 2. 本地接入
        • > 下载并安装Ollama
        • > 拉取模型
        • > 测试
      • 3. SDK接入
      • 4. 问题与思考

LLM的接入方式

如果需要自己写一个AI应用来实现相关AI行为,则需要自行接入LLM。
常见的原生LLM(不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接入方式有三种:【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】

1. API接入

这是目前最主流、最便捷的接入方式,尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。
通过HTTP请求(通常是RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI(GPT-4o)、Anthropic(Claude)、Google(Gemini)、百度文心一言、阿里通义千问、智谱AI等。
典型流程就是:

  1. 注册账号并获取API Key:在模型提供商的平台上注册,获得用于身份验证的密钥。
  2. 查阅API文档:了解请求的端点、参数(如模型名称、提示词、温度、最大生成长度等)和返回的数据格式。
  3. 构建HTTP请求:在你的代码中,使用HTTP客户端库(如Python的requests)构建一个包含API Key(通常在Header中)和请求体(JSON格式,包含你的提示和参数)的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的API地址,然后解析返回的JSON数据,提取生成的文本。

以deepseek为例,官网地址:https://platform.deepseek.com/usage


点击创建API Key,创建完成后保存API Key。


调用:

curlhttps://api.deepseek.com/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer${DEEPSEEK_API_KEY}"\-d'{ "model": "deepseek-v4-pro", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Hello!"} ], "thinking": {"type": "enabled"}, "reasoning_effort": "high", "stream": false }'

使用 Postman 或者Apifox等客户端发起调用

2. 本地接入

大模型本地部署,这种方式就是将开源的大型语言模型(如Llama、ChatGLM、Qwen等)部署在你自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重和配置文件),使用专门的推理框架在本地服务器或GPU上加载并运行模型,然后通过类似API的方式进行交互。
典型流程是:

  1. 获取模型:从Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重。
  2. 准备环境:配置具有足够显存(如NVIDIA GPU)的服务器,安装必要的驱动和推理框架。
  3. 选择推理框架:使用专为生产环境设计的框架来部署模型,例如:
  • vLLM:特别注重高吞吐量的推理服务,性能极佳。
  • TGI:Hugging Face推出的推理框架,功能全面。
  • Ollama:非常用户友好,可以一键拉取和运行模型,适合快速入门和本地开发。
  • LM Studio:提供图形化界面,让本地运行模型像使用软件一样简单。
  1. 启动服务并调用:框架会启动一个本地API服务器(如http://localhost:8000),你可以像调用云端API一样向这个本地地址发送请求。
> 下载并安装Ollama

Ollama是一款专为本地部署和运行大型语言模型(LLM)设计的开源工具,旨在简化大型语言模型(LLM)的安装、运行和管理。它支持多种开源模型(如qwen、deepseek、LLaMA),并提供简单的API接口,方便开发者调用,适合开发者和企业快速搭建私有化AI服务。

Ollama官网:https://ollama.ai

> 拉取模型

Ollama可以管理和部署模型,我们使用之前,需要先拉取模型。
修改模型存储路径
模型默认安装在C盘个人目录下C:\Users\XXX.ollama,可以修改ollama的模型存储路径,使得每次下载的模型都在指定的目录下。有以下两种方式:

  1. 配置系统环境变量
    变量名:OLLAMA_MODELS
    变量值:${自定义路径}
  2. 通过Ollama界面来进行设置
    设置完成后,重启Ollama。
> 测试

模型拉取之后,可以通过命令行和AI模型对话。

3. SDK接入

这并非一种独立的接入方式,而是对第一种API接入的封装和简化。模型提供商通常会发布官方编程语言SDK,为我们封装好了底层的HTTP请求细节,提供一个更符合编程习惯的、语言特定的函数库。
典型流程(以OpenAI Python SDK为例):
安装库:pip install openai
安装OpenAI SDK后,可以创建一个名为example.py的文件并将示例代码复制到其中。

fromopenaiimportOpenAI client=OpenAI(api_key="your-api-key")response=client.responses.create(model="gpt-5",input="介绍⼀下你⾃⼰。")print(response.output_text)

相比直接构造HTTP请求,代码更简洁、更易读、更易维护。

4. 问题与思考

对于以上三种接入方式,我们该如何选择?

  • 看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯一选择。
  • 看技术实力和资源:如果团队没有强大的MLops(机器学习运维)能力,也没有预算购买和维护GPU服务器,云端API是更实际的选择。
  • 看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的API调用费用。反之,小规模应用API更划算。
  • 看定制需求:如果只是使用模型的通用能力,云端API足够。如果需要用自己的数据微调模型,则需要选择支持微调的API或直接本地部署。

实际上,只要是原生LLM,无论怎么接入都有限制。为什么?

  1. 输入长度限制:所有LLM都有固定的输入长度(如4K、8K、128K、400K Token)。我们无法将一本几百页的PDF或整个公司知识库直接塞给模型。
  2. 缺乏私有知识:模型的训练数据有截止日期,且不包含我们的私人数据(如公司内部文档、个人笔记等)。让它基于这些知识回答问题,非常困难。
  3. 复杂任务处理能力弱:原生API本质是一个“一问一答”的接口。对于需要多个步骤的复杂任务(如“分析这份财报,总结要点,并生成一份PPT大纲”),我们需要自己编写复杂的逻辑来拆解任务、多次调用API并管理中间状态。
  4. 输出格式不可控:虽然可以通过提示词要求模型输出JSON或特定格式,但它仍可能产生格式错误或不合规的内容,需要我们自己编写后处理代码来校验和清洗。

像LangChain这样的框架,正是为了系统性地解决这些问题而诞生的。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 19:30:15

PKSM:8个世代宝可梦存档管理的终极技术解决方案

PKSM:8个世代宝可梦存档管理的终极技术解决方案 【免费下载链接】PKSM Gen I to GenVIII save manager. 项目地址: https://gitcode.com/gh_mirrors/pk/PKSM PKSM是一款开源、跨世代的宝可梦存档管理工具,支持从第一世代到第八世代的完整存档操作…

作者头像 李华
网站建设 2026/5/4 19:28:50

使用 NuGet Package Manager在 Visual Studio 中安装和管理包

可以使用 Microsoft Visual Studio 中的 NuGet Package Manager UI 在项目和解决方案中轻松安装、卸载和更新 NuGet 包。 先决条件 Visual Studio 2026,其中包含任何与.NET相关的工作负荷。 可以从 visualstudio.microsoft.com 免费安装 2026 Community 版本&#…

作者头像 李华
网站建设 2026/5/4 19:26:46

3个步骤解决ModOrganizer2游戏路径配置错误导致Mod失效问题

3个步骤解决ModOrganizer2游戏路径配置错误导致Mod失效问题 【免费下载链接】modorganizer Mod manager for various PC games. Discord Server: https://discord.gg/ewUVAqyrQX if you would like to be more involved 项目地址: https://gitcode.com/gh_mirrors/mo/modorg…

作者头像 李华
网站建设 2026/5/4 19:26:45

5分钟解锁WebSite-Downloader:让任何网站成为你的永久离线知识库

5分钟解锁WebSite-Downloader:让任何网站成为你的永久离线知识库 【免费下载链接】WebSite-Downloader 项目地址: https://gitcode.com/gh_mirrors/web/WebSite-Downloader 你是否曾因为网络不稳定而无法访问重要的在线文档?是否担心心爱的博客突…

作者头像 李华
网站建设 2026/5/4 19:16:25

XCOM 2模组管理器终极指南:如何用AML启动器告别游戏崩溃烦恼

XCOM 2模组管理器终极指南:如何用AML启动器告别游戏崩溃烦恼 【免费下载链接】xcom2-launcher The Alternative Mod Launcher (AML) is a replacement for the default game launchers from XCOM 2 and XCOM Chimera Squad. 项目地址: https://gitcode.com/gh_mir…

作者头像 李华