news 2026/4/23 0:40:10

【AI大模型入门(三)】大模型API接入、Ollama本地部署、SDK接入

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AI大模型入门(三)】大模型API接入、Ollama本地部署、SDK接入

上篇文章:【AI大模型入门(二)】提示词工程进阶

目录

1.AI 接入方式选型:云端 vs 本地

2.API 接入

3.本地私有化部署

3.1下载并安装Ollama

3.2一键拉取并运行模型

修改模型存储路径

拉取模型

4.SDK接入

5.问题与思考


导语:作为开发者,光会在网页端和 AI 聊天是不够的。我们需要让 AI 融入到我们的业务流、脚本和后端服务中。本文将带你实战大模型接入的三种核心方式:API 远程调用、开源模型本地部署和SDK与官方客户端库。

1.AI 接入方式选型:云端 vs 本地

我们要将大模型能力接入自己的应用,通常面临两个选择:

  1. API 接入(闭源/商业大模型):

    1. 优势:速度快、无需关心硬件(不用买显卡)、模型智商通常最高(如 GPT-5、Claude 3.7)。

    2. 劣势:数据需出境/上云(有隐私合规风险),按 Token 消耗计费。

  2. 本地部署(开源大模型):

    • 优势:绝对的数据隐私,断网可用,一次性硬件投资后无限次使用。

    • 劣势:需要高性能 GPU,运维成本高,模型能力受限于本地算力(通常使用蒸馏版本如 8B、14B 级别模型)。

2.API 接入

这是目前最主流,最便捷的接⼊⽅式,尤其适用于快速开发、集成到现有应⽤以及不想管理硬件资源的场景。

通过 HTTP 请求(通常是 RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI (GPT),Anthropic (Claude),Google (Gemini),百度文心⼀⾔,阿⾥通义千问,智谱 AI等。

典型流程就是:

  1. 注册账号并获取API Key:在模型提供商的平台上注册,获得身份验证的密钥。
  2. 查阅API文档:了解请求的端点、参数(如模型名称,提示词,温度,最大生成长度等)和返回的数据格式。
  3. 构建HTTP请求:在你的代码中,使用HTTP客户端库(如Python的request)构建一个包含API Key(通常在Header中)和请求体(JSON格式,包含你的提示和参数)的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的API地址,然后解析返回的JSON数据,提取生成的文本。

以OpenAI为例,官网:https://platform.openai.com/home

接入流程文档:https://developers.openai.com/api/docs/quickstart

调用:

curl "https://api.openai.com/v1/responses" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{ "model": "gpt-5", "input": "Write a one-sentence bedtime story about a unicorn." }'

或者使用HTTP客户端,此处以Apifox(Apifox官网

为例:

API参考:https://developers.openai.com/api/reference/overview

3.本地私有化部署

大模型本地部署,这种方式就是将开源的大型语言模型(如:qwen,kimi,Gemma等)部署在自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重或配置文件),使用专门的推理框架在本地服务器或GPU上加载并运行模型,然后通过类似API的方式进行交互。

如果你公司的数据极其敏感,不允许上传给第三方接口,那么本地部署开源模型是唯一选择。

流程是:

  1. 获取模型:从 Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重
  2. 准备环境:配置具有⾜够显存(如 NVIDIA GPU)的服务器,安装必要的驱动和推理框架
  3. 选择推理框架:使用专为⽣产环境设计的框架来部署模型,例如

vLLM:特别注重⾼吞吐量的推理服务,性能极佳。

TGI:Hugging Face 推出的推理框架,功能全⾯。

Ollama:⾮常用户友好,可以⼀键拉取和运⾏模型,适合快速入门和本地开发。

LM Studio:提供图形化界⾯,让本地运⾏模型像使⽤软件⼀样简单。

4. 启动服务并调⽤:框架会启动⼀个本地 API 服务器(如 http://localhost:8000 ),你可以像调⽤云端 API ⼀样向这个本地地址发送请求。

Ollama是目前最好用的本地 LLM 运行与管理工具。

3.1下载并安装Ollama

安装 Ollama:访问Ollama 官网下载对应系统(Windows/Mac/Linux)的安装包并傻瓜式安装。

验证:安装完成后,Ollama默认会启动,访问:http://127.0.0.1:11434/

或者使用cmd访问:

3.2一键拉取并运行模型

Ollama可以管理和部署模型,我们使用之前要先拉取模型。

修改模型存储路径

1.配置系统环境变量:

变量名: OLLAMA_MODELS 变量值: ${⾃定义路径}

2.通过Ollama界面来进行设置

设置完成后,重启Ollama。

拉取模型

查找模型:https://ollama.com/search

以拉取表现惊艳的qwen3.6:35b为例。

这后面的数组是参数大小,参数越大,能力越强。

  • 35b:350 亿参数。

  • q4_K_M:代表使用了 4-bit 的中等(Medium)量化技术。就像把一张 4K 的高清原图稍微压缩了一下,肉眼看不出画质损失,但文件体积直接缩小了三分之二。

打开命令行,输入:

ollama run qwen3.6:35b

Ollama 会自动下载权重并加载到内存/显存中。下载完成后,直接在终端就能和它对话了!

API 调用本地模型:Ollama 默认会在本地11434端口提供兼容 API。你的代码可以无缝切换为本地模型:

curl http://localhost:11434/api/chat \ -d '{ "model": "qwen3.6", "messages": [{"role": "user", "content": "Hello!"}] }'

4.SDK接入

这并非⼀种独立的接⼊⽅式,而是对第⼀种 API 接⼊的封装和简化。模型提供商通常会发布官方编程语⾔SDK,为我们封装好了底层的 HTTP 请求细节,提供⼀个更符合编程习惯的、语⾔特定的函数库。

目前业界大多遵循了 OpenAI 的接口规范格式(包括 DeepSeek、Qwen 很多接口也完全兼容)使用官方 Python SDK 调用极其简单。

1. 安装依赖:

pip install openai

2. 在PyCharm中创建一个.py文件

from openai import OpenAI # 很多国内大模型也兼容这套 API,只需替换 base_url 和 api_key client = OpenAI( api_key="your-api-key", base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)" # 假设使用 DeepSeek 的 API ) response = client.chat.completions.create( model="deepseek-reasoner", # 调用带思考过程的推理模型 messages=[ {"role": "system", "content": "你是一个资深的 Python 架构师。"}, {"role": "user", "content": "请解释一下什么是协程?"} ] ) # 打印回复 print(response.choices[0].message.content)

仅仅十几行代码,你就可以把顶级大模型的智力接入到你自己的系统、微信机器人或者数据处理脚本中。

5.问题与思考

对于以上三种接入方式,我们该如何选择?

看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯⼀选择。

看技术实力和资源:如果团队没有强⼤的 MLops(机器学习运维)能⼒,也没有预算购买和维护

GPU 服务器,云端 API 是更实际的选择。

看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的 API 调⽤费

⽤。反之,⼩规模应⽤ API 更划算。

看定制需求:如果只是使⽤模型的通⽤能⼒,云端 API ⾜够。如果需要用自己的数据微调模型,则 需要选择⽀持微调的 API 或直接本地部署。

实际上,只要是原生LLM,⽆论怎么接⼊都有限制。

  • 输⼊⻓度限制:所有 LLM 都有固定的输⼊⻓度(如4K、8K、128K、400K Token)。我们⽆法将⼀本⼏百⻚的 PDF 或整个公司知识库直接塞给模型

  • 缺乏私有知识:模型的训练数据有截⽌日期,且不包含我们的私⼈数据(如公司内部⽂档、个⼈笔记等)。让它基于这些知识回答问题,⾮常困难。

  • 复杂任务处理能⼒弱:原⽣ API 本质是⼀个“⼀问⼀答”的接口。对于需要多个步骤的复杂任务(如“分析这份财报,总结要点,并⽣成⼀份PPT⼤纲”),我们需要⾃⼰编写复杂的逻辑来拆解任务、多次调⽤ API 并管理中间状态。
  • 输出格式不可控:虽然可以通过提⽰词要求模型输出 JSON 或特定格式,但它仍可能产⽣格式错误或不合规的内容,需要我们⾃⼰编写后处理代码来校验和清洗。

像 LangChain 这样的框架,正是为了系统性地解决这些问题⽽诞⽣的。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 0:37:09

为什么你的Docker镜像在Quantinuum H1系统上启动失败?:量子门保真度校准、噪声感知挂载、QIR字节码兼容性三重诊断法

第一章:Docker 量子适配教程Docker 量子适配并非指在容器中运行真实量子硬件,而是构建可复现、高保真、符合量子计算开发范式的容器化环境——涵盖 Qiskit、Cirq、PennyLane 等主流框架的版本对齐、依赖隔离与跨平台一致性保障。该适配核心在于解决量子软…

作者头像 李华
网站建设 2026/4/23 0:33:59

STEP 7-MicroWIN SMART实战:从零构建定时器与计数器的工业控制逻辑

1. 初识STEP 7-MicroWIN SMART与工业控制基础 第一次打开STEP 7-MicroWIN SMART软件时,很多新手会被满屏的梯形图符号和指令表搞得一头雾水。别担心,这就像学开车要先认识方向盘和油门一样简单。我们手头的S7-200 SMART PLC就像个智能开关箱,…

作者头像 李华
网站建设 2026/4/23 0:32:55

量子计算加速太阳能预测的混合神经网络架构

1. 量子计算加速太阳能预测的背景与挑战太阳能作为最具潜力的可再生能源之一,其发电量预测的准确性直接影响到电网调度效率。传统预测方法主要基于统计模型和经典机器学习,但面临两大核心瓶颈:首先是气象数据的多维度非线性特征难以被传统模型…

作者头像 李华
网站建设 2026/4/23 0:29:17

2026年03月CCF-GESP编程能力等级认证Python编程五级真题解析

本文收录于专栏《Python等级认证CCF-GESP真题解析》,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 一、单选题(每题 2 分,共 30 分) 第 1 题 关于 Python 实现的单链表、双链表和循环链表,下列说法正确的是 ( )。 A. 在 Python 实现的单链表中,若已知任意结点对…

作者头像 李华
网站建设 2026/4/23 0:19:24

拆解LSM-Tree:为什么RocksDB的写性能这么猛?与B+树对比的深度实验

LSM-Tree与B树的终极对决:从原理到实战的性能拆解 当我们需要处理海量写入请求时,传统数据库的B树索引往往会成为性能瓶颈。这时,一种名为LSM-Tree(Log-Structured Merge Tree)的数据结构开始崭露头角,它正…

作者头像 李华