news 2026/1/16 23:10:37

文心黑板报|3分钟掌握文心多模态模型API调用方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
文心黑板报|3分钟掌握文心多模态模型API调用方法

《文心黑板报》是您了解文心大模型的第一站。在这里,我们将第一时间解读文心系列模型的核心功能与落地场景,同步其前沿的技术突破与研发进展,并提供从零开始的实用入门教程。

欢迎大家来到文心黑板报第一期!

11月11日,百度文心4.5多模态思考模型正式开源,仅3B激活参数,效果媲美顶级大模型,在文档与图表理解能力、理科与文科综合推理、通用视觉推理等任务中表现优异。

基于社区开发者对调用API进行测试和使用的需求,目前我们已在星河社区AI Studio、PH8大模型MaaS平台以及Novita平台完成了该模型的部署上线。本期,文心黑板报为大家带来ERNIE-4.5-VL-28B-A3B-Thinking实战篇,通过模型API调用指南教大家快速上手体验ERNIE-4.5-VL-28B-A3B-Thinking多模态思考模型能力,实现餐饮结算单识别、数学题解答等任务。

更多模型能力欢迎查看:

仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!


在星河社区AI Studio调用文心大模型

学习实训,高效开发

飞桨星河社区是面向AI学习者的人工智能学习与实训社区。飞桨星河社区以文心大模型和飞桨为核心,集开放数据、开源算法、云端GPU算力及大模型开发工具于一体,在大模型范式下,为开发者提供模型与应用的高效开发环境。

快速开始

  • 进入模型体验场:AI Studio Playground支持选择不同版本的文心大模型,自定义调整参数信息和系统提示词。

    模型体验场:

    https://aistudio.baidu.com/playground

  • 使用WEB-UI体验:通过选择当前模型,点击立即体验模型效果,即可快速上手使用。

选取了一张即将用于报销流程的餐饮结算单作为测试样本,测试了ERNIE-4.5-VL-28B-Thinking模型的效果,结果显示,该模型在文档解析任务识别准确,其解析效果值得称赞。

  • 使用高性能API调用:获取统一的API-key,根据文档中的调用说明提示进行配置,该方式支持用户学习实训及项目开发,兼容openai接口。

from openai import OpenAIclient = OpenAI( api_key="###########################", # Access Token属于个人账户的重要隐私信息,请谨慎管理,切忌随意对外公开, base_url="https://aistudio.baidu.com/llm/lmapi/v3", # aistudio 大模型 api 服务域名)chat_completion = client.chat.completions.create( model="ernie-4.5-vl-28b-a3b-thinking", messages=[ { "role": "user", "content": "在这里输入你的问题" }], stream=True, extra_body={ "penalty_score": 1 }, max_completion_tokens=128000, temperature=0.6, top_p=0.95, frequency_penalty=0, presence_penalty=0)for chunk in chat_completion: if not chunk.choices or len(chunk.choices) == 0: continue if hasattr(chunk.choices[0].delta, "reasoning_content") and chunk.choices[0].delta.reasoning_content: print(chunk.choices[0].delta.reasoning_content, end="", flush=True) else: print(chunk.choices[0].delta.content, end="", flush=True)

在PH8大模型MaaS平台调用文心大模型

企业级服务保障,7×24小时稳定运行

PH8大模型MaaS平台作为文心大模型合作伙伴,为企业及开发者提供ERNIE-4.5-VL-28B-A3B-Thinking API调用能力;除该模型之外,也在第一时间支持了文心A47B、A3B参数的文本模型和多模态模型,先来看看文心多模态思考模型的数学解题任务效果。

PH8大模型MaaS平台:

https://ph8.co/home

快速开始

  • 进入模型广场:在模型广场找到ERNIE-4.5-VL-28B-A3B-Thinking模型。

  • 使用高性能API调用:获取统一的API-key,根据文档中的调用说明提示进行配置,该方式支持用户高并发调用,兼容openai接口。

from openai import OpenAIimport osbase_url = os.environ.get("OPENAI_BASE_URL", "https://ph8.co/openai/v1")api_key = "sk-xxx"########################### ###########################client = OpenAI(base_url=base_url, api_key=api_key)########################### 基础模式 ###########################response = client.chat.completions.create( model="ernie-4.5-vl-28b-a3b-thinking", messages=[ {"role": "user", "content": "What are some fun things to do in New York?"}], max_tokens=10240, temperature=0.0, stream=True,)for chunk in response: print(chunk.choices[0].delta.content or "", end="", flush=True)print()

更多学习与实践指南

自文心大模型开源以来,文心团队深度拆解文心系列开源模型的技术亮点与多场景实战效果,倾力打造精彩课程内容!诚邀各位小伙伴们回看学习,进一步夯实技能;更期待大家踊跃动手实测,直观感受文心大模型的最新强大能力!

课程回放:

  • 文心大模型开源系列公开课:

https://aistudio.baidu.com/course/introduce/35258

  • 从大模型服务调用到应用实战:

https://aistudio.baidu.com/course/introduce/33550

星河社区:

https://aistudio.baidu.com/playground

实测反馈:欢迎大家添加小助手积极反馈模型的“超神时刻”(good case)和翻车现场”(bad case)。您的意见一旦被采纳,将获得精美礼品1份~

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/15 18:57:24

谷歌SigLIP:当“极简”击败“更大”,AI军备竞赛的拐点到了?

今天讲的是 训练策略(重点是损失函数),跟模型架构没有关系导读:在AI领域,“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中,研究人员用一个简单的…

作者头像 李华
网站建设 2026/1/16 11:42:32

LobeChat页面停留时间延长技巧

LobeChat页面停留时间延长技巧 在AI助手产品竞争日益激烈的今天,一个关键指标正被越来越多开发者关注:用户平均停留时长。我们常看到这样的场景——用户打开某个聊天界面,输入一个问题,得到回复后便迅速关闭页面。这种“即问即走…

作者头像 李华
网站建设 2026/1/13 6:18:04

收藏必备!2025年AI Agent七大方向全解析,小白也能吃透大模型

2025年已成为AI Agent发展的关键年份。随着技术的成熟和应用场景的拓展,AI智能体正从简单的聊天机器人进化成为能够真正理解、规划并执行复杂任务的数字伙伴。今天我们就来盘点一下当前热门的AI Agent方向和未来趋势。 一、记忆型Agent:突破“金鱼记忆”…

作者头像 李华
网站建设 2026/1/16 1:07:45

EmotiVoice语音合成多通道输出支持:立体声、环绕声设置

EmotiVoice语音合成多通道输出支持:立体声、环绕声设置 在游戏里听到队友一声“我从右边掩护你”,却分不清声音来自左耳还是右耳?在VR世界中,NPC的对话始终“飘”在正前方,毫无空间方位感?这些体验上的割裂…

作者头像 李华
网站建设 2025/12/28 13:51:26

EmotiVoice推理速度优化经验分享(附代码)

EmotiVoice推理速度优化经验分享(附代码) 在语音合成技术正快速渗透进智能助手、有声读物、虚拟偶像乃至游戏对话系统的今天,用户对“像人一样说话”的期待越来越高。EmotiVoice作为一款支持多情感表达和零样本声音克隆的开源TTS引擎&#xf…

作者头像 李华