news 2026/4/15 12:46:01

深度解析Gemini 2.5模型的技术升级与开发新特性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析Gemini 2.5模型的技术升级与开发新特性

Gemini 2.5:更智能的模型与更强大的开发工具

Gemini 2.5 Pro持续受到开发者青睐,成为编码任务的最佳模型,而2.5 Flash也通过新的更新变得更好。同时,正在为模型引入新的能力,包括“深度思考”——这是一个为2.5 Pro设计的实验性增强推理模式。

2.5 Pro性能表现

新版的2.5 Pro旨在帮助开发者构建更丰富、更具交互性的Web应用程序。除了在学术基准测试上的强劲表现外,新版2.5 Pro现已在流行的编码排行榜WebDev Arena上领先,ELO得分为1415。同时,它在LMArena的所有排行榜上也处于领先地位,该榜单评估模型在不同维度上的人类偏好。凭借其100万个令牌的上下文窗口,2.5 Pro拥有最先进的长上下文和视频理解性能。

自从集成了LearnLM后,2.5 Pro也成为领先的学习模型。在评估其教学法和有效性的头对头比较中,教育工作者和专家在多样化的场景中更倾向于选择Gemini 2.5 Pro。并且,它在构建学习型AI系统所依据的五个学习科学原则的每一项上都超越了顶级模型。

深度思考

通过探索其思考能力的前沿,开始测试一种名为“深度思考”的增强推理模式。该模式采用了新的研究技术,使模型能够在回应前考虑多种假设。

2.5 Pro深度思考在2025年美国数学奥林匹克竞赛(当前最难的数学基准之一)上取得了令人印象深刻的分数。它也在竞争级编码的困难基准LiveCodeBench上领先,并在测试多模态推理的MMMU上取得了84.0%的分数。

由于正在用2.5 Pro深度思考定义前沿,因此需要额外时间进行更多的前沿安全评估,并进一步听取安全专家的意见。为此,计划先通过API向可信的测试者提供该功能以收集反馈,然后再广泛发布。

更出色的2.5 Flash

2.5 Flash是为速度和低成本设计的高效主力模型,现在它在许多方面都变得更好了。在推理、多模态、代码和长上下文等关键基准上都有所改进,同时效率更高,在评估中使用的令牌数量减少了20-30%。

新的2.5 Flash现已面向开发者开放预览,企业版也开放预览,并在应用程序中向所有人开放。在六月初,它将正式发布供生产使用。

新的Gemini 2.5能力

原生音频输出与Live API改进

目前,Live API正在引入音视频输入和原生音频输出对话的预览版本,以便可以直接构建更具自然表现力的对话体验。

它还允许用户引导其语调、口音和说话风格。例如,可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表用户进行搜索。

可以尝试一系列早期功能,包括:

  • 情感对话:模型检测用户语音中的情绪并做出适当回应。
  • 主动音频:模型将忽略背景对话并知道何时回应。
  • Live API中的思考:模型利用其思考能力来支持更复杂的任务。

同时,正在为2.5 Pro和2.5 Flash发布新的文本转语音预览。这些功能首次支持多发言人,通过原生音频输出实现双语音频合成。

与原生音频对话一样,文本转语音富有表现力,能够捕捉非常细微的差别,例如耳语。它支持超过24种语言,并可在语言间无缝切换。

此文本转语音功能将于今日晚些时候在API中提供。

计算机使用

正在将计算机使用能力引入API和企业平台。一些机构正在探索其潜力,并期待在今年夏天更广泛地向开发者推出此功能以供实验。

更好的安全性

还显著增强了对安全威胁(如间接提示注入)的防护。这是指恶意指令被嵌入到AI模型检索的数据中。新的安全方法有助于在工具使用期间显著提高防护率,使其成为迄今为止最安全的模型系列。

增强的开发者体验

思维摘要

现在,2.5 Pro和Flash将在API和企业平台中包含思维摘要。思维摘要将模型的原始思维组织成清晰的格式,包含标题、关键细节以及关于模型操作(例如使用工具时)的信息。

希望通过以更结构化、更精简的格式呈现模型的思考过程,使开发者和用户能更轻松地理解和调试与模型的交互。

思维预算

推出了带有思维预算的2.5 Flash,通过平衡延迟和质量让开发者更好地控制成本。并且正在将这一能力扩展到2.5 Pro。这允许控制在模型回应前用于思考的令牌数量,甚至可以关闭其思考能力。

带有预算控制的2.5 Pro将在未来几周内与正式版模型一起,正式发布供稳定的生产使用。

MCP支持

在API中为本机SDK添加了对模型上下文协议定义的支持,以便更轻松地与开源工具集成。同时,正在探索部署MCP服务器和其他托管工具的方法,使开发者更容易构建代理应用程序。

始终致力于创新新方法来改进模型和开发者体验,包括提高其效率和性能,并持续响应开发者反馈。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/19 14:03:04

GPEN人像修复全流程演示,适合初学者的实践指南

GPEN人像修复全流程演示,适合初学者的实践指南 你是不是也遇到过这些情况:老照片泛黄模糊、手机拍的人像有噪点和压缩痕迹、证件照皮肤不够自然、社交平台上传的自拍细节丢失……传统修图软件需要反复调参数、手动涂抹,耗时又难出效果。而今…

作者头像 李华
网站建设 2026/4/1 21:06:46

从0开始玩转Qwen-Image-2512-ComfyUI,AI绘图轻松入门

从0开始玩转Qwen-Image-2512-ComfyUI,AI绘图轻松入门 1. 这不是又一个“安装教程”,而是你真正能用起来的AI绘图起点 你是不是也试过:下载一堆模型、配环境、改配置、报错、再查文档、再报错……最后关掉终端,默默打开手机刷小红…

作者头像 李华
网站建设 2026/4/13 14:53:31

企业级应用探索:Live Avatar定制化开发路径

企业级应用探索:Live Avatar定制化开发路径 数字人技术正从实验室走向真实业务场景,但真正落地时往往面临性能、成本与效果的三重挑战。Live Avatar作为阿里联合高校开源的数字人模型,凭借其端到端语音驱动视频生成能力,在企业级…

作者头像 李华
网站建设 2026/4/11 1:56:47

DRC电气规则检查深度剖析:电源网络常见问题

以下是对您提供的博文《DRC电气规则检查深度剖析:电源网络常见问题技术分析》的 全面润色与专业升级版 。本次优化严格遵循您的核心要求: ✅ 彻底去除AI痕迹 :语言自然、节奏有呼吸感,像一位资深硬件工程师在技术分享会上娓娓…

作者头像 李华
网站建设 2026/4/12 20:19:03

Z-Image-Turbo_UI界面能否加放大功能?用户期待中

Z-Image-Turbo_UI界面能否加放大功能?用户期待中 发布时间:2025年12月30日 最近在社区和用户反馈中,一个高频问题反复出现:“Z-Image-Turbo_UI 界面能不能点开图片放大看细节?”——这不是一个小众需求,而…

作者头像 李华
网站建设 2026/4/13 12:44:03

参考图要什么角度?Live Avatar正面照要求详解

参考图要什么角度?Live Avatar正面照要求详解 1. 为什么一张好照片能决定数字人效果的上限? 你可能已经试过Live Avatar,输入一段语音、写几句提示词,点击生成——结果出来的视频里,人物的脸部模糊、五官变形、表情僵…

作者头像 李华