news 2026/4/18 17:35:08

迈向智能体时代:Gemini 2.0 AI模型技术详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
迈向智能体时代:Gemini 2.0 AI模型技术详解

介绍Gemini 2.0:面向智能体时代的新AI模型

Demis Hassabis 和 Koray Kavukcuoglu 代表 Gemini 团队撰写

在过去一年中,人工智能领域继续取得了令人难以置信的进展。今天,我们发布Gemini 2.0模型家族中的第一个模型:Gemini 2.0 Flash的实验版本。这是我们具备低延迟、在技术前沿提供增强性能的规模化主力模型。

同时,也通过展示由Gemini 2.0原生多模态能力支持的多个原型,分享我们在智能体研究领域的前沿探索。

Gemini 2.0 Flash

Gemini 2.0 Flash建立在1.5 Flash成功的基础上。1.5 Flash是迄今为止开发者中最受欢迎的模型,2.0 Flash在保持类似快速响应时间的同时,性能得到了增强。值得注意的是,在关键基准测试中,2.0 Flash的表现甚至超过了1.5 Pro,且速度快一倍。

2.0 Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外,2.0 Flash现在还支持多模态输出,例如原生生成的图像与文本混合输出,以及可操控的文本转语音(TTS)多语言音频。它还能原生调用工具,如搜索、代码执行以及第三方用户自定义函数。

目标是安全、快速地将模型交到人们手中。过去一个月,一直在分享Gemini 2.0的早期实验版本,并从开发者那里获得了宝贵的反馈。

Gemini 2.0 Flash现已作为实验模型向开发者提供,可通过某中心的AI Studio和Vertex AI中的Gemini API访问。所有开发者均可使用其多模态输入和文本输出功能,文本转语音和原生图像生成功能则提供给早期访问合作伙伴。通用可用性将于一月份随更多模型规模一同推出。

为了帮助开发者构建动态和交互式应用程序,还发布了一个新的多模态实时API,支持实时音频、视频流输入以及使用多个组合工具的能力。有关2.0 Flash和多模态实时API的更多信息,可在开发者博客中找到。

在AI助手中提供Gemini 2.0

同样从今天开始,全球Gemini用户可以通过在桌面端和移动网页的模型下拉菜单中选择,访问一个针对聊天优化的2.0 Flash实验版本,该版本也即将在Gemini移动应用上线。借助这个新模型,用户可以体验到更有帮助的AI助手。

明年初,Gemini 2.0将扩展到更多产品中。

用Gemini 2.0解锁智能体体验

Gemini 2.0 Flash的原生用户界面操作能力,连同其他改进,如多模态推理、长上下文理解、复杂指令跟随和规划、组合式函数调用、原生工具使用以及改进的延迟,共同协作,实现了一类新的智能体体验。

AI智能体的实际应用是一个充满令人兴奋可能性的研究领域。正在通过一系列原型来探索这个新前沿,这些原型可以帮助人们完成任务和做成事情。其中包括:

  • Project Astra更新:这是探索通用AI助手未来能力的研究原型。
  • 新的Project Mariner:探索人机交互的未来,从浏览器开始。
  • Jules:一个可以帮助开发者的AI驱动代码智能体。

目前仍处于开发的早期阶段,但很兴奋看到受信任的测试者如何使用这些新功能,以及可以从中吸取哪些经验教训,以便未来能让它们在产品中更广泛地应用。

Project Astra:在现实世界中使用多模态理解的智能体

自某中心在I/O大会上推出Project Astra以来,一直在从使用Android手机的受信任测试者那里学习。他们宝贵的反馈帮助更好地理解了通用AI助手在实践中如何工作,包括对安全和伦理的影响。

基于Gemini 2.0构建的最新版本改进包括:

  • 更好的对话:Project Astra现在能够进行多语言和混合语言对话,并能更好地理解口音和不常见词汇。
  • 新的工具使用:借助Gemini 2.0,Project Astra可以使用搜索、Lens和地图,使其在日常生活中的助手角色更加有用。
  • 更好的记忆:改进了Project Astra的记忆能力,同时让用户保持控制。它现在拥有长达10分钟的会话内记忆,并能记住更多过去与它的对话,从而更好地为您个性化。
  • 改进的延迟:凭借新的流式传输能力和原生音频理解,该智能体理解语言的速度大约接近人类对话的延迟。

正在努力将这类能力引入到像AI助手这样的产品中,以及其他形态的设备,例如眼镜。并且正在开始将受信任的测试者计划扩展到更多人,包括一个即将开始在原型眼镜上测试Project Astra的小组。

Project Mariner:可帮助您完成复杂任务的智能体

Project Mariner是一个基于Gemini 2.0构建的早期研究原型,旨在探索人机交互的未来,从浏览器开始。作为一个研究原型,它能够理解并推理浏览器屏幕上的信息,包括像素和文本、代码、图像、表单等网页元素,然后通过一个实验性的Chrome扩展程序,利用这些信息为您完成任务。

在WebVoyager基准测试(测试智能体在端到端真实世界网页任务上的性能)中评估时,Project Mariner以单一智能体设置取得了83.5%的先进结果。

虽然仍处于早期阶段,但Project Mariner表明,在浏览器中导航在技术上正成为可能,尽管目前并非总是准确且完成任务较慢,但这将随着时间的推移迅速改善。

为了安全、负责任地构建此项目,正在进行新型风险和缓解措施的积极研究,同时保持人在回路中。例如,Project Mariner只能在浏览器活动标签页中键入、滚动或点击,并且在执行某些敏感操作(如购买物品)之前,会请求用户最终确认。

受信任的测试者现已开始通过实验性Chrome扩展程序测试Project Mariner,同时也开始与更广泛的网络生态系统进行对话。

Jules:面向开发者的智能体

有关此进行中实验的更多信息,可在开发者博客文章中找到。

游戏及其他领域的智能体

Google DeepMind拥有利用游戏帮助AI模型在遵循规则、规划和逻辑方面变得更好的悠久历史。例如,就在上周,推出了Genie 2,这是一个可以从单张图像创建无尽多样可玩3D世界的AI模型。

秉承这一传统,我们已利用Gemini 2.0构建了能够帮助您导航视频游戏虚拟世界的智能体。它可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步行动建议。

正在与领先的游戏开发商(如Supercell)合作,探索这些智能体的工作方式,测试它们在从“部落冲突”等策略游戏到“卡通农场”等农场模拟游戏的多样化游戏规则和挑战中的解释能力。

除了充当虚拟游戏伙伴外,这些智能体甚至可以接入搜索,将您与网络上丰富的游戏知识连接起来。

除了在虚拟世界中探索智能体能力外,我们还在试验可以帮助物理世界的智能体,方法是将Gemini 2.0的空间推理能力应用于机器人技术。虽然仍处于早期阶段,但对能够在物理环境中提供协助的智能体潜力感到兴奋。

您可以在某中心实验室了解更多关于这些研究原型和实验的信息。

在智能体时代负责任的构建

Gemini 2.0 Flash和我们的研究原型使我们能够测试和迭代AI研究前沿的新能力,这些能力最终将使产品更有帮助。

在开发这些新技术的同时,我们认识到随之而来的责任,以及AI智能体对安全和保障提出的诸多问题。这就是为什么采取探索性和渐进式开发方法的原因,包括对多个原型进行研究、迭代实施安全训练、与受信任的测试者和外部专家合作,并进行广泛的风险评估以及安全和保障评估。

例如:

  • 作为安全流程的一部分,已与长期存在的内部评审小组(责任与安全委员会,RSC)合作,以识别和理解潜在风险。
  • Gemini 2.0的推理能力实现了AI辅助红队方法的重大进步,包括能够超越单纯的风险检测,现在可以自动生成评估和训练数据以缓解风险。这意味着可以更有效地大规模优化模型的安全性。
  • 随着Gemini 2.0的多模态增加了潜在输出的复杂性,将继续评估和训练模型在图像和音频输入输出方面的表现,以帮助提高安全性。
  • 对于Project Astra,正在探索防止用户无意中向智能体共享敏感信息的潜在缓解措施,并且已经内置了隐私控制,使用户可以轻松删除会话。同时,继续研究确保AI智能体作为可靠信息来源且不会代表您采取意外行动的方法。
  • 对于Project Mariner,正在努力确保模型学会优先考虑用户指令而非第三方提示注入尝试,使其能够识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令而遭受欺诈和网络钓鱼攻击。

坚信,构建AI的唯一方法是从一开始就负责任,并将继续优先考虑将安全和责任作为模型开发过程的关键要素,同时推进模型和智能体的发展。

Gemini 2.0、AI智能体及未来

今天的发布标志着Gemini模型的新篇章。随着Gemini 2.0 Flash的发布,以及探索智能体可能性的一系列研究原型,已经达到了Gemini时代一个令人兴奋的里程碑。我们期待着在向AGI迈进的过程中,继续安全地探索所有触手可及的新可能性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 4:40:44

自主导航十年演进

结论:未来十年自主导航将从“能走到哪”演进为“能否被允许继续走”的治理化系统,关键从感知/定位精度转向可用性、置信度与责任可追溯的闭环。 三阶段概览阶段时间角色功能型2025–2027精确定位与路径生成可控型2027–2030置信度驱动的行为约束治理型20…

作者头像 李华
网站建设 2026/4/18 8:48:56

末端执行器十年演进

结论:未来十年(2025–2035),末端执行器将从“专用夹具”走向“智能化、模块化与柔性化”,在北京场景应优先关注集成多模态传感、模块化快换与软体/灵巧手的工程化落地**,国产化替代与产业链升级是近期重点*…

作者头像 李华
网站建设 2026/4/17 18:44:47

【Matlab】掌控 MATLAB 工作区:从变量管理到结果复用,打造清晰的计算跟踪体系

掌控 MATLAB 工作区:从变量管理到结果复用,打造清晰的计算跟踪体系 MATLAB 的工作区(Workspace)是存储和管理所有变量的核心区域,它就像编程过程中的 “数据仓库”—— 无论是命令窗口中临时定义的标量、矩阵,还是脚本运行生成的计算结果,都会集中存储在工作区中。新手…

作者头像 李华
网站建设 2026/4/17 23:43:27

高效办公从选择OA系统开始

一、低代码平台:企业开发的新宠在当今数字化快速发展的时代,企业对于应用程序的需求日益增长。然而,传统的软件开发方式往往面临着开发周期长、成本高、技术门槛高等问题,难以满足企业快速变化的业务需求。这时,低代码…

作者头像 李华
网站建设 2026/4/18 4:01:38

实时决策时代:AI 与低延时计算如何重塑数字孪生?

1月14日,在“第八届金猿大数据产业发展论坛——暨 AI Infra & Data Agent 趋势论坛”上,DolphinDB 首席架构师程训焘博士带来了主题为《实时决策时代:AI 与低延时计算如何重塑数字孪生》 的分享。他的分享聚焦底层软件技术,深…

作者头像 李华
网站建设 2026/4/17 14:12:49

隐私与安全工具集:纯客户端保护你的数据安全

在这个数据泄露和网络攻击频发的时代,保护个人隐私和网络安全变得尤为重要。我们今天要介绍的是一款强大的纯客户端隐私与安全工具集,它承诺“您的数据永远不会离开您的浏览器”,为你提供真正安心的本地化安全解决方案。 核心特点&#xff1…

作者头像 李华