news 2026/2/8 13:04:53

揭秘大语言模型内部机制:Gemma Scope工具套件发布

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
揭秘大语言模型内部机制:Gemma Scope工具套件发布

Gemma Scope:助力安全社区揭示语言模型的内部运作机制

语言模型可解释性团队

创建一个人工智能语言模型时,研究人员构建了一个能从海量数据中自主学习而无须人类指导的系统。因此,语言模型的内部工作机制常常是一个谜,甚至对训练它们的研究人员也是如此。机制可解释性是一个专注于解读这些内部工作机制的研究领域。该领域的研究人员使用稀疏自编码器作为一种“显微镜”,让他们能够看到语言模型的内部,并更好地了解其工作原理。

今天,我们宣布推出 Gemma Scope,这是一套新的工具集,旨在帮助研究人员理解我们的轻量级开源模型家族 Gemma 2 的内部工作原理。Gemma Scope 是为 Gemma 2 9B 和 Gemma 2 2B 提供的数百个可自由获取、开源的稀疏自编码器集合。我们同时开源了 Mishax,这是我们构建的一个工具,它促成了 Gemma Scope 背后的大部分可解释性工作。

我们希望今天的发布能够促成更具雄心的可解释性研究。进一步的研究有望帮助该领域构建更健壮的系统,开发更好的防护措施来应对模型幻觉,并防范来自自主AI代理(如欺骗或操纵)的风险。

解读语言模型内部发生了什么

当你向语言模型提出一个问题时,它会将你的文本输入转化为一系列“激活”。这些激活映射了你输入的词之间的关系,帮助模型在不同词汇之间建立连接,从而写出答案。

当模型处理文本输入时,模型神经网络不同层上的激活代表了多个日益复杂的“特征”。例如,模型的早期层可能学习回忆诸如迈克尔·乔丹打篮球这样的事实,而后面的层可能识别更复杂的概念,如文本的事实性。

然而,可解释性研究人员面临一个关键问题:模型的激活是许多不同特征的混合。在机制可解释性研究的早期,研究人员曾希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。但不幸的是,在实践中,神经元会对许多不相关的特征做出反应。这意味着,没有明显的方法来判断哪些特征是构成激活的一部分。

这就是稀疏自编码器的用武之地。给定的一次激活只会是少量特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征——也就是说,模型稀疏地使用特征。例如,语言模型在回应关于爱因斯坦的询问时会考虑相对论,在写关于煎蛋卷时会考虑鸡蛋,但可能在写煎蛋卷时不会考虑相对论。

稀疏自编码器利用这一事实来发现一组可能的特征,并将每次激活分解为其中的一小部分。研究人员希望,稀疏自编码器完成此任务的最佳方式是找到语言模型实际使用的基础特征。

重要的是,在这个过程中,我们——研究人员——从未告诉稀疏自编码器要寻找哪些特征。因此,我们能够发现我们未曾预测到的丰富结构。然而,由于我们无法立即知道所发现特征的含义,我们会在稀疏自编码器指示该特征“触发”的文本示例中寻找有意义的模式。

Gemma Scope 的独特之处

先前关于稀疏自编码器的研究主要集中在探究微小模型的内部工作原理或大型模型中单个层的情况。但更具雄心的可解释性研究涉及解码大型模型中分层的、复杂的算法。

我们为 Gemma 2 2B 和 9B 的每个层和子层输出训练了稀疏自编码器,构建了 Gemma Scope,产生了超过 400 个稀疏自编码器,总计学习了超过 3000 万个特征(尽管许多特征可能重叠)。该工具将使研究人员能够研究特征在整个模型中如何演化,以及它们如何相互作用和组合以形成更复杂的特征。

Gemma Scope 还采用了我们新的、最先进的 JumpReLU SAE 架构进行训练。原始的稀疏自编码器架构难以平衡检测哪些特征存在以及估计其强度这两个目标。JumpReLU 架构使得更恰当地实现这种平衡变得更容易,显著减少了误差。

训练如此多的稀疏自编码器是一个重大的工程挑战,需要大量的计算能力。我们使用了大约 Gemma 2 9B 训练计算量的 15%(不包括生成蒸馏标签的计算量),将大约 20 个皮字节的激活数据保存到磁盘(大约相当于一百万份英文维基百科的数据量),并生成了总计数千亿的稀疏自编码器参数。

推动领域发展

通过发布 Gemma Scope,我们希望使 Gemma 2 成为开源机制可解释性研究的最佳模型家族,并加速社区在该领域的工作。

迄今为止,可解释性社区在使用稀疏自编码器理解小模型以及开发相关技术方面取得了巨大进展,例如因果干预、自动电路分析、特征解释和评估稀疏自编码器。借助 Gemma Scope,我们希望能看到社区将这些技术扩展到现代模型,分析更复杂的能力(如思维链),并发现可解释性的实际应用,例如解决只有在更大模型中才会出现的幻觉和越狱等问题。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 18:07:08

中文文本情感分析教程:StructBERT详解

中文文本情感分析教程:StructBERT详解 1. 引言:中文情感分析的现实需求与技术挑战 在当今信息爆炸的时代,中文互联网每天产生海量的用户评论、社交媒体内容和产品反馈。如何从这些非结构化文本中快速提取情绪倾向,成为企业舆情监…

作者头像 李华
网站建设 2026/2/3 9:09:27

吐血推荐专科生必用9款AI论文工具

吐血推荐专科生必用9款AI论文工具 专科生必备的AI论文工具测评 随着人工智能技术在教育领域的不断渗透,越来越多的专科生开始借助AI工具提升论文写作效率。然而,面对市场上五花八门的AI论文工具,如何选择真正适合自己的产品成为一大难题。为此…

作者头像 李华
网站建设 2026/2/6 8:51:21

Flutter基础介绍-跨平台移动应用开发框架

Flutter小白入门:从0到1开发贪吃蛇游戏 一、什么是Flutter? Flutter是Google推出的跨平台移动应用开发框架,用一套代码就能同时开发iOS、Android、Web、Windows等多个平台的应用。简单来说,就是写一次代码,到处运行&am…

作者头像 李华
网站建设 2026/2/8 9:59:12

Llama3安全应用实战:3步构建AI威胁检测系统

Llama3安全应用实战:3步构建AI威胁检测系统 引言:当AI遇上网络安全 想象一下,你的服务器每天产生数万条安全日志,就像一座不断喷发的火山。传统方法需要安全专家像矿工一样手动筛选金矿,而今天我们要用Llama3大模型打…

作者头像 李华
网站建设 2026/2/3 23:00:33

AI智能体与区块链结合:云端开发环境,1小时快速验证

AI智能体与区块链结合:云端开发环境,1小时快速验证 引言:当智能体遇上区块链 区块链开发者经常面临一个难题:想要测试智能体合约审核功能,但搭建完整的测试链环境既耗时又复杂。想象一下,你刚构思了一个能…

作者头像 李华
网站建设 2026/2/3 4:24:48

AI智能体监控系统搭建实录:从零到上线仅花15块钱,运维小白亲测

AI智能体监控系统搭建实录:从零到上线仅花15块钱,运维小白亲测 1. 为什么你需要一个AI智能体监控系统 想象一下,你是一家中小企业的IT运维人员,每天要盯着几十台服务器的运行状态,查看各种日志和告警信息。传统的人工…

作者头像 李华