news 2026/3/23 3:52:57

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

闻乐 发自 凹非寺
转载自:量子位(QbitAI)

破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线?

OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。

也就是Circuit Sparsity技术的开源实现。

这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。

更有人直言这种「极致稀疏+功能解耦」的思路可能会让当下热门的MoE(混合专家模型)走上末路。

那么,当Transformer的权重被训练到近乎全0,会发生什么呢?

放弃粗糙近似,追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。

这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路

比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。

实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。

这样,每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷:

  • 一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;

  • 二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种hack手段也能避免信息干扰。

不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;

而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。

并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。

目前,团队发现有两种克服稀疏模型训练效率低下的方法:

  • 一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;

  • 另一种途径则是不放弃从头训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。

那么就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。

参考链接:
[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/13 0:03:06

Quasar实战指南:Windows系统远程高效管理方案

Quasar实战指南:Windows系统远程高效管理方案 【免费下载链接】Quasar Remote Administration Tool for Windows 项目地址: https://gitcode.com/gh_mirrors/qua/Quasar 在日常的Windows系统管理中,IT管理员常常面临多设备维护、远程故障排查和批…

作者头像 李华
网站建设 2026/3/12 23:02:17

三大Rust UI框架终极选择指南:GPUI Component、Iced与egui深度评测

三大Rust UI框架终极选择指南:GPUI Component、Iced与egui深度评测 【免费下载链接】gpui-component UI components for building fantastic desktop application by using GPUI. 项目地址: https://gitcode.com/GitHub_Trending/gp/gpui-component 在Rust生…

作者头像 李华
网站建设 2026/3/18 14:04:19

InsightFace人脸分析工具箱:如何用3行代码实现精准人脸识别?

InsightFace人脸分析工具箱:如何用3行代码实现精准人脸识别? 【免费下载链接】insightface State-of-the-art 2D and 3D Face Analysis Project 项目地址: https://gitcode.com/GitHub_Trending/in/insightface 在当今AI技术飞速发展的时代&#…

作者头像 李华
网站建设 2026/3/13 0:42:53

Llama3数据冒险之旅:从文字输入到AI答案的完整揭秘

Llama3数据冒险之旅:从文字输入到AI答案的完整揭秘 【免费下载链接】llama3-from-scratch llama3 一次实现一个矩阵乘法。 项目地址: https://gitcode.com/GitHub_Trending/ll/llama3-from-scratch 你是否好奇AI大模型Llama3如何将"生命、宇宙与一切的答…

作者头像 李华
网站建设 2026/3/22 14:07:40

3大策略实现Apple芯片模型性能翻倍:从PyTorch到MLX的智能迁移指南

3大策略实现Apple芯片模型性能翻倍:从PyTorch到MLX的智能迁移指南 【免费下载链接】mlx-examples 在 MLX 框架中的示例。 项目地址: https://gitcode.com/GitHub_Trending/ml/mlx-examples 在M系列Mac上运行深度学习模型时,你是否经历过这样的困境…

作者头像 李华
网站建设 2026/3/16 5:36:11

10款高颜值Zsh主题:让你的终端颜值爆表,效率翻倍!

10款高颜值Zsh主题:让你的终端颜值爆表,效率翻倍! 【免费下载链接】ohmyzsh 项目地址: https://gitcode.com/gh_mirrors/ohmy/ohmyzsh 终端美化是提升开发体验的关键一步,一个精心设计的Zsh主题能让你的命令行工作变得更加…

作者头像 李华