news 2026/5/7 1:45:56

OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

12 月 15 日,OpenAI 在官方博客上公布了最新的开源项目——Circuit‑Sparsity 模型。该模型仅拥有 0.4 B 参数,但高达 99.9% 的权重被强制置零,形成极度稀疏的 Transformer 结构。OpenAI 表示,此举旨在破解大语言模型(LLM)长期困扰业界的“黑箱”难题,为医疗、金融、法律等高风险领域的 AI 落地提供可解释性支撑。

何为 Circuit‑Sparsity?

传统的密集模型在训练过程中会让每个神经元或权重矩阵同时编码多个概念,形成所谓的“超级位置”(Superposition),导致模型决策难以追溯。OpenAI 通过 动态剪枝 + Top‑K 稀疏约束,在训练阶段仅保留绝对值最大的 0.1% 权重,并在关键层引入 AbsTopK 激活函数 与 RMSNorm 替代传统 LayerNorm,使得模型内部自然形成紧凑、可读的 ‍“电路”(Circuits)‍。

电路的可读性与规模优势

实验显示,稀疏模型在完成同一任务时所需的计算路径比密集模型小 16 倍。例如在“字符串闭合”任务中,仅用 12 个节点 就构建了完整的电路,且每个神经元的激活语义明确——有的专门检测单引号,有的充当计数器。通过 均值消融 实验验证,去除非电路节点对性能影响微乎其微,而删掉电路关键节点则会导致模型瞬间崩溃,进一步证明这些电路是真正的决策通路。

性能瓶颈与后续路线

尽管可解释性大幅提升,稀疏模型的计算效率仍是制约因素。由于稀疏矩阵难以利用 GPU 的 Tensor Cores 加速,模型推理速度比同等密集模型慢 100–1000 倍,在千亿参数级别的前沿模型上直接应用尚不可行。为此,OpenAI 提出了 ‍“桥梁网络”(Bridges)‍ 方案:在稀疏模型与已有密集模型之间插入编码‑解码映射层,实现对密集模型的可解释性编辑,同时保持其高效推理能力。

社群反响

国外技术社区对该项目评价两极。一方面,有网友称这项技术把模型“减肥到只剩骨架”,相当于打开了 AI 的黑匣子;另一部分则指出,稀疏模型的训练成本高出 100–1000 倍,仍属于“研究时代”,短期内难以取代现有的 MoE(混合专家)模型。总体来看,Circuit‑Sparsity 为 AI 可解释性提供了全新思路,也为后续从密集模型中提取稀疏电路奠定了技术基础。

OpenAI 在博客中写道:“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的 AI 系统更易于分析、调试与评估。”团队计划在后续工作中 从现有密集模型中提取稀疏电路,并研发 更高效的可解释性训练技术,以期在保持性能的前提下进一步降低模型复杂度。

结语

Circuit‑Sparsity 的发布标志着大模型从“黑箱”向“可解释”迈出了重要一步。虽然当前仍面临计算效率的挑战,但其在模型结构简化、决策路径可视化方面的突破,为 AI 在高风险行业的安全落地提供了新的技术路径。随着桥梁网络等后续方案的完善,稀疏模型有望在保持可解释性的同时,逐步缩小与主流密集模型的性能差距,推动人工智能向更透明、更可靠的方向发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 9:41:51

18、软件开发中的交叉引用与测试驱动开发实践

软件开发中的交叉引用与测试驱动开发实践 在软件开发过程中,文档编写和测试是确保软件质量和可维护性的重要环节。下面将介绍 Sphinx 的交叉引用功能,以及测试驱动开发(TDD)的相关内容。 1. Sphinx 交叉引用 Sphinx 提供了内联标记来设置交叉引用。例如,要创建一个指向…

作者头像 李华
网站建设 2026/5/5 12:06:27

AI眼镜热销卖爆:产能紧张与供应链竟然都快跟不上了!

近期,AI眼镜成为消费电子市场的热点。自今年上半年多家厂商相继发布新品后,AI眼镜在天猫、京东、抖音等平台的成交额出现爆发式增长,双十一期间更是实现全网销量第一的成绩。然而,热销的背后却暴露出产能不足、供应链紧张的结构性…

作者头像 李华
网站建设 2026/5/5 4:08:31

COMSOL手性超表面的琼斯矩阵与透射系数计算

COMSOL手性超表面 琼斯矩阵,透射系数计算手性超表面作为一种新兴的电磁调控手段,近年来受到了广泛的关注。它通过在亚波长尺度上设计结构,可以实现对电磁波偏振态的灵活操控,从而在光通信、成像以及隐身技术等领域展现出巨大的应用…

作者头像 李华
网站建设 2026/5/2 16:20:03

AI伦理治理:在创新与规范之间寻找平衡

随着人工智能技术深度融入生产生活,生成式AI创作内容、AI辅助诊疗、智能决策系统等应用层出不穷,为社会带来效率提升的同时,也衍生出数据滥用、算法偏见、责任模糊等伦理风险。如何在鼓励技术创新与守住伦理底线之间实现动态平衡,…

作者头像 李华
网站建设 2026/5/6 18:39:51

C++ 互斥锁、读写锁、原子操作、条件变量

前言:在多线程的实现中,对临界资源的访问容易产生冲突与竞争。C提供了一些方法来解决这种资源冲突,如,互斥锁、读写锁、原子操作、条件变量。本文将对这四种方式进行一一介绍。 目录 一、互斥锁(std::mutex&#xff0…

作者头像 李华