news 2026/4/16 1:14:43

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构

当MoE与N-gram相结合,一种全新的稀疏性范式正在悄然改变大语言模型的能力边界。

近期,来自北京大学和深度求索的研究团队提出了一种名为Engram的创新条件记忆模块,它通过结合经典的N-gram嵌入技术和现代深度学习架构,为大语言模型引入了高效的知识检索能力。Engram的核心突破在于,它能够在不增加计算开销的前提下,通过静态记忆存储大幅提升模型在知识、推理和长上下文任务上的表现

这一技术实现是基于一个深刻的洞见:语言建模中的许多任务本质上是静态、模式化的知识检索,而非动态推理。传统Transformer架构缺少原生的知识查找机制,被迫用昂贵的计算来模拟检索过程。Engram则通过简单的哈希查找,以O(1)的时间复杂度直接获取这些模式化知识。

1. 条件计算 vs. 条件记忆:两种稀疏性范式

当前的稀疏性研究主要集中在条件计算领域,以混合专家(MoE)模型为代表。MoE通过动态路由激活不同专家子网络来处理不同输入,从而实现模型容量的扩展而不显著增加计算成本。这类似于一个大型图书馆,每次只取出少量相关的书籍进行阅读。

但语言信号本身具有内在的异质性,语言建模实际上涉及两种本质不同的子任务:

  1. 组合推理:需要深度、动态的计算过程
  2. 知识检索:处理静态、模式化的语言模式(如命名实体、成语短语)

传统Transformer架构缺乏专门的知识检索机制,导致即使是检索一个简单的多令牌实体(如“Diana, Princess of Wales”)也需要消耗多个注意力层和前馈网络层进行计算。这实质上是用昂贵的计算来重建静态查找表,浪费了宝贵的计算深度。

Engram提出的条件记忆范式,则通过在模型中引入稀疏查找操作,直接检索静态知识,从而与MoE的条件计算形成互补。它将静态模式存储与动态计算在结构上分离,让模型各司其职。

2. Engram核心模块:现代化的N-gram嵌入

2.1 架构概览

Engram模块的设计目标是增强Transformer主干的表示能力,同时保持计算效率。该模块仅应用于特定层,将标准输入嵌入和输出层保持不变。

Engram的处理流程分为两个功能阶段:检索和融合。

2.2 基于哈希

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 6:52:33

三菱Q PLC在液晶电视导光板加工中的应用案例分享

三菱Q PLC案例程序,三菱Q系列程序。 QD75MH总线伺服本案例是液晶电视导光板加工,此案例采用三菱Q系列PLC。 有QD75MH定位模块SSNET总线伺服,QJ61BT11N 远程主站和远程IO从站。 三菱触摸屏,及欧姆龙温控器精准控温。 本案例提供PLC…

作者头像 李华
网站建设 2026/4/13 0:39:16

基于SpringBoot和Vue的篮球管理系统

文章目录详细视频演示项目介绍技术介绍功能介绍核心代码系统效果图源码获取详细视频演示 文章底部名片,获取项目的完整演示视频,免费解答技术疑问 项目介绍 基于Spring Boot的篮球管理系统采用模块化架构设计,以提升系统的可扩展性与性能优…

作者头像 李华
网站建设 2026/4/7 11:43:55

你就再也不用担心断网导致白编译了!

这是针对你编译任务最实用的 screen 操作流程,分为四个阶段: 1. 开始之前:创建一个“房间” 登录 SSH 后,不要直接编译,先创建一个专门的 screen 会话(相当于开了一个独立的虚拟房间)。 代码语言:Bash AI代码解释 screen -S my_build-S my_build: 给这个会话起名叫…

作者头像 李华
网站建设 2026/4/14 6:44:19

全网独家!PAM-COMPOSITE复合材料仿真Python二次开发必备

全网独家!PAM-COMPOSITE 二次开发必备:7 合 1 论文级可视化工具(Python 代码直接抄) 做复合材料仿真的同学注意了!是不是还在为 PAM-COMPOSITE 仿真结果可视化发愁?自己从零编写代码要调试格式、调整配色、标注数值,动辄花费数小时,最后生成的图分辨率不足、格式不符合…

作者头像 李华
网站建设 2026/4/11 0:52:50

洗衣店如何线上接单?开源小程序源码系统,自带全流程管理功能

温馨提示:文末有资源获取方式对于拥有多家门店的洗衣连锁品牌而言,数字化管理不仅是趋势,更是降本增效的核心需求。传统的分散管理模式易导致数据孤岛与运营混乱。源码获取方式在源码闪购网。系统核心功能列表:多门店独立与统一管…

作者头像 李华