news 2026/1/26 4:02:37

华为:LLM宽度与深度的适应性重用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为:LLM宽度与深度的适应性重用

📖标题:VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
🌐来源:arXiv, 2512.14531

🌟摘要

大型语言模型 (LLM) 的快速扩展取得了显着的性能,但它也会导致高昂的内存成本。现有的参数高效方法,如剪枝和量化,主要压缩预训练模型,而不增强架构容量,从而达到基础模型的表示上限。在这项工作中,我们提出了 VersatileFFN,一种新颖的前馈网络 (FFN),它可以在固定参数预算内灵活地重用宽度和深度维度上的参数。受认知双重过程理论的启发,VersatileFFN 包括两个自适应路径:一个宽度变换器路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由,以及一个深度通用路径,递归地应用相同的 FFN 来模拟复杂标记的更深层次的处理。一个难度感知门控通过高效的宽度方向动态平衡两条路径,通过高效的宽度方向转向“简单”标记,并将更深的迭代细化分配给“硬”标记。至关重要的是,两条路径重用相同的参数,因此所有额外的容量都来自计算而不是内存。跨不同基准和模型尺度的实验证明了该方法的有效性。该代码可在 https://github.com/huawei-noah/noah-research/ tree/master/VersatileFFN。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现参数效率,同时保持高性能?
🔸主要贡献:论文提出VersatileFFN架构,通过宽度与深度的适应性重用,显著提升了模型的参数效率和计算能力。

📝重点思路

🔸设计了一个VersatileFFN架构,集成了宽度可变通道(宽路径)和深度可变通道(深路径),这两条路径共享基础权重。
🔸宽路径模拟虚拟Mixture-of-Experts(MoE)模块,快速响应领域特定的任务而不增加参数量。
🔸深路径实现递归计算能力,通过重用相同的FFN计算单元,动态分配更深的计算层次给复杂的token。
🔸引入Gumbel-Softmax控制器,根据token复杂度动态预测迭代次数,从而灵活分配计算资源。

🔎分析总结

🔸VersatileFFN在多个基准测试中表现优于其他方法,展示了其在相同参数预算内的强大性能。
🔸相比Mixture-of-Experts架构和传统的k-Loop方法,VersatileFFN在保持较低的参数增加的同时,显著提升了准确率。
🔸该方法有效地将宽度与深度计算结合,实现了在参数效率和推理能力之间的最佳平衡。

💡个人观点

论文的创新点在于通过深度和宽度的适应性组合,开创了一种不需显著增加参数量即可提升模型能力的新范式,适用于资源受限环境中的推理任务。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/25 5:12:36

Android音频转发的终极指南:sndcpy从入门到精通

Android音频转发的终极指南:sndcpy从入门到精通 【免费下载链接】sndcpy Android audio forwarding (scrcpy, but for audio) 项目地址: https://gitcode.com/gh_mirrors/sn/sndcpy 想要将Android设备的音频完美转发到电脑播放吗?sndcpy作为一款专…

作者头像 李华
网站建设 2025/12/31 7:17:36

【MCP SC-400必知必会】:6大高频安全策略错误及修复方案

第一章:MCP SC-400安全策略概述MCP SC-400 是 Microsoft 365 认证中专注于信息保护与合规性的核心安全策略框架。该策略体系旨在帮助企业构建端到端的数据安全防护机制,涵盖数据分类、敏感信息识别、合规性监控以及威胁防御等多个维度。核心安全组件 数据…

作者头像 李华
网站建设 2026/1/25 1:26:04

Figma到Unity导入工具完整指南:快速实现设计到开发的无缝衔接

Figma到Unity导入工具完整指南:快速实现设计到开发的无缝衔接 【免费下载链接】FigmaToUnityImporter The project that imports nodes from Figma into unity. 项目地址: https://gitcode.com/gh_mirrors/fi/FigmaToUnityImporter 在现代游戏开发中&#xf…

作者头像 李华
网站建设 2026/1/15 2:29:47

【MCP量子认证冲刺指南】:考前必做的8大经典模拟题型精讲

第一章:MCP量子认证考试概述MCP量子认证考试是面向现代云计算与量子计算融合领域的一项高级技术资格认证,旨在评估开发者在混合计算架构下的系统设计、安全控制与算法优化能力。该认证由国际量子计算联盟(IQCA)联合主流云服务商共…

作者头像 李华
网站建设 2026/1/23 2:38:25

MoviePilot时段控制:让智能通知不再打扰你的美梦

MoviePilot时段控制:让智能通知不再打扰你的美梦 【免费下载链接】MoviePilot NAS媒体库自动化管理工具 项目地址: https://gitcode.com/gh_mirrors/mo/MoviePilot 想象这样一个场景:深夜两点,你正沉浸在甜美的梦境中,突然…

作者头像 李华
网站建设 2026/1/22 22:15:41

3个步骤快速上手:用Ant Design X Vue打造专业级AI对话界面

3个步骤快速上手:用Ant Design X Vue打造专业级AI对话界面 【免费下载链接】ant-design-x-vue Ant Design X For Vue.(WIP) 疯狂研发中🔥 项目地址: https://gitcode.com/gh_mirrors/an/ant-design-x-vue 还在为开发智能对…

作者头像 李华