news 2026/6/9 19:43:11

resnet -> HC -> mHC

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
resnet -> HC -> mHC

经典的 ResNet 范式

过去十年,深度学习包括 Transformer)的基石是残差连接。
其公式非常简单:

其中 xl是第 l 层的输入。
这种设计最核心的优势在于 Identity Mapping 属性,它保证了信号在深层网络中传播时不会无限衰减或爆炸,是深层模型能训练起来的关键。

挑战者:Hyper-Connections (HC)

之前,字节提了一种叫 Hyper-Connections (HC) 的设计,试图打破标准残差的限制。
HC 的核心思想是:把残差流变宽。
它将残差流的特征维度从 C扩展到 n×C(n 是扩展倍数),让层与层之间有更丰富的信息通道。
其公式变为:

这里引入了三个可学习的矩阵
Hpre: 从宽残差流聚合信息输入到层。
Hpost: 将层输出映射回宽残差流。
Hres: 这是最关键的,它负责在残差流内部混合信息。

HC 的问题

虽然 HC 增加了容量,但它破坏了 Identity Mapping。
当网络层数 L 变深时,信号经过多个 Hres的连乘,会导致数值爆炸或消失。
实验表明,如果不加约束,HC 在大规模训练中极不稳定,Loss 会突然飙升,Gradient Norm 也会震荡

核心方法:mHC (Manifold-Constrained Hyper-Connections)

DeepSeek 团队提出的 mHC,核心思路非常直观:既然 HC 不稳定是因为 Hres太自由了,那我们就把它限制在一个安全的流形上。

什么是安全的流形?

mHC 强制要求残差映射矩阵 Hres必须是一个 双随机矩阵。
即满足以下条件:

  • 所有元素非负 (Hres≥0)。
  • 每一行的和为 1。
  • 每一列的和为 1。
    数学上,这个集合构成了 Birkhoff 多面体。

双随机矩阵有两个极好的数学性质,完美契合深度学习的需求:

  • Norm Preservation:它的谱范数 ≤1,这意味着信号经过它处理后,能量不会被无限放大,从而避免了梯度爆炸。
    Compositional Closure:两个双随机矩阵相乘,结果依然是双随机矩阵。这意味着无论堆叠多少层,依然保持良好的性质,恢复了类似 Identity Mapping 的稳定性。

如何实现?(Sinkhorn-Knopp 算法)

在代码实现上,如何保证一个可学习的矩阵始终是双随机的?
作者使用了 Sinkhorn-Knopp 算法。
给定一个初始参数矩阵,先取指数保证非负,然后交替进行行归一化和列归一化:

DeepSeek 在实验中迭代了 20 次 (tmax=20),就能得到满足约束的 Hres。
这也是这篇论文最精彩的理论部分:
把信号传播变成了一种特征的凸组合,既保留了 HC 的多流交互能力,又锁死了稳定性。

图8:HC与mHC矩阵的可视化对比,可以看到HC的值非常大且杂乱,而mHC的值分布均匀且稳定

系统级优化:理论很美,但速度怎么

搞过 LLM 的都知道,Memory Wall 是最大的瓶颈。
HC 将残差流扩大了 n 倍(例如 n=4),这意味着显存访问量 (I/O) 激增。
如果不做优化,训练速度会慢到无法接受。这里,DeepSeek 展现了他们强大的工程能力。

  • 算子融合
    由于 n倍的宽度,读写数据量巨大。
    作者利用 TileLang 开发了定制的 CUDA Kernel:
    将 RMSNorm 和矩阵乘法融合。
    将前向传播中的多次扫描操作融合到一个 Kernel 中。
    将 Sinkhorn-Knopp 的迭代计算融合在一个 Kernel 内部完成,避免中间结果频繁读写显存。
  • 重计算策略
    为了节省显存,作者设计了分块重计算策略。 不是每一层都存激活值,而是每 Lr层存一次输入 xl0。反向传播时,重新计算中间的 mHC 投影算子。这大大降低了峰值显存占用。
  • DualPipe 中的通信重叠
    在大规模流水线并行中,mHC 带来的额外通信量会阻塞计算。
    作者改进了 DeepSeek-V3 使用的 DualPipe 调度策略:
    把 MLP 的计算放在高优先级流上。
    把 mHC 的重计算和 Attention 的计算与通信进行更加细粒度的重叠。
    结果: 在 n=4的情况下,相比标准模型,mHC 的训练时间仅增加了 6.7%

图4:mHC 在 DualPipe 中的通信与计算重叠调度示意图

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 16:44:31

sql注入详解,看这篇就够了!

SQL注入详解 一、什么是SQL注入? SQL注入(SQL Injection)是一种将恶意SQL代码插入到应用程序输入参数中的攻击技术,攻击成功后可以获取、篡改或删除数据库数据,甚至控制服务器。 二、攻击原理 -- 原始查询语句 SEL…

作者头像 李华
网站建设 2026/6/6 16:58:26

千万不能错过!太原这家文创伴手礼定制公司太惊艳了!

千万不能错过!太原这家文创伴手礼定制公司太惊艳了!引言在当今社会,文化创意产业日益受到重视,越来越多的企业和个人开始关注文创产品的设计与制作。太原作为一座历史悠久的城市,拥有丰富的文化底蕴和独特的地域特色&a…

作者头像 李华
网站建设 2026/6/8 17:11:44

Web安全 | EmpireCMS漏洞常见漏洞分析及复现

前言 本文将对EmpireCMS(帝国cms)的漏洞进行分析及复现。代码分析这一块主要还是借鉴了大佬们的一些分析思想,这里对大佬们提供的思路表示衷心的感谢。 环境搭建 帝国cms的默认安装路径为http://localhost/e/install,进入安装一直往下 到连接数据库这…

作者头像 李华
网站建设 2026/6/6 21:08:35

数据恢复神器,官方免费

今天给大家推荐两款工具,一款是数据恢复工具,一款是窗口激活工具,有需要的小伙伴可以下载收藏。 第一款:Lexar Recovery Tool 数据恢复类的软件之前也推荐过不少,数据恢复类的软件其实现在还蛮多免费版本,…

作者头像 李华
网站建设 2026/6/5 22:55:34

基于SpringBoot的农产品溯源管理系统设计实现

背景与意义 技术背景 SpringBoot作为Java领域的轻量级框架,凭借自动化配置、快速开发等特性,显著降低了企业级应用的开发门槛。微服务架构的普及进一步推动了SpringBoot在复杂系统中的应用,为农产品溯源这类多角色、多环节的系统提供了技术…

作者头像 李华