news 2026/6/10 2:02:26

DeepSeek新工作mHC:一个优化版的残差连接结构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek新工作mHC:一个优化版的残差连接结构

前天,DeepSeek发布了一篇新的工作[1]。

标题是:mHC: Manifold-Constrained Hyper-Connections
翻译一下:mHC:流形约束的超连接

这篇工作是一个阶段性的研究成果,而不是模型更迭。

原文的数学性很强,本文主要从更容易理解的宏观层面,看看它在做什么。

回顾残差结构

这篇工作用一张图就能概括。

下图a是早已广泛应用的残差结构,图b是24年新提出的超链接结构(HC),图c则是这篇工作提出的mHC结构。

残差结构主要是应对解决深度神经网络的训练不稳定的问题。

因为当神经网络层数增加,每一层都有可能丢一部分信息,层出多了就容易出现梯度消失或梯度爆炸。

ResNet提出的残差结构是在旁路多加了一条 shortcut,即

输出 = x + F(x)

这样处理,就把网络从学一个复杂映射变成学一个接近 0 的修正项。

它可以保证网络每一层在最差情况下什么都不学,参数也和上一层保持一样,不会变坏。

这样网络就可以叠得更加深。

超链接结构(HC)

虽然普通残差很有效,但它会导致的一个现象是:“这一层的特征,只和上一层的同一条特征有关。”

因为每一层都是对应通道的相加,通道之间没有相互交流。

为了更充分地增加信息利用:HC 把 “一条残差流” 变成 “n 条并行残差流”,并允许它们互相交换信息。

这样处理,大模型会更“灵活”,特征组合方式更多样。

一句话总结:残差保证“不会退步”,HC 追求“用得更全”。

流形约束的超连接结构(mHC)

虽然HC的思想很好,但存在的一个局限性就是模型训练不稳定。

因为残差通道的组合是模型自己通过学习得到的,它破坏了残差连接固有的恒等映射特性,导致梯度消失/梯度爆炸会重新出现。并且,扩宽的残差流带来了显著的内存访问开销。

mHC的思路是将HC的残差连接空间投影到一个特定的流形(manifold)上,以恢复恒等映射特性,保障训练稳定。

同时,mHC还在系统层面,采用了内核融合、选择性重计算、通信重叠等方式减小内存访问开销。

mHC在27B的模型上进行了实验,发现训练的稳定性得到了提升。

并且,模型的性能整体也得到提升。

总之,这是一项偏基建类型的工作,作者团队也只是拿小参数量模型进行了验证。

估计这一项改进会应用到下一代的模型中,期待他们在过年前放出大招。

参考

[1] https://arxiv.org/pdf/2512.24880

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 18:40:55

Umi-OCR离线部署全攻略:从环境配置到性能优化的7大实战方案

Umi-OCR离线部署全攻略:从环境配置到性能优化的7大实战方案 【免费下载链接】Umi-OCR Umi-OCR: 这是一个免费、开源、可批量处理的离线OCR软件,适用于Windows系统,支持截图OCR、批量OCR、二维码识别等功能。 项目地址: https://gitcode.com…

作者头像 李华
网站建设 2026/6/9 18:33:33

dnSpyEx调试器实战指南:10个高效.NET程序逆向分析技巧

dnSpyEx调试器实战指南:10个高效.NET程序逆向分析技巧 【免费下载链接】dnSpy 项目地址: https://gitcode.com/gh_mirrors/dns/dnSpy 还在为复杂的.NET程序调试而头疼吗?面对无源码的第三方程序集是否感到束手无策?dnSpyEx作为专业的…

作者头像 李华
网站建设 2026/6/9 21:04:49

AI伦理讨论焦点:lora-scripts让深度伪造技术平民化了吗?

AI伦理讨论焦点:LoRA-Scripts让深度伪造技术平民化了吗? 在某社交媒体平台上,一段视频悄然走红:一位公众人物“亲口”发表了一段从未公开过的言论。画面流畅、表情自然、语调真实——直到有人指出,这人根本没说过这话。…

作者头像 李华
网站建设 2026/6/9 19:45:31

PyCharm版本控制系统集成Git管理HunyuanOCR项目代码

PyCharm 与 Git 深度集成:高效管理 HunyuanOCR 项目代码的实战之道 在 AI 应用开发日益复杂的今天,一个典型的 OCR 项目不再只是跑通几个推理脚本那么简单。以腾讯混元OCR(HunyuanOCR)为例,从模型加载、接口封装到 We…

作者头像 李华
网站建设 2026/6/9 18:40:32

HunyuanOCR GitHub仓库星标破万:开发者社区活跃度分析

HunyuanOCR GitHub星标破万:一场轻量化端到端OCR的工程实践革命 在智能文档处理领域,我们正经历一场静默却深刻的变革。过去几年里,开发者面对OCR任务时,几乎默认要搭建一套复杂的级联流水线:先用检测模型框出文字区域…

作者头像 李华
网站建设 2026/6/9 18:38:24

OBS StreamFX终极教程:5步打造电影级直播画面

OBS StreamFX终极教程:5步打造电影级直播画面 【免费下载链接】obs-StreamFX StreamFX is a plugin for OBS Studio which adds many new effects, filters, sources, transitions and encoders! Be it 3D Transform, Blur, complex Masking, or even custom shader…

作者头像 李华