news 2026/4/15 18:12:45

deepseek的mHC与Hyper-Connections讲解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
deepseek的mHC与Hyper-Connections讲解

deepseek在2026年1月1日出了一篇文章叫做 mHC: Manifold-Constrained Hyper-Connections,其本质其实就是在2024年字节的另一篇Hyper-Connections的文章上做的一点点算法上的改进和大量工程上的改进,其实只需要知道Hyper-Connections就能明白mHC了

Hyper-Connections

传统的residual connection其实就是在feature经过layer的基础上加上了1份残差连接

Hyper-Connections的思想就是:

1,把输入复制n份,用一个可学习的权重矩阵A_m把这n份向量合到一起,送到原来的layer

2,对于输出的值,把它用一个可学习的分配矩阵B再次分配成n份,保持输入输出一致

对于残差连接部分:

通过一个A_r矩阵,将输入的每个channel按照A_r的可学习的权重来混合其他channel的信息

Hyper-Connections其实就是residual connection的扩展版本,使得residual的连接更为灵活,在输入端可以是input feature的不同倍数,在输出端也可以分配不同的倍数,使得最终的残差连接更为灵活。

Hyper-Connections总览图:

Hyper-Connections在残差连接上提供了更多样化的路径

mHC:Manifold-Constrained Hyper-Connections

mHC其实就是对Hyper-Connections的权重矩阵做了更多的约束,使得训练更稳定,本质上和Hyper-Connections其实一样。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 21:36:24

联系技术支持前请准备好日志文件与复现步骤,便于快速诊断

联系技术支持前请准备好日志文件与复现步骤,便于快速诊断 在智能语音系统日益普及的今天,越来越多的企业和个人开始依赖高精度语音识别工具完成会议记录、客服转写、内容创作等任务。Fun-ASR 作为钉钉与通义实验室联合推出的语音识别大模型系统&#xff…

作者头像 李华
网站建设 2026/4/12 15:26:16

Elasticsearch下载和安装图解说明:适配日志分析架构

从零开始搭建日志分析系统:Elasticsearch 安装实战与架构解析你有没有遇到过这样的场景?线上服务突然报错,几十台服务器的日志散落在各处,运维团队手忙脚乱地登录每台机器执行grep error *.log,花了半小时才定位到问题…

作者头像 李华
网站建设 2026/4/12 3:44:33

初创企业可申请资源扶持计划,降低早期技术投入成本

初创企业如何用本地化ASR系统突破语音识别落地瓶颈? 在智能办公、远程协作和AI客服日益普及的今天,语音转文字能力几乎成了所有创新型产品的标配功能。但对大多数初创团队来说,一个现实问题始终挥之不去:依赖云服务商的API虽然接入…

作者头像 李华
网站建设 2026/4/15 15:22:49

3秒破局:MHY_Scanner直播抢码技术实战指南

3秒破局:MHY_Scanner直播抢码技术实战指南 【免费下载链接】MHY_Scanner 崩坏3,原神,星穹铁道的Windows平台的扫码和抢码登录器,支持从直播流抢码。 项目地址: https://gitcode.com/gh_mirrors/mh/MHY_Scanner 还在为直播间…

作者头像 李华
网站建设 2026/4/13 9:58:11

安装包太大下不动?Fun-ASR轻量版模型镜像限时分享

安装包太大下不动?Fun-ASR轻量版模型镜像限时分享 在AI语音识别技术飞速发展的今天,Whisper、通义千问等大模型凭借高准确率成为行业标杆。但它们动辄数GB的体积、对高端GPU和大量内存的依赖,让许多个人开发者、教育用户甚至中小企业望而却步…

作者头像 李华
网站建设 2026/4/6 5:36:01

UI-TARS-1.5:100%通关游戏的多模态AI助手

导语:字节跳动最新开源的多模态AI模型UI-TARS-1.5在14款Poki游戏中实现100%通关率,同时在GUI交互任务上超越OpenAI CUA等竞品,重新定义智能体在虚拟环境中的操作能力。 【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/…

作者头像 李华