智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

新年新突破!DeepSeek发布mHC架构,为大模型训练难题提供新解法

2026-01-07来源:天脉网编辑:瑞雪

新年伊始,AI技术领域迎来一项重要突破——DeepSeek团队悄然发布了一篇关于大模型训练架构的学术论文。这篇未经过大规模宣传的论文,凭借其创新性设计迅速引发行业关注,核心内容围绕一种名为mHC的新型架构展开。

传统大模型训练常被比作信息处理工厂,其中残差连接如同工厂中的传送带。早期采用单通道设计的传送带虽能保证信息完整传递,但随着模型规模扩大,单通道逐渐暴露出信息拥堵问题。字节跳动团队此前提出的超连接方案试图通过多通道设计突破瓶颈,但新架构在缺乏统一调度机制的情况下,导致信息传输过程中出现失衡现象,甚至引发梯度爆炸等训练崩溃问题。

DeepSeek团队提出的mHC架构针对这一痛点展开创新。该架构并非简单否定多通道设计,而是引入基于Sinkhorn-Knopp算法的智能调度系统。通过将连接矩阵约束在双拟随机矩阵的流形上,确保信息传输过程中能量守恒,避免出现信号异常放大或衰减。研究团队还对输入输出映射施加非负约束,防止正负系数相互抵消导致有效信号丢失。

在基础设施优化方面,研究团队通过算子融合技术将多个计算步骤整合,显著减少内存读写次数。同时采用重计算策略,在反向传播阶段重新生成中间数据,有效降低内存占用。实验数据显示,在4倍扩展倍率下,训练时间仅小幅增加,但稳定性得到质的提升。

实证研究环节,团队使用不同规模模型进行测试,重点验证270亿参数模型的表现。实验结果表明,mHC架构成功解决了超连接方案的训练不稳定问题,最终损失值较传统基线模型降低12%。在下游任务测试中,新架构在推理类任务上展现出显著优势,性能提升幅度达5个百分点。规模扩展实验进一步证明,从30亿到270亿参数的模型训练中,mHC的性能优势始终保持稳定。

这项研究的意义不仅限于技术突破。传统大模型训练因成本高昂、稳定性差,将众多中小企业挡在门外。mHC架构通过平衡性能、稳定性与成本三要素,为行业提供了新的发展路径。其改良式创新思路,或将推动更多企业参与大规模模型研发,促进AI技术生态的多元化发展。

Satechi发布Thunderbolt 5 CubeDock扩展坞:高速传输 8TB存储 180W供电
在传输性能上,CubeDock 提供了 80Gb/s 的双向带宽,并支持通过“带宽增强功能(BandwidthBoost)”将视频传输带宽提升至 120Gb/s。该线缆同样支持 80Gb/s 双向数据传输…

2026-01-07

英伟达黄仁勋荣膺2026年IEEE荣誉奖章 加速计算领域成就获高度认可
IEEE在新闻稿中表示,黄仁勋因其毕生的远见卓识领导力和在加速计算领域的开拓性工作而受到表彰,这些成就推动了英伟达成为技术创新的前沿阵地。IEEE 为表彰那些不仅定义了我们领域的卓越,而且激励了下一代工程…

2026-01-07

联想CES 2026发布Yoga AIO i Aura Edition:透明底座打造悬浮视觉,配置拉满沉浸体验
IT之家 1 月 7 日消息,联想今日在 CES 2026 上发布了一款“悬浮在空中”的电脑一体机。 Yoga AIO i AuraEdition 搭载 31.5 英寸 4K 165Hz OLED 显示屏,…

2026-01-07