智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

国产算力再攀高峰:深圳团队助力万亿级MoE大模型全参数训练稳落地

2026-06-09来源:快讯编辑:瑞雪

深圳河套学院AI训练平台项目团队近日联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS等机构,在国产算力大模型训练领域取得重大突破。基于昇腾910C国产算力集群,团队成功完成DeepSeek-V4-Pro全参数后训练工程实践,标志着国产AI基础设施从推理部署向超大模型全参数训练迈出关键一步。

作为拥有1.6万亿参数的MoE(混合专家)开源旗舰模型,DeepSeek-V4-Pro采用CSA+HCA混合稀疏注意力、mHC连接等创新机制,对训练框架提出极高要求。项目团队仅用一个月时间,便在千卡级昇腾910C集群上实现该模型全参数续训练与SFT(监督微调)稳定运行,累计完成超1500步训练,MFU(模型算力利用率)最终稳定在34.9%,单步训练时间控制在27秒。

技术层面实现三大核心突破:其一,构建覆盖权重、梯度、激活、优化器状态的分布式承载方案,实现数据并行、张量并行、流水并行与专家并行的协同工作;其二,优化MoE路由与稀疏注意力算子,通过专家负载均衡机制缓解通信拥堵与负载失衡问题;其三,建立全指标可视化长稳监控体系,确保多日连续训练中未出现Loss失控或NaN值异常。

在能力验证环节,团队设计专项实验增强模型数学建模能力。通过搭建SFT建模数据生产工作流,产出3000条高质量数学建模任务样本,覆盖4类目标任务与3种问题形态。训练结果显示,模型LM Loss收敛至0.2056,MTP 1 Loss收敛至0.2538,梯度曲线保持平稳。Benchmark评测表明,ORGeval WL等四项核心指标全面提升,复杂推理与建模能力显著增强。

该成果具备可复现、可工程化交付的万亿级MoE模型国产算力稳定训练能力。项目已完成工业级自动化运筹建模场景的闭环验证,证明国产算力可在短周期、低成本条件下完成行业大模型专项增强训练。此次突破不仅验证了国产硬件生态的成熟度,更为垂直领域大模型开发提供了全新解决方案。

iOS 27重磅来袭:补齐中国大陆节假日闹钟短板,调休日闹钟不再“失声”
快科技6月9日消息,今日,苹果正式发布iOS 27全新操作系统,带来多项AI新功能和性能优化。 WWDC 26结束后, 苹果也火速推送了iOS27首个开发者测试版,拥有开发者资格的用户已经可以下载尝鲜。 从…

2026-06-09

2026拍照手机怎么选?Find X9s Pro全能领衔,暗光抓拍虚化防抖全拿捏
小结:OPPO Find X9sPro在暗光清晰度、逆光人像、抓拍速度、视频防抖、人像虚化自然度以及旅拍续航可靠性这六大核心维度上,都提供了顶级且均衡的解决方案。 - 追求极致全能、无短板日常拍照体验,尤…

2026-06-09

理想马赫M100芯片亮相:算力超群
理想汽车即将于6月15日16:30举办一场名为"Livis Day 理想汽车软件与人工智能发布会"的重要活动。这场发布会备受关注,多位受邀嘉宾已收到由马赫M100芯片在车端运行Livis Agent生成的特殊邀请函,其创新形式引发行业热议。

2026-06-09

王腾回应塑料中框言论“回旋镖”,提及元器件涨价,手机厂商纷纷调价
毕竟 26 年各种元器件都在涨价,祝新机大卖 IT之家注意到,王腾此番回应提及了元器件上涨的问题。此前已有多家安卓手机厂商宣布部分产品调价:OPPO 和一加自 2026 年 3 月 16 日 00:0…

2026-06-09

苹果WWDC26主题演讲全流程:iPhone掌镜拍摄 Mac剪辑呈现炫技实力
IT之家 6 月 9 日消息,苹果今日举行 WWDC26 主题演讲活动,正式公布了 iOS 27、Siri AI 等新内容。根据苹果官方直播页面,本次主题演讲使用 iPhone 拍摄,在 Mac 上剪辑制作…

2026-06-09

WWDC26新动态:苹果AirPods新增自定义均衡器,iOS 27相册支持跨平台共享照片
IT之家 6 月 9 日消息,WWDC26 正在进行中,苹果宣布 AirPods 新增自定义均衡器功能,允许用户进一步打造属于自己的音效。IT之家注意到,iPhone 健康周期追踪现在还可以追踪更年期和围绝…

2026-06-09

WWDC26新亮点:苹果照片App引入“空间构图”,拍照构图更自由灵活
IT之家 6 月 9 日消息,在目前正在进行的 WWDC26 中,苹果宣布为照片 App 引入“空间构图”技术,相应功能号称来自 VisionPro 技术,能够帮助用户先拍照再构图。 具体来看,苹果利用设备…

2026-06-09