智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 游戏机

腾讯发布Hunyuan-Large大模型:389B总参数与52B激活参数,业界领先!

2024-11-05来源:ITBEAR编辑:瑞雪

腾讯近日推出了业界领先的Hunyuan-Large大模型,该模型基于Transformer架构,并采用了MoE(Mixture of Experts)设计。据悉,这是目前业界已经开源的最大规模的MoE模型,拥有惊人的3890亿总参数和520亿激活参数。

腾讯在Hugging Face平台上开源了Hunyuan-A52B的三个版本,包括预训练版、指令版和指令版FP8,同时发布了详尽的技术报告与操作手册,供开发者深入了解模型的功能及操作方法。

Hunyuan-Large模型具备多项技术优势,例如通过高质量合成数据增强训练,使模型能够学习到更为丰富的数据表示,有效处理长上下文输入,并提升了对未见数据的泛化能力。模型还采用了创新的KV缓存压缩技术,通过分组查询注意力和跨层注意力策略,大幅降低了内存占用和计算成本,从而提高了推理效率。

该模型还引入了专家特定学习率缩放技术,为不同的专家子模型设定了差异化的学习率,确保了每个子模型都能从数据中高效学习,并为模型的整体性能作出贡献。在长上下文处理能力方面,Hunyuan-Large也表现出色,其预训练模型支持处理长达256K的文本序列,而指令版模型则支持128K的文本序列,显著增强了处理长上下文任务的能力。

为了验证模型的实际应用效果和安全性,腾讯在多种语言和任务上进行了广泛的基准测试。测试结果充分证明了Hunyuan-Large模型的卓越性能和广泛适用性。

对于想要深入了解Hunyuan-Large模型的开发者和研究者,腾讯提供了丰富的资源链接,包括论文、Github仓库、Huggingface模型库以及腾讯云上的相关产品页面。

一加Ace 5配置曝光:骁龙8 Gen3处理器、百瓦快充,影像性能有惊喜!
此外博主还透露了一加Ace 5 / Pro手机最快将于12月发布,并全系标配“6开头百瓦硅电池”,新机将分别搭载高通骁龙8 Gen3和8Gen4处理器(骁龙8 Gen4已改名骁龙8至尊版),并在外观形态方…

2024-11-05

我国ATF燃料组件全周期商用堆运行考验成功,核反应堆安全性再提升!
核动力院与中国核电、中国原子能、中核建中、福清核电等单位共同承研,先后攻克了 ATF燃料特征化组件设计技术、涂层包壳工艺技术、涂层包壳堆外试验技术等,于 2021 年 11 月开始了国内首次商用堆服役运行…

2024-11-05

Meta前增强现实硬件高管跳槽OpenAI,领航机器人与消费硬件新征程
卡利诺夫斯基是一位硬件高管,她于 2022 年 3 月开始领导 Meta 的 AR 眼镜团队。 OpenAI最近还开始为一个机器人团队招聘研究工程师,该团队旨在帮助 OpenAI 的合作伙伴将其多模态 A…

2024-11-05