智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

DeepSeek发布新论文提出“条件记忆”,或为V4大模型提供关键技术支撑

2026-01-13来源:互联网编辑:瑞雪

DeepSeek团队在人工智能领域再掀波澜,其最新研究论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》正式发布,提出了一种名为"条件记忆"的创新技术框架。这项突破性成果旨在解决大语言模型在知识检索与动态推理之间的效率矛盾,通过引入稀疏查找机制优化模型架构,为下一代稀疏模型发展开辟新路径。

研究团队由DeepSeek核心成员与北京大学王选所赵东岩、张辉帅团队联合组成,针对现有混合专家模型(MoE)的局限性展开攻关。传统Transformer架构在处理命名实体、公式化表达等静态知识时,需通过多层注意力机制重建检索路径,造成计算资源的浪费。新提出的Engram模块通过稀疏查找操作直接获取静态嵌入,与MoE的动态参数激活形成互补,形成"动态计算+静态检索"的双轨机制。

实验数据显示,在固定参数量和计算量的条件下,将20%-25%的稀疏参数分配给Engram模块可获得最优性能。以100亿参数规模模型为例,验证损失值从1.7248降至1.7109。基于该发现训练的Engram-27B模型,通过调整专家数量与记忆模块配比,在知识推理、代码生成等任务中展现出显著优势:MMLU基准测试提升3.0分,Humaneval代码生成任务提升3.0分,GSM8K数学推理提升2.2分。

这项技术突破的核心在于"U形扩展定律"的发现。研究证实,当Engram内存占比达到总稀疏参数的74.3%时,模型在保持计算效率的同时,能有效释放注意力机制的处理能力。机制分析表明,Engram模块通过将静态知识检索前移至早期网络层,使后续注意力层可专注于全局上下文理解,特别在长文本处理场景中表现出色。

值得关注的是,该研究明确将条件记忆定位为下一代稀疏模型的基础组件。结合近期外媒报道,DeepSeek计划在春节前后发布的新旗舰模型V4,极有可能集成这项创新技术。知情人士透露,内部测试显示V4在代码生成领域已超越Claude、GPT等主流模型,其强劲表现引发行业高度期待。

自2024年发布R1模型引发全球关注以来,DeepSeek持续保持技术迭代速度。2025年下半年,该团队平均每月都有重要成果发布:12月开源的V3.2系列模型达到GPT-5水平;11月发布的Math-V2成为首个通过国际奥数金牌测试的开源模型;10月推出的OCR技术通过光学压缩将长文本处理成本降低60%;9月更以百万token输入价格0.2元的策略震动行业。

此次条件记忆技术的突破,标志着大语言模型进入"动态智能+静态知识"的融合发展阶段。通过解耦存储与计算,Engram架构不仅提升了知识检索效率,更重构了模型内部的注意力分配机制。这种设计范式为处理多模态数据、构建通用人工智能提供了新的技术路径,或将重新定义AI模型的能力边界。

中国扫地机器人席卷东南亚市场,Lazada助力石头科技等品牌“圈粉”当地消费者
捷孚凯(GfK)数据也验证了胡海姣的判断,2025年前七个月,东南亚扫地机器人零售市场的销售额同比增长了近40%,成为增长动能最强劲的新兴市场。“Lazada在品牌层面的持续建设,不仅提升了我们的产品转化效…

2026-01-13

苹果2026年新机展望:折叠屏领衔 四款iPhone机型亮点抢先看
与基础版iPhone 17相比,iPhone17e的主要不足在于仍然只配备单后置摄像头,显示屏不支持ProMotion或息屏显示功能,也没有摄像头控制按钮。 A:苹果首款折叠屏iPhone预计将在2026…

2026-01-12

移远通信CES 2026发布SP895BD-AP智能模组,高通跃龙Q-8750芯片赋能AIoT新体验
IT之家 1 月 12 日消息,移远通信 (Quectel) 本月 6 日在 CES 2026 上正式推出了新一代旗舰级智能模组SP895BD-AP,这一型号基于高通同期发布的跃龙 Q-8750 芯片。 跃…

2026-01-12

小米17 Air工程机曝光:超薄设计对标苹果,因市场研判最终被砍
而在今天(1 月 12 日)下午,微博博主透露,某厂的 Air 工程机完全对标苹果 iPhone Air,搭载 6.59 英寸中屏、金属中框。博主表示,这台手机还拥有 2 亿像素后置双摄,搭载高通骁龙 8…

2026-01-12