智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

DeepSeek联合顶尖高校发布新论文,DualPath架构破解LLM推理性能瓶颈

2026-02-28来源:互联网编辑:瑞雪

研究团队通过实证分析发现,在典型编程任务场景中,智能体平均需要完成157轮交互,上下文长度累计达32.7K个语言单元,但每轮新增内容仅429个单元。这种"长上下文、短增量"的特性,使得键值缓存(KV-Cache)的加载效率成为决定系统性能的关键因素。实验数据显示,现有架构中存储带宽利用率存在严重失衡——预填充引擎的带宽资源长期处于满负荷状态,而解码引擎的带宽资源却有90%以上处于闲置状态。

硬件发展趋势进一步加剧了这种矛盾。以英伟达GPU架构演进为例,从Ampere到Blackwell架构,计算性能提升了14.4倍,但存储带宽和显存容量的增长幅度不足3倍。这种计算与存储能力发展的非对称性,导致传统预填充-解码分离架构的吞吐量提升遭遇天花板。

该架构的实现面临三大技术挑战:首先是数据传输粒度控制,研究团队设计了分层块传输机制,将缓存数据切割为不同粒度的传输单元,使网络开销降低60%;其次是流量隔离技术,通过引入中心化网络控制器和InfiniBand虚拟通道,确保关键计算任务不受数据加载影响;最后是动态调度算法,系统实时监测GPU负载、网络状态和任务特征,自动调整预填充与解码模块的资源分配比例。

性能评估显示,在包含6600亿参数的DeepSeek-V3.2模型测试中,新架构在离线批处理场景下实现1.87倍吞吐量提升,在线服务场景的智能体处理能力提升近2倍。更值得关注的是其扩展性表现:在由1152块GPU组成的集群测试中,系统从8节点扩展到144节点时,性能提升幅度达到理论值的92%,且延迟波动控制在5%以内。在44个预填充引擎+88个解码引擎的配置下,系统吞吐量较基线系统提升22倍。

DeepSeek V4预览版闭门内测开启:百万tokens上下文与多模态能力引期待
【太平洋科技】2月26日消息,随着发布临近,DeepSeek V4更多技术细节曝光。据消息源@Legit透露,DeepSeek已开始对其代号为“sealion-lite”的V4预览版进行闭门内测,参与方均…

2026-02-27

AMD发布Adrenalin Edition 26.2.2版驱动,支持新游并修复RX 7000系列显卡问题
IT之家 2 月 27 日消息,AMD 昨日(2 月 26 日)发布 Adrenalin Edition 26.2.2版显卡驱动,新增支持《生化危机:安魂曲》和《失落星船:马拉松》游戏。 针对卡普空的恐怖生…

2026-02-27