智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

NVIDIA推出KVTC技术:内存用量最高减20倍,AI硬件成本或大幅降低

2026-03-23来源:快讯编辑:瑞雪

大型语言模型(LLM)在处理长对话时,常因内存占用过高而面临性能瓶颈。NVIDIA研究人员近日提出一项名为KVTC(KV快取转换编码)的创新技术,通过高效压缩模型推理过程中的KV缓存,将内存需求最高降低20倍,同时无需修改现有模型架构。这一突破有望显著降低企业部署AI的硬件成本,并提升模型响应速度。

KV缓存是LLM的“短期记忆”,存储对话历史中的关键信息(Key和Value),使模型无需重复计算已处理内容。然而,随着对话长度增加,KV缓存可能膨胀至数GB,占用大量GPU内存,导致推理速度下降甚至系统卡顿。NVIDIA资深深度学习工程师Adrian Lancucki指出:“LLM推理的性能瓶颈通常不在计算能力,而在于GPU内存的有限性。传统方法需将闲置缓存转移至CPU或硬盘,但数据传输会引入额外延迟。”

KVTC技术借鉴JPEG图像压缩原理,通过“主成分分析、自适应量化、熵编码”三步流程,精准捕捉KV缓存中数据的高度相关性,剔除冗余信息。其“非侵入式”设计允许企业直接集成至现有系统,无需调整模型代码或参数。实验数据显示,在参数量从15亿至700亿的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC将内存压缩20倍后,模型准确率损失不足1%,而传统方法仅压缩5倍便会导致显著性能下降。

在H100 GPU的实测中,处理8000个Token的提示时,启用KVTC后模型首次响应时间从3秒缩短至380毫秒,提速达8倍。这一优势在编程助手、迭代式推理等长对话场景中尤为突出,而短对话场景因缓存规模较小,压缩效果相对有限。

NVIDIA计划将KVTC整合至Dynamo框架的KV块管理器,并兼容vLLM等主流开源推理引擎。业内分析认为,随着LLM对话长度持续增加,标准化压缩技术或将成为AI落地的关键基础设施,其普及程度可能类比于视频压缩技术对多媒体行业的影响。

古尔曼爆料:新款入门iPad芯片升级A18,或4至5月发布支持AI功能
IT之家 3 月 22 日消息,本月早些时候,在苹果为期一周的新品发布活动中,不少人都期待除了 iPad Air、MacBook Neo以及其他新款 MacBook 之外,苹果还能更新旗下最平价的 iPad…

2026-03-23

轻薄与实力并存!1755元入手的moto X70 Air,中端市场的隐藏黑马
X70 Air这种思路就很讨喜,它给人的感觉不是“娇贵”,而是“轻,但不脆”。如果你追求的是极致游戏性能,那市场上确实有更激进的选择;可如果你想要的是一台轻薄好拿、颜值在线、防护够强、系统流畅、还有点AI新鲜…

2026-03-23

华为新机双箭齐发:Mate80风驰版性能拉满,畅享90系列续航越级!
高端有Mate系列和Pura系列,性能有风驰版这样的“激进分支”,中端有畅享系列的“性能升级”,低端有畅享基础款兜底,产品矩阵越来越完整,覆盖的用户群体也越来越广。总而言之,华为Mate80 Pro Ma…

2026-03-22

2026折叠屏怎么选不踩雷?这三款覆盖轻薄、大屏、生产力需求!
以前用折叠屏,展开后中间总有一条明显的折痕,看视频时特别影响体验。用它处理工作,完全不像在“尝鲜”,更像在用一台成熟的“生产力工具”。但即便如此,它依然有一群固定用户——那些看重系统生态、生产力体验,想要长期…

2026-03-22

小米上架2026款REDMI电视新品,多尺寸可选,100英寸款仅8799元
IT之家 3 月 22 日消息,小米新上架了 2026 款的 REDMI 电视新品,主打“高刷新 / 大内存 / 好系统 /新能效”,预约价不排除是占位符的可能,IT之家汇总京东信息如下: 43 英寸(L…

2026-03-22

苹果策略大调整:明年春季携iPhone 18三款新机开启一年两更新局
值得关注的是,去年苹果曾用iPhone Air取代了Plus机型,因此这款传闻中的新机极有可能是iPhone Air的第二代产品。 多家研究机构指出,苹果的Plus与Air系列在市场上的表现一直不尽如人意。据…

2026-03-22