智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

英伟达发布开源框架Polar,助力代码智能体训练效率与表现双提升

2026-05-28来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用方式和开发流程不变。

GRPO作为一种强化学习优化方法,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术可使模型在真实工具调用和代码补丁提交过程中持续优化表现。研究团队指出,当前智能体强化学习正从单一任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架,传统改造方式往往导致关键训练信号丢失。

Polar框架的创新之处在于其独特的训练边界设计。不同于传统方法对执行框架的全面改造,该框架在模型API边界处部署智能体,最大限度保留原有开发环境(harness)的完整性。这种设计兼容Anthropic、OpenAI、Google等主流API风格,通过记录请求提示词、采样令牌、对数概率等关键数据,构建完整的训练轨迹。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理会话全生命周期,包括框架初始化、轨迹构建和资源回收。研究团队特别优化了任务处理流程,将初始化、运行和后处理阶段分离到独立工作池,配合READY缓冲区机制,使GPU训练效率提升显著。

实验数据显示,基于Qwen3.5-4B模型的测试中,Polar配合GRPO训练使四种代码执行框架的性能获得显著提升:在SWE-Bench Verified基准测试中,Codex框架的pass@1分数从3.8%跃升至26.4%,增幅达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率提升至87.7%。

华为韬定律引领芯片革新,北大团队“真3D”EDA工具原型取得关键突破
5月26日,北京大学集成电路学院宣布,面向韬定律逻辑折叠需求研发的“真3D”EDA工具原型取得关键突破。该工具支持完整三维空间协同优化,支持跨die逻辑自由分配与联合热优化,可覆盖千万级实例设计。目前工具已…

2026-05-28

2026购机不再愁!高性价比机型推荐,续航流畅防护全搞定
华为畅享 90 Pro Max凭借自研芯片与鸿蒙系统的深度适配、8500mAh 巨鲸级长效续航、全套国际及国内专业权威认证、全场景 AI安全防护体系,在千元档位中拥有稳固的综合实力,是 2026 年购机参考…

2026-05-28

2026年6月3000-4000元手机怎么选?荣耀600系列领衔多款机型推荐
作为3000到4000元档最值得入手的旗舰机型,荣耀600系列在ID设计、影像、屏幕、续航等维度实现了全方位创新升级。 RedmiK80以2499元起的售价,提供了第三代骁龙8旗舰芯片和2K 120Hz …

2026-05-28

石头科技获吸尘器主机外观专利授权,研发投入大增构建全产业链防护网
这项设计以独特的造型为核心亮点,不仅展示了公司在工业设计方面的深厚积累,还增强了其产品矩阵的差异化竞争力。其最新获权的吸尘器主机设计专利不仅优化了产品握持体验,还通过流体力学设计提升了清洁效率。 石头科技近…

2026-05-28

荣耀600系列手机惊艳亮相:美学设计、影像升级、续航强劲全都有
此次发布的荣耀600系列,包括Pro版、超级版和元气版三款机型。荣耀600 Pro和超级版搭载2亿像素超清大底主摄,支持CIPA6.0专业级防抖。 为提升暗光拍摄表现,该系列配备行业首个双对称AI变焦闪光…

2026-05-28