智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

英伟达开源框架Polar助力代码智能体训练,Qwen3.5-4B模型跑分显著提升

2026-05-29来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO(广义相对策略优化)训练方法无缝衔接,在保持原有工具调用模式和上下文管理机制不变的前提下,显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出,当前智能体强化学习正从单一操作向长流程任务转型,代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂,更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念,通过在模型API边界部署智能代理,避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性,同时实现训练数据的完整采集。

系统架构层面,Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理,后者则管控整个执行生命周期,包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制,通过READY缓冲区实现运行时预热与评测预热的并行处理,有效减少GPU训练等待时间。

实验数据显示,基于Qwen3.5-4B基础模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破:Codex框架的pass@1指标从3.8%跃升至26.4%,提升幅度达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式,其创新性的接口设计理念和系统架构优化,为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

零零科技哈浮AQUA来袭:全球首款防水飞行相机,开启水上拍摄新体验
AQUA 不仅延续了哈浮飞行相机经典的 AI 智能运镜、无需遥控器的交互体验,更在 IP67专业级防尘防水、水面起降的可靠性,以及专为水上运动优化的飞行性能等方面,实现了革命性突破。 AQUA 致力于攻克…

2026-05-29

手机屏幕新标杆:五款高性价比机型技术解析与适用人群指南
很多用户疑惑为何荣耀Magic8 Pro能在极暗环境下久看不累,答案正藏在京东方为其深度赋能的LTPO技术方案中。游戏手机对屏幕完整性的苛求,在京东方赋能红魔11 Pro+的“悟空屏2.0”中得以完美实现…

2026-05-28

2026年6月购机指南:3000-4000元高性价比手机大盘点,总有一款适合你
在这个竞争激烈的价位段每款手机都有自己的特色定位而荣耀600系列凭借其在影像屏幕续航等方面的全面表现成为最值得推荐的选择特别是对于追求高性价比又不想在任何方面妥协的用户来说它几乎满足了所有期待无论是白天还是…

2026-05-28

2026年4000元档拍照手机横评:实况防抖直播人像自拍,哪款能成你的记录神器?
如果你的核心需求是实况拍照、视频直播、动态人像记录,那么OPPO Reno16 Pro几乎是为这个需求量身定制的“天选之机”。OPPOReno16 Pro凭借其在动态影像(实况/直播)领域硬件(云台主摄)…

2026-05-28

4000-5000元学生换机怎么选?OPPO Reno16 Pro凭全能体验成首选
小结:OPPO Reno16 Pro是一款几乎没有短板的“水桶旗舰”,尤其在影像、直播、续航和防护这几个学生党高度关注的维度上做到了极致。 如果你追求极致的全能体验,特别是顶尖的影像、直播能力和超长续航,那…

2026-05-28

从安卓到鸿蒙别慌!入手nova16前,先了解微信这些实用新变化
然后来看看聊天管理上的区别,安卓版微信得长按聊天框才能弹出菜单;鸿蒙版微信只需要左滑一下聊天框,就能出现标记已读/不显示/删除选项。刚换华为新机的朋友不用担心,在熟悉了这些操作上的区别后,说不定还会觉得比之…

2026-05-28