智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

字节跳动推出Seed Prover 1.5 模型 数学推理能力与效率显著提升

2025-12-24来源:快讯编辑:瑞雪

字节跳动旗下Seed团队近日正式发布新一代形式化数学推理专用模型——Seed Prover 1.5。该模型通过大规模Agentic强化学习(RL)训练,在数学推理能力与效率方面实现突破性提升,成为形式化数学推理领域的重要进展。

在针对国际数学奥林匹克竞赛(IMO)的测试中,Seed Prover 1.5展现出强劲实力。仅用16.5小时,该模型便为IMO 2025前5道题目生成完整可编译验证的Lean证明代码,按竞赛评分标准换算后取得35分的成绩,达到金牌分数线(满分42分)。这一表现较前代模型有显著提升,标志着自动化数学推理向人类顶尖水平迈进一步。

面向北美本科数学竞赛Putnam的测试同样验证了模型的泛化能力。在9小时内,Seed Prover 1.5成功为Putnam 2025的12道赛题中的11道生成可验证的Lean代码,解题效率与准确性均达到竞赛级标准。更全面的评估显示,该模型在完整的Putnam历史题库中解决了88%的问题,在代表硕士数学难度的Fate-H评估集和博士生数学难度的Fate-X评估集中,分别攻克了80%和33%的题目,刷新了形式化数学推理模型在多项权威评测中的最优表现(SOTA)。

技术层面,Seed Prover 1.5通过创新的Agentic RL训练框架,实现了推理路径的自主规划与优化。其核心突破在于将形式化证明过程分解为可动态调整的子任务链,使模型能够根据问题特征灵活选择策略,显著提升了复杂数学问题的求解效率。团队公开的技术报告详细披露了模型架构与训练方法,为学术界与工业界提供了可复现的研究范式。

目前,Seed Prover 1.5的技术报告已对外发布,相关代码库与演示接口即将陆续开放。开发者可通过官方渠道获取Lean证明代码示例,体验模型在自动化数学推理领域的实际应用能力。这一进展不仅为数学研究提供新型辅助工具,也为人工智能在科学推理领域的拓展奠定了技术基础。

阿里Qwen-Image-Edit-2511开源:人物融合自然,风格控制实用新体验
在实际体验中,我们围绕人物一致性、LoRA光照、材质替换、文字渲染以及几何推理等能力,对Qwen-Image-Edit-2511进行了多组测试。 综合来看,内置LoRA的集成设计提升了Qwen-Image-…

2025-12-24

荣耀特训营:一笔投入,收获体能意志技能三重成长与长期财富
花一笔钱,能收获体能、意志、技能三重成长,荣耀特训营的性价比藏在细节里。专业教官团队不用额外付费,科学训练体系拒绝无效消耗,7天/14天方案满足不同需求。这里没有隐形消费:食宿包含在内,服装器材统一配备,结营…

2025-12-24

百元价位也能享高端体验!西圣Pencil X成孩子绘画平板最佳搭档
总结显然,这款百元档的西圣Pencil X实际体验下来确实是超乎自己的想象;现在回想一下,原装笔已经不香了,流畅度高、倾斜压感、防误触、低延迟、长续航…这些都是完美平替苹果Pencil的基础,更是优于其他杂…

2025-12-24

三星全球首发2nm芯片Exynos 2600:未集成5G基带需外挂方案
不过三星未在Exynos 2600芯片中集成5G基带,这引发了外界对该芯片综合能效的质疑。 虽然外挂基带方案简化了Exynos 2600的整体制造流程,有助于提升芯片的良率,但是其能效表现如何还要看真机实测…

2025-12-24

2025年4G手机卡仍是宝藏?便宜够用覆盖广,选对套餐省钱又省心
运营商所说的“无限”通常分两种:一种是真·无限但会限速,比如你用完了200GB的高速流量后,网速可能会直接降到128kbps,这速度可能连刷个文字新闻都费劲。另一种则是定向流量无限,但通用流量限量,比如对特定…

2025-12-24