智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

GPT-5.5凌晨发布:编码科研能力飙升,Anthropic连夜应对竞争压力

2026-04-25来源:快讯编辑:瑞雪

OpenAI今日宣布推出新一代智能体编程模型GPT-5.5,这款模型被团队誉为"迄今为止最智能、最直观易用的系统",标志着人工智能在计算机辅助工作领域迈出关键一步。据官方介绍,该模型在代码编写、多工具协同、数据分析等复杂任务中展现出显著优势,尤其在需要持续推理和自主行动的场景中表现突出。

在编程能力方面,GPT-5.5全面超越Gemini 3.1 Pro,在专业任务处理、计算机视觉应用、工具调用及抽象推理等领域的测试成绩均领先于Claude Opus 4.7和Gemini 3.1 Pro。第三方评估机构Artificial Analysis的智能指数显示,该模型在10项核心评估中综合排名第一,其中在复杂执行测试Terminal-Bench 2.0中取得82.7%的成绩,真实世界问题解决测试SWE-Bench Pro中达到58.6%的准确率。

实际应用案例印证了模型的强大能力。开源项目Claude Engineer创始人Pietro Schirano展示,GPT-5.5在20分钟内自动完成代码版本对比、分支创建和冲突合并,还通过USB连接为Flipper Zero硬件设备开发了可运行的应用程序。更令人惊叹的是,该模型仅用单次提示就生成了操作流畅的3D射击游戏,所有图形均通过Three.js从零构建。

AI工程师Peter Gostev的测试表明,模型可稳定执行7小时以上的自主任务流程。在创建伦敦铁路模拟系统时,GPT-5.5生成的作品在构思规模和逻辑连贯性上较前代有显著提升,错误率降低40%。波兰数学教授Bartosz Naskręcki则利用单条提示词,在11分钟内构建出可可视化二次曲面交线的代数几何应用,并扩展了奇点可视化功能。

效率提升是该模型的另一大亮点。在完成相同Codex任务时,GPT-5.5的token使用量较前代减少30%,而输出质量保持稳定。这种优化使模型在保持响应速度的同时,显著降低了使用成本。定价策略显示,标准版输入token价格为每百万5美元,输出为30美元;Pro版则分别达30美元和180美元,虽较前代翻倍,但与Claude Opus 4.7持平。

知识工作场景中,模型展现出强大的上下文理解能力。在未经调优的客服测试中,GPT-5.5取得98%的准确率,能自主完成信息检索、工具调用和结果验证的全流程。财务团队使用该模型处理2.4万份税务表格时,通过自动化流程节省了两周工作时间。模型还支持跨文档分析,可协助研究人员审阅论文草稿、进行技术论证压力测试。

科学研究领域同样取得突破。在遗传学基准测试GeneBench中,模型展现出处理歧义数据和实现现代统计方法的能力。生物信息学评估BixBench显示,其性能领先于所有已公布分数的模型。更值得关注的是,研究人员利用该模型发现了拉姆齐数的新证明路径,展示了AI在数学研究中的潜在价值。

安全防护机制经过全面升级。OpenAI与内外红队合作,针对高级网络安全和生物技术能力进行专项测试,收集了近200个可信合作伙伴的实战反馈。模型在发布前通过了全套安全评估框架,确保在增强能力的同时保持可控性。

DeepSeek V4与Kimi K2.6同周亮相:中国AI开源模型开启“双向奔赴”新篇
在这套注意力机制上,K2扩展到了万亿参数的MoE模型。 2026年初的CES大会上,黄仁勋展示Rubin NVL72性能的slide里,训练基准用的是DeepSeek,推理吞吐和token成本基准用的是Ki…

2026-04-25

拯救者Y70新一代游戏手机5月19日登场:真机亮相,配置拉满主打AI游戏体验
4月份大部分新机已推出,而5月份的新机开始预热,有游戏手机、折叠屏、高性能平板等,其它新机陆续加入。新机部分内容已预热,比如2K猎速电竞屏、真机亮相、机身强化、AI游戏等方面,不愧是为游戏而生的新机。 真机已…

2026-04-25

2026年影像旗舰横评:多焦段全场景覆盖,哪款手机能成旅拍最佳搭档?
OPPO Find X9s Pro 最大的杀手锏,是首次在Pro档位上实现了 “哈苏双2亿超清影像系统” 。 Find X9s Pro实现了从超广角到长焦的 “黄金五焦段” 全覆盖,并且每个焦段都能直出5…

2026-04-24

2026年护眼影音手机怎么选?OPPO Find X9s Pro领衔三款旗舰横评来袭
今天,我们就聚焦于“护眼屏”和“影音娱乐”两大核心需求,为大家带来一期2026年的旗舰手机横评推荐,重点剖析那些在6000元预算内,能让你看得爽、玩得久、眼睛不累的“宝藏”机型。 综合来看,如果你在2026年…

2026-04-24

家庭新成员即将上线!具身智能新模型让机器人“懂”生活会“成长”
更重要的是,WALL-B突破了VLA只会模仿的天花板,开始具备对物理世界规律的认知,并能在真实交互中持续学习和自我进化,标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。 而家庭场景没有人能提前…

2026-04-24