智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

阿里通义千问Qwen CodeElo测试:o1-mini编程力超九成人类程序员

2025-01-04来源:ITBEAR编辑:瑞雪

近日,阿里巴巴旗下的通义千问Qwen团队推出了一个名为CodeElo的基准测试,该测试旨在通过Elo评级系统,对比大语言模型(LLM)与人类程序员的编程能力。

在AI应用场景中,大语言模型的一个关键应用是代码生成与补全。然而,在评估LLM编程能力的真实性方面,业界面临着诸多挑战。现有的基准测试,如LiveCodeBench和USACO,都存在明显的局限性,如缺乏健壮的私有测试用例、不支持专门的判断系统,以及执行环境不一致等问题。

CodeElo基准测试的核心优势在于其全面性、稳健性和标准化。在题目选择上,CodeElo涵盖了广泛的比赛分区、难度级别和算法标签,为LLM提供了全面的评估。在评估方法上,CodeElo利用CodeForces平台的特殊评估机制,确保了对代码准确性的判断,避免了误报等问题,并支持需要特殊评判机制的题目。在评级计算上,CodeElo采用Elo评级系统,根据问题的难度和解决方案的正确性对LLM进行评分,并对错误进行惩罚,从而激励高质量的解决方案。

在对30个开源LLM和3个专有LLM进行测试后,结果显示OpenAI的o1-mini模型表现最为出色,其Elo评分达到了1578,超过了90%的人类参与者。在开源模型中,QwQ-32B-Preview以1261分的成绩位居榜首。然而,这些模型在解决简单问题时仍然表现出一定的困难,通常排名在人类参与者的后20%左右。分析发现,这些模型在数学和实现等类别上表现出色,但在动态规划和树形算法方面存在明显的不足。

测试还发现,当使用C++进行编码时,LLM的表现更为出色,这与竞技程序员的偏好一致。这些结果不仅揭示了LLM在编程能力方面的优势,也指出了其需要改进的领域。通过CodeElo基准测试,我们可以更加清晰地了解LLM在编程竞赛中的表现,并为未来的研究和开发提供有益的参考。

随着技术的不断发展,LLM在编程领域的应用将会越来越广泛。CodeElo基准测试的推出,为评估LLM的编程能力提供了一个新的视角和工具。未来,我们可以期待更多类似的基准测试出现,以推动LLM在编程领域的不断进步和发展。

iPhone 17系列上市两月中国市场激活破千万,配置亮眼预售火爆
2025年11月14日,知名数码博主“数码闲聊站”爆料称,iPhone 17系列于本周完成中国市场激活超1000万台。 据了解,iPhone 17系列于2025年9月10日苹果秋季发布会推出,含标准版、Air…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

华为Mate 80系列新料:20GB国产内存搭配麒麟9030 配置亮点多
根据近期华为新机规划以及各方爆料,这款机型预计为华为 Mate 80 系列,有爆料称该系列新品将在 11 月 25 日发布。其中,ProMax 并非简单的名称更换,而是定位与 Pro 版差距更大的新增机型…

2025-11-14

疑似小米新款大尺寸横向阔折叠手机曝光 参数配置或迎重大升级
据CNMO了解,此前,有数码博主爆料称,小米新款大折叠手机正在测试2亿像素主摄,或采用1/1.4英寸大底高像素方案,可能支持35mm、50mm裁切光变。目前小米大折叠产品线型号为"MIX Fold",而新款…

2025-11-14

Q3国内消费级XR设备销量攀升 雷鸟领衔AR市场技术融合前景广阔
报告显示,国内消费级AR和VR眼镜市场销量达16.9万台,环比增长17%,同比增长57%。消费级VR设备销量为4.0万台,环比增长8%,Meta低价策略维持了VR市场的小幅增长。VR设备采用的Fast LC…

2025-11-13

GPT-5.1正式登场:从参数跑分到懂你交互,AI助手开启新未来
GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT可以更稳定地,按照我们定义的个性来完成各项任务。 OpenAI 这次提供了后悔药,付费用户在 3 个月内…

2025-11-13

中国中煤突破!世界首台套600MW级超超临界锅炉实现煤气高效掺烧
IT之家 11 月 12 日消息,中国中煤官方今日宣布,其牵头成功研发世界首台套耦合副产煤气 600MW 级超超临界二次再热锅炉。该设备近日还成功入选国家能源局公告发布第五批能源领域首台(套)重大技术装备名单…

2025-11-12

京东11.11手机销售成绩亮眼 鸿蒙以旧换新新品AI手机全线飘红
11月11日24点,京东11.11迎来圆满收官。超级供应链上的京东11.11,为消费者带来了“又好又便宜”的商品和服务,手机产品销量增长显著。数据显示,10月9日20点至11月11日24点,成交额破亿的手机单…

2025-11-12