智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

Meta-Harness:AI智能体“自我进化”新路径,小模型性能跃升新高度

2026-04-05来源:快讯编辑:瑞雪

当AI智能体不再依赖人工调试参数和修复漏洞,而是能够自主完成这些任务时,人工智能的发展将迎来怎样的变革?斯坦福大学IRIS实验室与麻省理工学院、威斯康星大学的研究团队近期联合发布了一项突破性成果,通过开发名为meta-Harness的自动化框架,让AI智能体实现了对自身运行环境的自主优化。这一研究不仅颠覆了传统模型优化的路径,更在多个基准测试中展现出超越人类工程师的潜力。

传统AI开发中,模型性能的提升往往聚焦于扩大参数量、增加训练数据或优化强化学习策略。然而,新研究指出,支撑模型运行的"基础设施层"——包括系统提示词、工具调用逻辑、错误处理机制等——同样对最终效果起着决定性作用。实验数据显示,仅通过调整输入格式和执行流程,15个大型语言模型的编码能力可提升5-14个百分点,输出token减少约20%。更令人震惊的是,GPT-4 Turbo在更换执行框架后,准确率从26%飙升至59%,而模型本身并未发生任何改变。

meta-Harness的核心创新在于构建了一个完整的自动化优化闭环。该系统通过为优化器提供包含所有历史执行记录的"文件系统",使其能够自主检索代码变更、错误日志、性能评分等关键信息。与传统方法仅能观察压缩后的摘要信息不同,这一框架最高可处理1000万token的上下文数据,相当于主流方法的400倍。优化器不再是被动的信息接收者,而是能够主动分析执行轨迹、定位深层错误,并针对性地重写代码的智能代理。

在代码生成领域,该框架展现了惊人的优化能力。针对包含89个复杂任务的TerminalBench-2基准测试,优化后的Claude Haiku 4.5模型以37.6%的通过率登顶所有轻量级模型榜首,甚至超越了参数规模更大的Goose模型。更值得注意的是,优化过程完全基于具体任务的执行反馈,例如在第7轮迭代中,系统通过在初始提示中注入环境依赖信息,就使任务成功率提升了18个百分点。这种基于完整执行轨迹的"反事实诊断"能力,使得优化效率比传统方法提升了数十倍。

该框架的适用性远不止于代码领域。在文本分类任务中,优化后的系统在LawBench、Symptom2Disease等三个数据集上实现了48.6%的准确率,较此前最优方法提升7.7个百分点,且消耗的上下文token减少了77%。数学推理测试中,优化后的检索策略使5个不同模型在IMO级别难题上的平均得分提升4.7个百分点,展现出强大的跨模型迁移能力。这些成果证明,通过优化运行环境,小规模模型完全可能达到甚至超越大型模型的性能表现。

研究团队指出,当前AI开发中,工程师仍需手动编写提示词、调试工具接口、设计错误处理流程,这个过程不仅耗时费力,且很多深层问题难以通过人工诊断发现。meta-Harness通过将优化过程自动化,不仅解放了人力资源,更开辟了新的性能提升维度。随着AI系统复杂度的不断增加,这种能够自主进化的"基础设施层"优化方法,或将重新定义人工智能的发展路径。

智能手机市场遇冷,W13周苹果份额增最多,小米因未涨价冲至第三
苹果、华为、小米这三个品牌没涨价,然后在W12周相对表现就要好很多。这说明现在国内智能手机市场对于售价还是相当敏感的,看这W13周的份额以及排名,苹果或是那个最大的赢家,人家不仅蝉联了第一的位置,且环比市场份…

2026-04-04

小米验厂审核难?专业辅导服务来助力,价格透明如何选?
五、小米验厂辅导的使用说明与落地步骤 选择好合适的辅导机构后,整个验厂辅导流程一般分为几个阶段: 第一阶段是前期诊断,咨询师会上门或线上了解企业的现有情况,包括生产流程、人员管理、体系文件等,排查存在的合…

2026-04-04

AI语音交互浪潮下,无线领夹麦克风如何成为人机协作“新标配”?
可以说,语音交互正在成为AI开发者、创作者的“第三只手”,但又不只是第三只手,它也在无形之中创造了一个属于人与AI的会议空间,让AI作为第二个大脑,和人的第一个大脑对齐。 猛玛的LARK系列,也是因为把这三…

2026-04-04

谷歌Gemma 4开放权重模型登场:开源协议革新,全场景智能生态新启航
在谷歌迄今为止所有的模型中,Gemma 4是目前最强大的开放权重模型系列,继承了前沿多模态、长上下文和高级推理能力,被谷歌官方称之为是“在逐字节比较下性能最强的”开放模型(Bytefor byte, th…

2026-04-04

小米18 Pro系列背屏再升级 拓展实用交互 预计9月携新影像配置登场
PChome 4月3日消息,博主“智慧皮卡丘”发文爆料,小米18 Pro、ProMax两款旗舰将继续搭载背屏,并升级为AI智窗交互形态,打造高端旗舰差异化标识。 小米集团总裁卢伟冰此前已明确表态,下一代产品…

2026-04-04