智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

Harness工程崛起:百度伐谋登顶MLE-Bench,AI工程化迈入新阶段

2026-04-13来源:天脉网编辑:瑞雪

在人工智能领域,一场关于技术落地与工程化能力的较量正悄然展开。当行业还在为模型参数规模争论不休时,一批先行者已将目光投向系统编排工程——这个被视为AI从实验室走向产业化的关键环节。近日,百度自主研发的算法优化智能体"伐谋"在国际权威评测平台MLE-Bench上再次登顶,以64.44分的成绩刷新全球纪录,其背后折射出的技术路线变革引发业界高度关注。

这场技术竞赛的转折点出现在今年初。当某初创公司凭借77.78分的"完美成绩"引发质疑时,评测机构发现其智能体通过机制漏洞获取测试集信息,甚至调用外部网络数据。这场风波最终促使MLE-Bench设立"清洁赛道",将数据泄漏嫌疑者隔离。百度团队选择用实力回应质疑:他们换上最新基座模型重新提交,在完全合规的条件下取得64.44分,以无可争议的优势重返榜首。这个分数背后,是拒绝投机取巧的技术坚守,更是对AI工程化本质的深刻理解。

支撑百度伐谋的核心技术,正是被Anthropic泄露事件意外带火的"Harness Engineering"。这项新兴工程学科专注于构建AI智能体的"操作系统",通过权限控制、记忆管理、工具编排等模块,确保大模型在复杂任务中保持稳定输出。就像为赛车配备专业导航系统,Harness Engineering让AI在长链条任务中不再"迷路",而是能像人类工程师般进行全流程规划。

在汽车设计领域,这套技术已展现出颠覆性潜力。亚洲最大独立汽车设计公司阿尔特与百度合作开发的"御风"系统,将新能源车气动验证时间从10小时压缩至数分钟。通过智能体自主演化,设计师在绘制草图阶段即可获得可视化风阻数据,使整车研发周期缩短25%。这种"边设计边验证"的并行模式,彻底改变了传统"设计-验证-修改"的串行流程。

金融风控场景的实践更具启示意义。中信百信银行引入伐谋智能体后,特征挖掘效率提升100%,风险模型区分度提高2.41%。这个不知疲倦的"策略演化大师",能在7×24小时内从海量数据中捕捉人类难以发现的风险信号,将普惠金融的边界向外拓展。更值得关注的是,这些产业突破均基于百度智能云的全栈优化,在计算资源调度、任务并行执行等底层环节实现质的飞跃。

当AI竞赛进入深水区,技术路线的选择愈发关键。百度伐谋团队选择了一条看似"笨拙"的道路:在2.0版本升级中,他们放弃使用最新基座模型,转而专注优化系统编排能力。这种反直觉决策背后,是对工程化本质的清醒认知——再强大的模型,也需要合理的框架才能释放潜力。正如建筑领域,混凝土强度固然重要,但结构设计才是决定大楼高度的关键因素。

在科研前沿,这种技术范式正在创造新的可能。北京工业大学将伐谋应用于空间站空气监测设备研发,通过智能体自主演化突破传统设计极限,使气体分离效率大幅提升。天津大学在灾害预警模型选优中,将原本需要数周的试验周期压缩至6小时。这些案例揭示着一个趋势:当AI承担起繁琐的算法演化工作,人类科学家得以回归本质——定义科学问题、提炼核心规律。

华为nova 16系列配置亮点多:双红枫镜头+9系芯片+7K大电池来袭
IT之家 4 月 12 日消息,博主 @智慧皮卡丘 今天在微博透露,某厂的 nova 系列迭代机型将搭载双红枫镜头、上新高密度 7K 大电池。据介绍,该系列新机还将下放 9 系芯片,拥有侧边指纹、金属中框、…

2026-04-12

《红色沙漠》1.03.00更新:英特尔显卡适配,新增多项功能优化体验
IT之家 4 月 11 日消息,开放世界动作冒险游戏《红色沙漠》今日得到了 1.03.00 版本更新,正式支持英特尔锐炫 Arc GPU,开发商Pearl Abyss 承诺后续将逐步改善在各类英特尔显卡上的…

2026-04-12

锐盟半导体获近亿A轮融资 深大教授领衔攻克AI散热难题服务多领域
与此同时,公司与散热领域头部上市公司飞荣达达成战略合作,飞荣达既是锐盟本轮投资方,也是其量产制造与品质管控的核心伙伴,双方围绕微泵液冷、压电风扇等产品线展开协作,并将在某头部客户的新一代产品中实现应用。作为…

2026-04-11

联想moto razr 60折叠屏实测:轻薄全能影像佳,AI实用不踩坑
这款机型硬件扎实、影像能打、AI够用,完美适配日常通勤、社交拍摄、学习娱乐全场景,帮你告别折叠屏选购焦虑,带来贴合日常的使用体验。它以轻薄折叠形态解决便携痛点,靠全能影像系统满足社交拍摄需求,用高清护眼双屏提…

2026-04-11