智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

别再只看跑分了,我把 5 个模型拉去跑了一次真实 Agent 任务

2026-07-03来源:互联网编辑:诗琦

现在市面上能调用的模型确实越来越多了,各家都有自己的亮点和侧重点,光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候,情况就更加复杂了。

所以我就想着,不如把几个主流模型都拉出来实际跑一遍,看看它们真实表现到底如何,也好给自己找个手感。

测评说明: 本次并非严格意义上的 benchmark 评测,更像是一次围绕单个长链路 Agent 任务的体验观察记录,结果仅供参考,不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个:

1.是否能连续调用工具完成任务

2.是否能稳定生成可运行页面

3.页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具,费用为 WorkBuddy 平台本次任务消耗估算,不代表官方 API 价格。

通用提示词如下:

74267142-8ec1-4db4-899a-9e0177c83246.png
2b1e655e-1be0-46b8-b937-28190c4ff4c9.png

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用,包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent,不会只停留在“给一段代码”的层面。

测试过程中,工具调用失败几率很小,但也不是完全没有。我这里有一次工具调用失败,不过没有影响最后的结果生成。模型会继续往下执行,并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看,MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷,但胜在流程稳定,任务理解也比较清楚。

Workbuddy里面消耗积分:27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算,MiniMax-M3 属于中低成本模型,适合反复跑 Agent 流程类任务。

经过多次测试,MiniMax-M3 的任务制作完成率为 100% ,工具成功调用率约为  98% 。有少部分工具调用失败,但没有影响最后结果生成。

简单来说,MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词,我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快,响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里,它的风格会更偏“快速完成任务”。也就是说,它会很快把代码生成出来,但在资料搜索、数据校验、细节修复方面,没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看,页面是可以正常完成的,基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo,它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复,它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分:4点积分左右。 换算一下差不多为0.2元左右。

从价格体感来看,DeepSeek-V4-flash 的成本优势明显,适合高频调用。

经过多次测试,DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是,DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好,但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高,会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务,而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色,如果没有特别说明,很多模型都会默认生成深色系的网站页面。这个不能说不好,只是如果你想要清爽、明亮、偏公众号长图风格的页面,提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全,分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别,而不是只列几个常见工具。

从页面完成度来看,Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上,包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为:0.7元左右

从单价来看,Step-3.7-flash 价格属于中等偏下选手,它的优势不在低价,而在“能连续跑、少中断、完成率高”。

经过多次测试,Step-3.7-flash 的任务制作完成率约为 100%,工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟,并且包含搜索、文件、代码、修复等工具链路,Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站,也能把页面模块拆得比较清楚。

从结果来看,页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力,最大的缺点就是太贵。

本轮测试费用约为:74点积分左右。 换算一下,差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash,看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话,Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致,布局更舒服,留白和层次感也更好。相比前面几个模型,Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好,但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比,Step 收集的数据更全,分类覆盖更完整,工具调用也更积极。

本轮测试费用约为:9元左右。

Gemini3.5 flash 的价格明显更贵,尤其是输出 token 较多、带工具调用、带代码生成的任务,费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高,可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用,还是要谨慎一些。

测试结果对比

36a54157-290b-426d-9d12-b12700a1c096.png

总结

这次测试下来,我更关注的不是单轮回答能力,而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观,Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo,视觉上会舒服一些。

如果看工具调用和数据完整度,Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查,适合长链路 Agent 任务。

如果看成本和稳定性,MiniMax-M3 是一个很稳的选择。它没有特别花哨,但多次测试都能完成任务,工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜,适合快速生成初稿。GLM5.2 则比较均衡,适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面,可以优先看 Gemini。 做生产级 Agent 流程,可以重点看 Step-3.7-flash。 做高频低成本任务,可以看 MiniMax-M3 和 DeepSeek-V4-flash。

比亚迪集中公布多起名誉维权胜诉案件 重拳打击“黑公关”
6月26日,比亚迪法务部发布公告,集中披露多起网络名誉维权胜诉案件,公示了一批恶意造谣、抹黑诋毁品牌的自媒体侵权判决,从严惩处恶意诋毁营造健康行业生态,以法律手段重拳打击汽车行业“黑公关”不良风气,守护

2026-07-03

别再只看参数了,Agent时代要看任务完成率
最近这段时间,国内外模型更新得很快。如果只看发布会和榜单,大家都会觉得每个模型都很强。参数更大、上下文更长、推理更强、价格更低,听起来都挺猛。但真正用到工作流里,会发现另一件事:模型强不强,不只看它会

2026-07-02

2026实测15promax充电器推荐|实验室加权榜单|出差快充低温护电池
摘要2026年iPhone 15 Pro Max用户基数庞大,原装充电器取消标配后,15promax 充电器推荐搜索需求居高不下,氮化镓快充凭借高效率、低发热优势成为主流选择。本次横评依托25℃恒温实验室环境,搭建六大维度加权评测体

2026-07-02

Chance AI 亮相深圳湾:告别输入框,把摄像头作为第一入口
2026 年 6 月 27 日,在深圳湾「漫话 AI 硬件」系列活动现场,活动聚焦 AI 硬件正在发生的形态变化:E-Ink 手机配件、墨水屏画布、AI 娱乐卡牌机等产品,正在把智能硬件从中心设备推向更轻量、更低打扰、更具情绪价

2026-07-02

2026充电宝实测横评|十大名牌充电宝怎么选?差旅多设备续航焦虑一次解决
前言:普通人选充电宝最头疼的问题,这次一次性说透2026 移动电源行业进入合规多功能竞争阶段,大量消费者挑选十大名牌充电宝时,普遍遭遇差旅配件繁杂、多设备充电降功率、长途续航不足等难题。本次第三方自费实测

2026-07-02