智能日报

业界资讯智能手机电脑硬件平板电脑智能手表智能家电耳机音频笔记本热点资讯

别再只看跑分了，我把 5 个模型拉去跑了一次真实 Agent 任务

2026-07-03来源：互联网编辑：诗琦

现在市面上能调用的模型确实越来越多了，各家都有自己的亮点和侧重点，光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候，情况就更加复杂了。

所以我就想着，不如把几个主流模型都拉出来实际跑一遍，看看它们真实表现到底如何，也好给自己找个手感。

测评说明：本次并非严格意义上的 benchmark 评测，更像是一次围绕单个长链路 Agent 任务的体验观察记录，结果仅供参考，不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个：

1.是否能连续调用工具完成任务

2.是否能稳定生成可运行页面

3.页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具，费用为 WorkBuddy 平台本次任务消耗估算，不代表官方 API 价格。

通用提示词如下：

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用，包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent，不会只停留在“给一段代码”的层面。

测试过程中，工具调用失败几率很小，但也不是完全没有。我这里有一次工具调用失败，不过没有影响最后的结果生成。模型会继续往下执行，并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看，MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷，但胜在流程稳定，任务理解也比较清楚。

Workbuddy里面消耗积分：27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算，MiniMax-M3 属于中低成本模型，适合反复跑 Agent 流程类任务。

经过多次测试，MiniMax-M3 的任务制作完成率为 100% ，工具成功调用率约为 98% 。有少部分工具调用失败，但没有影响最后结果生成。

简单来说，MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词，我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快，响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里，它的风格会更偏“快速完成任务”。也就是说，它会很快把代码生成出来，但在资料搜索、数据校验、细节修复方面，没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看，页面是可以正常完成的，基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo，它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复，它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分：4点积分左右。换算一下差不多为0.2元左右。

从价格体感来看，DeepSeek-V4-flash 的成本优势明显，适合高频调用。

经过多次测试，DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是，DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好，但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高，会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务，而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色，如果没有特别说明，很多模型都会默认生成深色系的网站页面。这个不能说不好，只是如果你想要清爽、明亮、偏公众号长图风格的页面，提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全，分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别，而不是只列几个常见工具。

从页面完成度来看，Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上，包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为：0.7元左右

从单价来看，Step-3.7-flash 价格属于中等偏下选手，它的优势不在低价，而在“能连续跑、少中断、完成率高”。

经过多次测试，Step-3.7-flash 的任务制作完成率约为 100%，工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟，并且包含搜索、文件、代码、修复等工具链路，Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站，也能把页面模块拆得比较清楚。

从结果来看，页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力，最大的缺点就是太贵。

本轮测试费用约为：74点积分左右。换算一下，差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash，看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话，Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致，布局更舒服，留白和层次感也更好。相比前面几个模型，Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好，但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比，Step 收集的数据更全，分类覆盖更完整，工具调用也更积极。

本轮测试费用约为：9元左右。

Gemini3.5 flash 的价格明显更贵，尤其是输出 token 较多、带工具调用、带代码生成的任务，费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高，可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用，还是要谨慎一些。

测试结果对比

总结

这次测试下来，我更关注的不是单轮回答能力，而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观，Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo，视觉上会舒服一些。

如果看工具调用和数据完整度，Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查，适合长链路 Agent 任务。

如果看成本和稳定性，MiniMax-M3 是一个很稳的选择。它没有特别花哨，但多次测试都能完成任务，工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜，适合快速生成初稿。GLM5.2 则比较均衡，适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面，可以优先看 Gemini。做生产级 Agent 流程，可以重点看 Step-3.7-flash。做高频低成本任务，可以看 MiniMax-M3 和 DeepSeek-V4-flash。

比亚迪集中公布多起名誉维权胜诉案件重拳打击“黑公关”

6月26日，比亚迪法务部发布公告，集中披露多起网络名誉维权胜诉案件，公示了一批恶意造谣、抹黑诋毁品牌的自媒体侵权判决，从严惩处恶意诋毁营造健康行业生态，以法律手段重拳打击汽车行业“黑公关”不良风气，守护

2026-07-03

斯凯孚与绿的谐波成立合资公司，聚焦人形机器人精密部件

2026-07-02

别再只看参数了，Agent时代要看任务完成率

最近这段时间，国内外模型更新得很快。如果只看发布会和榜单，大家都会觉得每个模型都很强。参数更大、上下文更长、推理更强、价格更低，听起来都挺猛。但真正用到工作流里，会发现另一件事：模型强不强，不只看它会

2026-07-02

2026实测15promax充电器推荐｜实验室加权榜单｜出差快充低温护电池

摘要2026年iPhone 15 Pro Max用户基数庞大，原装充电器取消标配后，15promax 充电器推荐搜索需求居高不下，氮化镓快充凭借高效率、低发热优势成为主流选择。本次横评依托25℃恒温实验室环境，搭建六大维度加权评测体

2026-07-02

Chance AI 亮相深圳湾：告别输入框，把摄像头作为第一入口

2026 年 6 月 27 日，在深圳湾「漫话 AI 硬件」系列活动现场，活动聚焦 AI 硬件正在发生的形态变化：E-Ink 手机配件、墨水屏画布、AI 娱乐卡牌机等产品，正在把智能硬件从中心设备推向更轻量、更低打扰、更具情绪价

2026-07-02

2026充电宝实测横评｜十大名牌充电宝怎么选？差旅多设备续航焦虑一次解决

前言：普通人选充电宝最头疼的问题，这次一次性说透2026 移动电源行业进入合规多功能竞争阶段，大量消费者挑选十大名牌充电宝时，普遍遭遇差旅配件繁杂、多设备充电降功率、长途续航不足等难题。本次第三方自费实测

2026-07-02

今日开幕 2026CCE成都清洁展盛大开启，共探西南清洁市场新机遇

2026-07-02

一品威客平台16周年：AI提效+服务模式升级，让创意服务更"丝滑"

2026-07-01

欧莱雅在2026VivaTech科技展智启"未来美妆新征程"

2026-07-01

AI时代，企业愈发重视人才综合软实力

2026-07-01