连专家都测不准Agent，普通人该怎么选？

你有没有这种体验：看完一篇Agent评测文章，觉得某个产品无敌了，买单用上之后，发现它在你的真实任务上频繁翻车？

这不是你的问题。这是整个评测体系的问题。

---

一、连Ethan Mollick都承认：Agent根本测不准

先说说这个人是谁。Ethan Mollick是宾夕法尼亚大学沃顿商学院教授，专门研究AI对工作和创新的实际影响。他不是媒体评论员，不靠流量吃饭，写的东西向来克制、有据可查。

他最近在X（原推特）上发了一段话，大意是：对于需要长时间运行的Agent任务，评测成本已经高到"反复跑根本跑不起"的地步，这导致现有的Benchmark几乎全部在用短任务、简化场景来替代真实场景，结果就是——测出来的数字和实际使用体验之间，存在一道巨大的鸿沟。

这句话的份量在于：说这话的不是某个对AI不满的批评者，而是一个深度研究AI实践、并且公开看好AI前景的学者。他不是在否定Agent，他是在说测评这件事本身坏掉了。

对普通用户来说，这意味着什么？

你在网上看到的Agent评测排行榜，可能是一张画出来的地图。

---

二、"专家测不准"这件事，对你的伤害比对专家更大

评测失真的传导链是这样的：

1. 实验室用短任务、固定场景跑Benchmark

2. 媒体把分数包装成"超越人类程序员""自主完成复杂任务"

3. 用户看到排名，买单、订阅、接入

4. 用在真实的长任务上——翻车

以代码领域最知名的Benchmark之一 SWE-bench 为例。这个测试集用来衡量AI解决真实GitHub Issue的能力，顶尖模型的通过率数字看起来相当亮眼。但有开发者实测发现，当他们把同类问题放进自己的私有代码库——不同的依赖关系、不同的命名习惯、不同的上下文——模型的表现会大幅下滑。Benchmark里的"真实问题"，其实是经过筛选和清洗的"标准化真实问题"，和你工作中遇到的真实问题之间，隔着一道看不见的墙。

这里有个很好的类比：

用"百米冲刺成绩"来选马拉松运动员。短跑冠军的爆发力毋庸置疑，但42公里之后他在哪里？没人知道，因为没人测过。

Agent评测的现状就是这样。实验室测的是"百米冲刺"，你买回去要跑的是"马拉松"。

对专家来说，测不准是资源问题——跑一次完整的长任务评测太贵。但对你来说，伤害是直接的：你花了钱，在错误的信息基础上做了决策，然后在真实工作里付出了时间代价。

既然客观测试靠不住，主观筛选框架就变成了真正的护城河。

---

三、4个普通人真正该问的问题

不是"它能做什么"，而是"它在极端情况下怎么表现"。

问题一：它在"没有人盯着"的情况下，会不会自己停下来？

这是考察Agent的容错机制，不是能力上限。

很多Agent产品的演示视频都是顺利完成任务的版本。但真实使用中，任务会遇到歧义、权限不足、外部接口超时、数据格式不对……这些情况下，Agent会怎么做？

好的行为：识别到不确定性，主动暂停，向用户请求确认
危险的行为：自行做出假设，继续往下跑，等你回来发现已经跑偏了十步

你可以用一个简单方法测试：给Agent一个故意有歧义的任务，比如"帮我整理一下这个文件夹里的文件"，但不指定整理规则。看它是停下来问你，还是自作主张开始移动文件。

那个敢在不确定时停下来问你的Agent，比那个"永远向前冲"的Agent更值得信任。

---

问题二：它完成一个完整任务要花多少钱，你能算清楚吗？

成本不透明是Agent产品的通病。大多数产品要么给你一个月费包，要么给你一个"积分"系统，让你完全不知道一个任务实际消耗了多少。

我们来手动估算一下：

假设你用一个主流模型跑一个10步的Agent任务，每步包括：

读入上下文：约2000 tokens
思考和输出：约1000 tokens
工具调用结果返回：约500 tokens

每步约消耗 3500 tokens，10步合计约 35,000 tokens。

以目前主流模型定价为参考（输入约$2.5/百万token，输出约$10/百万token），粗算下来一个10步任务的成本大约在 $0.1–$0.3美元 之间。

听起来不多？但如果你每天跑20个这样的任务，一个月就是 $60–$180。而且这还是"顺利完成"的情况——如果任务中途出错重跑，成本会翻倍。

💡 如果你想在不同模型之间灵活切换来控制Agent成本，而不是被单一平台绑定——[api.884819.xyz](https://api.884819.xyz) 提供统一接口接入主流模型，可以用同一套代码对比不同模型跑同一任务的实际花费。这正好是你建立"个人最小测试集"的基础设施。国产模型如 Deepseek、通义千问完全免费，没有月租，按量付费。

你要问的问题是：这个产品能不能让我在任务开始前估算成本？能不能在超出预算时自动停止？如果这两个都做不到，你就是在用一个不知道油耗的车跑长途。

---

问题三：它做完之后，你能不能看懂它做了什么？

这是可解释性的问题。

很多Agent会给你一个"任务完成"的结论，但中间步骤是个黑箱。你不知道它查了哪些数据、做了哪些假设、跳过了哪些步骤。

可解释性不等于可信任性，但不可解释的Agent在长任务里是定时炸弹。

想象一个场景：你让Agent帮你调研竞品，它给你一份报告，结论是"竞品A的市场份额下降了15%"。你拿这个数字去开会了。但事后发现，那个数字来自一篇2019年的文章，Agent没有标注时间，也没有交叉验证。

你无法发现这个问题，因为你看不到它的"思考过程"。

判断方法：要求Agent给出"步骤日志"或"来源引用"。如果它做不到，或者给出的解释含糊到无法追溯，这个任务就不适合完全交给它跑。

---

问题四：当它犯错时，你的损失是可以撤回的吗？

这是最容易被忽视、也最重要的问题。

有两种错误，本质上完全不同：

写错一个字：你改掉就好了，损失为零
发出去一封邮件：你追不回来了，损失是真实的

Agent任务按"可撤回性"分类：

---

四、用这4个问题扫描主流Agent工具

以下是一个风险矩阵，不是排行榜，是风险地图。同一个工具在不同场景下，答案可能完全不同。

✅ 通过 ⚠️ 存疑 ❌ 危险

最低安全门槛组合建议：

至少满足"会停下来问"或"错误可撤回"其中之一
如果两个都不满足，这个任务不适合完全自动化运行

---

五、测不准的时代，你的策略应该变成什么

Mollick的困境是资源问题：要测准Agent，需要跑大量长任务，成本太高。

但你的处境恰好相反——你只需要测清楚你自己的场景。

这是个人用户相对于实验室的结构性优势：你不需要一个通用的Benchmark，你只需要一个"个人最小测试集"。

3步建立你的个人Agent测试集

第一步：提取你最高频的3个任务类型

不是你觉得Agent"应该能做"的任务，而是你实际上每周都要做的任务。比如：整理会议记录、汇总竞品信息、生成周报初稿。

第二步：为每个任务设计一个"压力版本"

在正常任务基础上，加入一个故意的干扰因素：

信息不完整（缺少关键数据）
有歧义的指令（两种理解都说得通）
包含一个明显的错误输入

观察Agent在压力下的行为，而不是顺利情况下的表现。

跑完这个表，你对一个Agent工具的了解，会比任何一篇评测文章都更准确——因为那是你的场景，不是实验室的场景。

---

专家测不准整个地图，但你只需要测清楚你每天走的那条路。

Mollick说的困境是真实的，但它不是你的困境。你的优势在于：你不需要客观，你只需要对自己的工作流客观。把那4个问题打印出来，贴在你下次试用新Agent工具之前能看到的地方。

选最好的Agent，不如建最适合自己的测试集。

---

下一篇预告：顺着成本这个话题，还有一个没说完的问题——为什么Agent产品的定价模式几乎全都在掩盖真实成本？"免费试用""无限次数""积分包"这些说法背后，有一套精心设计的商业逻辑。下一篇我们把它拆开来看，看完你会对"免费"两个字有完全不同的感受。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。 新用户注册即送体验token，国产模型完全免费，无月租按量付费，直达：[api.884819.xyz](https://api.884819.xyz)

#AI Agent #AI评测 #人工智能 #8848AI #AI工具选择 #Prompt技巧 #AI实战 #大模型