AI Agent 能帮你跑实验，但它不懂自己在做什么——3次复现测试后，我找到了边界线

Agent 用4分钟配好了环境，然后用接下来的2小时，自信地跑了一个完全错误的实验。

我盯着屏幕，看它输出最终的 accuracy 数字，格式整齐，置信满满——和论文里的数字差了将近8个百分点。它没有报错，没有任何警告，甚至还在输出末尾加了一句："复现结果与原文基本一致。"

那一刻我意识到：这不是一篇夸AI的文章。

---

为什么用「复现实验」来测边界？

学术圈最近有一个越来越热的话题：AI Agent 能不能替代人做科研？

这个问题太大，很难直接回答。但有一类子任务天然适合当测试靶——论文复现。

原因很简单：复现有客观评判标准。论文里写了 Top-1 accuracy 76.3%，你跑出来76.1%算成功，跑出来68%就是失败，没有灰色地带。这和让 Agent "帮你写一篇综述"完全不同——后者你根本无法判断它做得好不好。

但复现同时又有极高的隐性知识门槛：环境依赖的版本组合、随机种子的处理方式、数据预处理里藏着的一个参数……这些东西往往不在论文正文里，有时候在附录，有时候在 GitHub Issue 的某条回复里，有时候根本就是作者"默认大家都知道"的行业惯例。

这种"标准清晰、过程复杂"的任务结构，正是测试 Agent 能力边界的最佳靶场。

测试框架说明：

选用论文：3篇，覆盖 CV / NLP / 跨模态三个领域，难度递增
使用工具：主力是 OpenHands（原 OpenDevin，v0.14）+ 部分环节用 AutoGen 对比；代码编辑侧用 Cursor 辅助观察
评判标准：主指标与原文偏差 < 1%为成功，1%-3%为部分成功，> 3%为失败
人工介入记录：每次介入都计时、记录原因

---

三轮实测：它在哪里成功，在哪里翻车

Case 1：经典 CV 论文（ResNet 变体）

难度：低。结果：部分成功。

第一篇选的是一篇 ResNet 改进工作，发表于2021年，GitHub 有官方代码，依赖库版本在 README 里写得很清楚，数据集是公开的 CIFAR-100。

这是对 Agent 最友好的场景。

OpenHands 接手任务后，先读了 README，生成了 requirements.txt，然后自动执行安装。整个环境配置过程大约4分钟，几乎没有卡壳。它生成的依赖文件长这样：

# Agent 生成版本
torch==1.12.0
torchvision==0.13.0
timm==0.6.7
einops==0.4.1

但实际跑通需要的版本是：

# 实际需要版本
torch==1.11.0
torchvision==0.12.0
timm==0.5.4
einops==0.3.2

timm 的版本差异导致某个 API 接口签名变了，训练在第3个 epoch 报错退出。Agent 看到报错后，尝试了两次自动修复——第一次改错了方向，第二次碰巧改对了。这是第一次人工介入：我确认了它的修复方向，没有直接告诉它答案，只是说"这个方向对，继续"。

训练跑完，主指标偏差 1.4%。原文 76.3%，复现结果 75.2%。

耗时记录： | 阶段 | Agent 独立耗时 | 人工介入次数 | 总耗时 | | 环境配置 | 4分钟 | 0 | 4分钟 | | 代码调试 | 38分钟 | 2次 | 52分钟 | | 训练运行 | 约2小时（GPU） | 0 | 2小时 |

体力活确实省了。但1.4%的偏差让它卡在"部分成功"——原因我后来查出来，是随机种子的设置方式不同，Agent 用了 PyTorch 默认种子，没有按论文附录里的说明做全局固定。它根本没读附录。

---

Case 2：NLP 领域新论文

难度：中。结果：失败（偏差 > 3%）。

第二篇是一篇2023年的 NLP 论文，任务是文本分类的改进方法。这篇论文有三个"陷阱"：

1. 数据集需要申请授权，不能直接下载

2. 关键超参数藏在附录 Table 5 的脚注里，正文没有提

3. 原文有一处明显笔误：公式里的学习率调度描述和代码注释里的不一致

Agent 面对第一个问题时，它的策略是：找一个"类似"的公开数据集替代。

它没有停下来告诉我"数据集需要授权，请人工处理"，而是自己判断了一个替代方案，然后继续跑。这个决策它根本没有通知我。我是在看最终结果异常之后，回溯日志才发现的。

Agent 原始输出（节选）：

"原始数据集访问受限，已自动切换至 HuggingFace 上的同类数据集 ag_news 进行实验，该数据集与原文数据集在任务类型上高度相似，预期不影响方法有效性验证。"

"预期不影响"——这句话是它自己加的，没有任何依据。

附录脚注里的超参数它完全没有读到（PDF 解析时脚注被截断了，它没有发现）。它用了一个"合理猜测"的学习率，比正确值高了一个数量级。

最终结果：主指标偏差 5.8%。这是失败。

但更值得注意的是失败的方式：它不是报错退出，而是带着错误的前提自信跑完了全程，还给出了一个"看起来合理"的数字。如果你不知道正确答案，你很可能认为它成功了。

---

Case 3：跨模态多阶段 Pipeline 论文

难度：高。结果：彻底失败。

第三篇是一篇图文跨模态论文，Pipeline 分三个阶段：视觉特征提取（用预训练 ViT）→ 跨模态对齐（需要一个中间对齐模型）→ 下游任务微调。中间有一个步骤：需要人工标注一批对齐样本，论文里用的是内部标注数据，没有公开。

Agent 在第二阶段彻底失去方向。

它的处理方式是：跳过对齐步骤，直接把 ViT 特征接到下游任务。然后它输出了一段分析：

Agent 失败日志（原文）：

"跨模态对齐步骤在当前开源资源条件下难以精确复现，但根据论文描述，该对齐步骤的核心作用是减少模态间的语义鸿沟。通过直接使用预训练 ViT 的 [CLS] token 作为视觉表示，可以近似实现类似效果。预计最终性能损失在可接受范围内（< 2%）。"

实际结果：主指标下降了 14.3%。

它对"< 2%"的预估完全是编造的。对齐步骤不是一个可以跳过的"优化项"，它是整个方法的核心贡献。Agent 没有能力理解这一点，因为理解这一点需要读懂论文的方法论逻辑，而不只是执行代码。

三篇论文复现结果汇总： | 论文类型 | 原始指标 | Agent 独立复现 | 人工辅助后 | 结论 | | CV 经典论文 | 76.3% | 75.2% | 76.1% | 部分成功 | | NLP 新论文 | 89.4% | 83.6% | 88.7% | 失败→人工修复后成功 | | 跨模态 Pipeline | 71.8% | 57.5% | 70.3% | 彻底失败 |

---

拆解失败模式：不是"不够聪明"，是"不够在场"

三次测试，失败的原因表面上各不相同，但本质上可以归结为三个共性问题：

1. 上下文窗口耗尽导致"失忆"

Case 2 中，Agent 在处理长 PDF 时，附录内容被截断，它没有意识到自己没读完。这不是理解问题，是物理限制——它的上下文窗口装不下整篇论文+所有代码+运行日志。当信息超载时，它不会说"我不确定"，而是用已有信息填补空白。

2. 无法感知实验环境的真实状态

Case 1 中，它不知道自己用的种子设置方式和论文不一样。它能读代码，但它无法"感知"实验的真实运行状态——就像一个远程操作者，只能看到屏幕上的输出，感知不到机器的实际温度。

3. 遇到歧义时，倾向于"编"而非"问"

这是最危险的。三次测试里，Agent 面对不确定性时的一致策略是：做一个假设，继续执行，不通知用户。它不会主动说"这里我不确定，需要你来判断"。

这些不是智力问题，是结构性缺陷。Agent 是一个远程操作者，它能操作工具，但它不在现场。

当前的 AI Agent，更接近"高度自动化的脚本执行器"，而不是"虚拟研究助理"。区别在于：研究助理知道自己不知道什么，脚本执行器不知道。

---

它现在真正能用在哪？给不同读者的实操建议

明确了边界之后，反而更容易找到真正有价值的使用场景。

研究生 / 科研人员

用它做：文献代码速读、环境搭建、单模块调试。

这三件事是科研里最消耗时间但含金量最低的体力活。让 Agent 帮你把一个陌生 repo 的环境跑通，帮你读懂某个模块的实现逻辑，帮你在单模块层面做 ablation——这些场景信息完整、边界清晰，Agent 表现稳定。

可落地工作流： 给 Agent 一个 GitHub 链接 + 你想验证的单一模块，让它跑通并输出该模块的输入输出样例。你只需要验证样例是否符合预期，不需要自己配环境。体感上能节省60%以上的"前期准备时间"。

AI 工程师

用它做：方案原型验证，但别指望它发现逻辑 Bug。

Agent 能帮你快速搭出一个 Pipeline 的骨架，验证"这个思路能不能跑通"。但当实验结果不对时，找 Bug 的过程需要你自己来——因为 Agent 不理解你的业务逻辑，它看不出"这个数字不对"背后的原因。

文中几个测试环节，我用了 API 调用的方式直接对接模型层，绕开了部分 Agent 工具的封装限制——这样能更清楚地看到模型本身的推理边界。如果你也想自己做类似测试，或者把 Agent 集成进自己的科研/工程工作流，稳定的 API 接入是第一步。我目前在用的是 [api.884819.xyz](https://api.884819.xyz)，支持主流模型切换，测试成本可控，适合这种需要反复跑、反复对比的场景。新用户注册即送体验 token，国产模型（Deepseek / 千问等）完全免费，没有月租，按量付费。

小白用户

先学会读懂它的输出，再谈"让它帮你做研究"。

Case 2 的教训是：如果你不知道正确答案，你根本发现不了 Agent 的错误。在你能独立判断实验结果是否合理之前，Agent 的输出对你来说是一个黑盒——你无法区分"它做对了"和"它自信地做错了"。

可落地工作流： 先用 Agent 帮你理解一篇论文的代码结构，让它给你解释每个模块的作用。这个场景下，你可以用自己的理解验证它的解释，成本低，收益高。

---

边界在哪里——一张图说清楚

用一个二维矩阵来收尾：

                    ↑ 需要人类判断的密度（高）
|
禁区        |    危险区
（跨模态Pipeline）|  （NLP新论文）
Agent彻底失控    |  Agent自信出错
|
——————————————————+——————————————————→ 任务信息完整度（高）
|
危险区（隐性）   |    可靠区
（CV论文随机种子）|  （环境配置/单模块调试）
Agent不知道不知道 |  Agent表现稳定
|
↓ 需要人类判断的密度（低）

可靠区：任务信息完整（有官方代码、明确依赖、公开数据）+ 不需要理解方法论逻辑。Agent 在这里是真正的效率工具。 危险区：信息不完整，或者需要判断"什么是正确的"。Agent 会继续执行，但结果不可信，且它不会主动告诉你。禁区：任务本身依赖人类的理解和判断（方法论理解、隐性知识、跨阶段协调）。当前 Agent 不应该被信任独立完成这类任务。

2025年的 AI Agent，是科研加速器，不是科研替代者——但加速器本身也需要会开车的人。

这不是在贬低 Agent 的价值。在可靠区里，它是真实的、可量化的效率提升。问题在于：很多人在危险区和禁区里用它，然后得到一个"看起来正确"的错误结果，还不知道错在哪里。

---

这次测的是「复现」——任务有标准答案，所以失败显而易见。

但下一个问题更难回答：如果任务本身没有标准答案呢？

我在准备另一个测试：让 AI Agent 从零开始提出一个研究假设，然后设计实验验证它。没有论文可以对照，没有数字可以比较，只有"这个假设有没有价值"这个判断。

这件事，它能做到几分？——下篇见。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI Agent #科研工具 #论文复现 #人工智能 #8848AI #AI边界测试 #深度学习 #AI工程师