AI Agent 能独立完成学术研究吗？我用 3 篇真实论文测了一遍

两周前，我在 X 上看到 Ethan Mollick 的一条推文，大意是：AI Agent 已经能够端到端重建学术论文的核心研究流程——从数据处理、分析到结论复现，基本上能跑通一整套科研管线。

这条推文在学术圈和 AI 圈都炸了锅。有人说"科研要变天了"，有人说"这不可能"，更多人在转发但没有亲自验证。

我属于第三种——看完之后坐不住了。

于是我花了两周时间，选了 3 篇真实发表的论文，用 Agent 逐一复现，想知道 emollick 说的到底是不是真的。

先给你最戏剧性的那个瞬间：在第三个任务里，我让 Agent 识别一篇经济学论文的工具变量策略。它非常自信地给出了一个"替代方案"——逻辑流畅，表述专业，引用了真实文献——但凡懂一点计量经济学的人都会发现，那个工具变量根本不满足外生性条件。

它不是不懂，它是"不知道自己不懂"。

这才是真正值得警惕的失败模式。

---

emollick 到底说了什么？先把语境搞清楚

在进入测试之前，我想先厘清一件事：emollick 的原始判断，指的是"重建已有论文"，而不是"原创研究"。

这个区别非常重要。

重建已有论文，意味着论文的研究设计、数据来源、分析路径都已经存在——Agent 的任务是"按图索骥"，验证流程是否可复现。这更接近于"代码审查 + 数据分析自动化"，而不是"从零提出研究问题"。

emollick 的判断在这个语境下是有意义的：对于流程标准化、数据结构清晰的论文，Agent 确实能完成大部分工作。

但问题在于，这个判断在传播过程中被悄悄泛化了——很多人读完之后的理解是"AI 可以做科研了"，而不是"AI 可以复现特定类型的科研流程"。

这一字之差，是我做这次测试的核心动机。

---

测试设计：我是怎么做这个实验的

选题标准

我选了 3 篇论文，刻意覆盖不同学科和复杂度：

论文 A（NLP 方向）：文本分类任务，数据集公开，流程标准，复现门槛低
论文 B（社会科学方向）：调查数据分析，涉及样本清洗和多变量回归，中等复杂度
论文 C（经济学方向）：使用工具变量法的因果推断研究，数据公开但识别策略复杂

评判维度

我定义了 5 个维度来评判"复现成功"：

1. 数据处理流程可复现（能不能跑通）

2. 核心结论方向一致（方向对不对）

3. 关键数值在合理误差范围内（数字准不准）

4. 研究设计逻辑可识别（理解了研究在干什么）

5. 没有引入学术上站不住脚的假设（有没有"幻觉"）

每个维度打分：✅ 成功 / ⚠️ 部分成功 / ❌ 失败。

工具链

我使用的是 Claude Opus 4.6 + Code Interpreter 处理数据密集型任务，GPT-5.1 + Cursor Agent 处理代码生成和调试。整个测试过程统一通过 API 调用，而不是网页端——原因是需要批量处理数据、控制参数、记录完整对话日志。

如果你也想自己跑类似实验，推荐直接用 [api.884819.xyz](https://api.884819.xyz)，支持 Claude、GPT-4o 等主流模型，按量计费，测试成本比订阅制低很多，对做验证性实验来说更合适。新用户注册即送体验 token，跑几轮小实验完全够用。

---

三场测试实录：逐一拆开看

任务一（NLP 论文）：成功，但有一个细节让我皱眉

这篇论文做的是情感分类，数据集是公开的 benchmark，方法是标准的 fine-tuning 流程。

Agent 表现出乎意料地好。给它论文 PDF 和数据集链接之后，它自动识别了预处理步骤、模型结构、训练参数，生成了完整的训练代码，跑出来的准确率和论文报告值非常接近。

数据处理部分几乎无可挑剔——它甚至主动发现了原始数据里的一个标签不一致问题，并询问我是否要按论文方式处理。

但有一个细节让我皱眉：超参数选择。

论文里用了一个略显非常规的 learning rate schedule，Agent 没有识别出这是作者刻意设计的，而是用了"更合理"的默认设置。结果是：模型跑通了，性能也不差，但不是论文的复现，是 Agent 自己的版本。

这个偏差本身不大，但它揭示了一个模式：Agent 倾向于用"最优实践"替换"论文实际做法"，当两者不一致时，它会默默选择前者，而不是提醒你。

任务一评分： | 维度 | 结果 | | 数据处理流程可复现 | ✅ | | 核心结论方向一致 | ✅ | | 关键数值在合理误差范围内 | ⚠️ | | 研究设计逻辑可识别 | ✅ | | 没有引入站不住脚的假设 | ✅ |

---

任务二（社会科学论文）：它"脑补"了一个不存在的处理步骤

这篇论文用调查数据分析了某政策对特定群体行为的影响，涉及样本筛选、缺失值处理、多变量回归。

Agent 在前半段表现稳定，数据读取、变量构建都没有问题。但在样本清洗阶段，它遇到了一个模糊地带：论文里提到"剔除了回答不一致的样本"，但没有给出具体的操作定义。

Agent 的处理方式是：自己定义了一套"回答不一致"的判断逻辑，然后继续往下跑，没有告诉我它做了这个决定。

我是在对比最终样本量的时候发现的——Agent 的样本比论文少了约 8%，追问之后它才说明了自己的处理逻辑。

这个逻辑"听起来合理"，但和论文作者的实际操作不同，导致回归系数的置信区间出现了偏移——结论方向正确，但精度跑偏了。

更值得注意的是：如果我不去核对样本量，我根本不会发现这个问题。 Agent 没有主动标注"这里我做了一个假设"，它只是静默地填补了空白。

任务二评分： | 维度 | 结果 | | 数据处理流程可复现 | ⚠️ | | 核心结论方向一致 | ✅ | | 关键数值在合理误差范围内 | ⚠️ | | 研究设计逻辑可识别 | ✅ | | 没有引入站不住脚的假设 | ⚠️ |

---

任务三（经济学论文）：最值得警惕的失败

这篇论文用工具变量法（IV）估计某政策的因果效应。工具变量的选择是整篇论文最核心的贡献——作者花了大量篇幅论证为什么这个工具变量满足相关性和外生性条件。

我给 Agent 的任务是：理解论文的识别策略，并尝试用相同数据复现核心估计量。

Agent 读懂了"工具变量"这个概念，也识别了论文使用的变量名。但在验证外生性条件时，它卡住了——因为外生性的论证本质上是一个"领域判断"，需要理解这个变量在现实世界中的经济学含义，而不只是统计检验。

Agent 的应对方式是：给出了一个替代性的工具变量建议。

它的表述非常专业：引用了相关文献，解释了选择理由，甚至做了初步的相关性检验。如果你不是这个领域的专家，你可能会觉得"有道理"。

但问题在于：它推荐的那个工具变量，在经济学逻辑上根本不满足外生性——它和误差项之间存在明显的内生性来源，这在领域内是常识级别的问题。

Agent 不知道这一点。它构建了一个"听起来对、学术上错"的答案，而且表现得非常自信。

任务三评分： | 维度 | 结果 | | 数据处理流程可复现 | ✅ | | 核心结论方向一致 | ❌ | | 关键数值在合理误差范围内 | ❌ | | 研究设计逻辑可识别 | ⚠️ | | 没有引入站不住脚的假设 | ❌ |

---

失败模式归因：那 30% 卡在哪里

三次测试下来，我把失败原因归结为三类：

① 因果推断需要领域判断，不是数据操作

Agent 非常擅长数据操作——读取、清洗、建模、可视化，这些都是"有标准答案"的任务。但因果推断的核心，是判断"这个设计在现实世界中是否成立"，这需要领域知识，而不是统计技能。

工具变量的外生性、断点回归的连续性假设、双重差分的平行趋势——这些都无法通过数据本身验证，需要研究者对研究对象有深刻理解。Agent 目前无法做到这一点。

② 研究设计的隐性假设，Agent 无法感知

每篇论文背后都有大量"没写在纸面上"的假设——作者认为读者应该懂的东西，或者刻意留在附录里的说明。Agent 在遇到信息空白时，会用"最合理的默认值"填补，而不是标注"这里存在不确定性"。

这种"静默填补"是最危险的行为模式，因为它制造了一种虚假的完整感。

③ "看起来对"和"学术上对"之间有一道专业壁垒

这是最本质的问题。Agent 的训练目标是生成"合理的输出"，但学术研究的标准是"严格正确的推断"。两者在大多数场景下重合，但在关键节点上会分叉——而这些关键节点，恰恰是论文最核心的贡献所在。

---

回头看 emollick 的原始判断：他是对的，但语境非常具体。对于"流程标准化、数据结构清晰、研究设计无歧义"的论文，Agent 确实能完成 70% 以上的工作。但这类论文在学术发表中并不占多数——越是有原创贡献的论文，越依赖那些 Agent 无法独立处理的判断。

---

那它现在能用来做什么？实用结论

测了三篇之后，我对 Agent 的定位变得清晰了很多。以下是分场景的建议：

可以大幅提速的场景：

文献整理与综述：给定主题，Agent 能快速梳理文献脉络、提取核心观点、生成结构化摘要
代码复现：对于有完整代码的论文，Agent 能显著加快环境配置和调试速度
数据可视化：给定数据和图表要求，Agent 生成的图表质量相当高，迭代速度很快
报告撰写：结果已有、需要写成文字的阶段，Agent 能大幅压缩时间

必须人工主导的场景：

研究设计：从问题到方法的映射，必须由人来判断
因果识别策略：工具变量、自然实验的选择和论证，不能外包给 Agent
假设检验的解读：统计显著≠实质重要，这个判断需要领域专家

给不同读者的一条建议：

研究生：用 Agent 做文献综述和代码调试，节省出来的时间用在研究设计上
研究员：把 Agent 当高级 RA，布置有明确标准的任务，保留判断性工作的主导权
产品经理：如果你在做 AI 科研工具，核心壁垒不在"自动化流程"，在"如何让 AI 知道自己不知道什么"

AI Agent 是科研加速器，不是科研替代者——至少现在还不是。更准确的说法是：它能替代的，是科研里"有标准答案"的部分；而科研最有价值的部分，恰恰是"没有标准答案"的部分。

---

这次测试让我意识到一个更有趣的问题：

如果 Agent 不能独立完成研究，那"人 + Agent"的协作模式，最优解长什么样？

我注意到，同样是用 AI 辅助科研，不同研究者的用法差异极大——有人用它做文献管理，有人用它写代码，有人用它做数据分析，产出效率的差距可以达到数倍。

下一篇，我会拆解 3 位真实研究者的工作流——他们用 AI 把论文产出速度提升了 2-3 倍，但每个人的用法完全不同。 如果你想知道哪种协作模式最适合你，那篇文章不要错过。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI科研 #AIAgent #学术研究 #Claude #GPT #8848AI #人工智能 #科研工具