AI 写出研究级数学论文：Gemini Deep Think 驱动的 Aletheia 项目，标志着「AI 做数学」进入新纪元

本文最后更新于 2026-05-16，文章内容可能已经过时。

AI 写出研究级数学论文：Gemini Deep Think 驱动的 Aletheia 项目，标志着「AI 做数学」进入新纪元

你有没有想过，曾经只能刷 IMO 题目的 AI，现在竟然能自己提出并证明全新的研究级数学问题？不是简单复制已知结论，而是像 PhD 学生一样，在开放问题上独立探索、迭代、甚至产出可能发表的成果。

2026 年，Google DeepMind 的 Aletheia 项目用 Gemini 3 Deep Think 驱动的数学研究代理，在 FirstProof 挑战中自主解决 6/10 个全新研究级问题（多数专家认可），这不是科幻，而是已经发生的里程碑。 [[1]](https://arxiv.org/abs/2602.21201)

从“会做高考题”到“自己写论文”，AI 在数学领域的跃迁，比很多人想象得更快，也更真实。

AI 数学能力的「奇点」时刻已来临

过去几年，AI 在数学竞赛上屡创佳绩。2025 年，Gemini 系列模型已在 IMO（国际数学奥林匹克）达到金牌水平。但竞赛题有固定模式、已知解法，训练数据容易“污染”。研究级数学则完全不同：问题开放、新颖、需要跨领域洞见，且没有标准答案可抄。

Aletheia 的出现，正是这个转变的标志。它不是简单刷题工具，而是一个能自主生成、验证、修订的数学研究代理。在 FirstProof 挑战——由专业数学家提出的 10 个真实研究问题——中，Aletheia 在规定时间内自主解决了其中 6 个（问题 2、5、7、8、9、10），专家多数认可，仅问题 8 存在分歧。

为什么这比 IMO 金牌更具里程碑意义？

首先，它避开了数据污染。FirstProof 的问题来自一线数学家的工作，是 AI 训练中未见过的新鲜内容。其次，它强调原创性：AI 不是回忆已知证明，而是从零构建论证路径。最后，它展示了端到端自主性——整个过程用自然语言完成，无需人工大量干预。

普通人能直观判断：AI 已经能独立“想”出新数学 idea，并为之提供严谨支撑。这不再是辅助工具，而是正在成为数学家的真正协作伙伴，甚至独立贡献者。

从 2025 年 IMO 金牌，到 2026 年研究代理，Gemini Deep Think 的迭代路径清晰可见：通过 test-time compute（推理时算力）持续 scaling，推理能力稳步提升。这也解释了为什么 Aletheia 能在 PhD 级练习中展现潜力。

Aletheia 到底是怎么工作的？三个普通人判断

Aletheia 听起来高深，但拆开看，其实像一个极致自律的“数学研究生”在工作。它的核心是 Generator + Verifier + Reviser 的三重循环。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

判断 1：像“学生写作业 → 老师批改 → 学生改错”的自动循环，全程自然语言

Generator：负责提出初始想法和证明草稿。
Verifier：像严格的审稿人，找出逻辑漏洞、计算错误或不严谨之处。
Reviser：根据反馈修改方案，迭代优化。

整个过程不需要把数学转成代码再跑形式验证器，而是用自然语言端到端完成。这极大降低了门槛，也让 AI 能像人类一样“思考”。

想象你让 AI 证明一个几何猜想：它先写一段论证，Verifier 指出“这里边界条件没处理好”，Reviser 就回去补全。循环多次，直到通过。

判断 2：它能“承认失败”并高效迭代

这可能是 Aletheia 最聪明的地方。很多 AI 会盲目尝试直到资源耗尽，但 Aletheia 能在发现路径不可行时主动放弃，转向新方向。这极大提升了效率。

在 Bloom’s Erdos Conjectures 数据库等公开开放问题上，它已自主解决多个案例（相关论文提到自主解决四个开放问题）。透明度也很高：DeepMind 公开了原始 prompts 和 outputs，任何人都能去 GitHub 查看。

判断 3：推理能力随算力 scaling，继续有效

从 IMO 90%+ 到 FirstProof 6/10，再到 IMO-ProofBench ~91.9%，Aletheia 显示：PhD 级练习已可行。关键在于 test-time compute 的 scaling law——给更多推理时间和算力，能力就继续提升，而非遇到瓶颈。 [[3]](https://luhuidev.medium.com/google-deepmind-aletheia-a-deep-dive-into-a-fully-autonomous-math-research-agent-ec36c258aa09)

这意味着，未来普通用户用更强的模型 + 足够算力，就能让 AI 辅助完成高阶数学任务。

“Aletheia 不是在模仿数学家，而是在以自己的方式探索数学真理。”——项目相关描述强调了其迭代本质。

真实案例 + 当前局限，普通人该怎么看

案例 1：自主生成 eigenweights 论文

Aletheia 几乎零人工干预，生成了一篇关于算术几何中“eigenweights”的结构常数计算论文。这不是简单验证，而是产出 publishable 级成果。 [[4]](https://arxiv.org/abs/2602.10177)

案例 2：Erdos 问题解决记录

在 700 个开放问题评估中，Aletheia 自主解决了多个，展示了在猜想数据库上的实际贡献。

案例 3：FirstProof 具体表现

问题 7 尤其亮眼，是多年开放问题，Aletheia 给出了接近解决方案。专家评估透明公开，连分歧（如问题 8）都详细记录。

当然，不能盲目乐观。当前局限明显：

算力依赖：高性能需要大量 test-time compute，普通硬件难以复制完整 Aletheia。
专家验证必要：AI 输出仍需人类数学家最终把关，尤其复杂证明。
协作优于取代：目前更适合辅助顶尖研究者，而非完全独立。部分问题仍需人类提供洞见或引导。

以下是简化对比（基于公开信息）：

竞赛级（IMO）：AI 已接近或超越人类顶尖，速度快。
研究级（FirstProof）：AI 解决 6/10，人类专家团队仍具优势，但 AI 自主性突出。
创新性：AI 擅长系统探索，人类擅长直觉跳跃。二者结合潜力最大。

Aletheia 的透明度（公开 prompts、GitHub 项目页）是最大亮点，让普通人也能学习其工作流。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

对普通中国 AI 用户的实际意义 + 未来展望

对程序员、学生、科研爱好者来说，这意味着什么？

1. 更快验证想法：用类似 agent 思路，快速测试数学猜想或算法优化，无需等导师反馈。

2. 辅助论文写作：文献综述、证明草稿生成、错误检查——极大加速科研流程。

3. 高阶推理学习：通过观察 Aletheia 的迭代过程，普通人能直观学习严谨思考方式，提升自身能力。

4. 跨领域潜力：数学是科学基础，AI 在此突破将加速物理模拟、生物建模、AI 自身优化等。

对中国用户而言，实用性更强。国内科研竞争激烈，能借 AI 工具降低门槛，就多一分先机。学生可以用它辅助奥赛进阶或本科论文；开发者能借鉴其 agent 设计，自动化工作流。

更广泛看，数学发现加速将带动整个科学范式转变。曾经需要多年团队协作的问题，或许几年内就能看到 AI 贡献的突破。

想亲手试试 Gemini Deep Think 的强大推理能力，或用类似 agent 思路自动化你的工作流？ 访问 [api.884819.xyz](https://api.884819.xyz) 即可快速接入最新模型与工具，支持中文提示与高阶数学任务，零门槛体验 AI 科研伙伴。新用户注册即送体验 token，国产模型完全免费，按量付费，无月租压力。

Aletheia 只是开始。当 AI 能自主攻克数学研究，下一个被“自动化”的领域会是物理、生物还是你的日常工作？下一篇文章，我们拆解 Aletheia 的技术细节如何被普通开发者复用，敬请期待。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI数学 #Gemini #Aletheia #DeepThink #人工智能 #数学研究 #AI代理 #8848AI #Prompt工程 #科研工具