本文最后更新于 2026-05-16,文章内容可能已经过时。

AI 写出研究级数学论文:Gemini Deep Think 驱动的 Aletheia 项目,标志着「AI 做数学」进入新纪元

你有没有想过,曾经只能刷 IMO 题目的 AI,现在竟然能自己提出并证明全新的研究级数学问题?不是简单复制已知结论,而是像 PhD 学生一样,在开放问题上独立探索、迭代、甚至产出可能发表的成果。

2026 年,Google DeepMind 的 Aletheia 项目用 Gemini 3 Deep Think 驱动的数学研究代理,在 FirstProof 挑战中自主解决 6/10 个全新研究级问题(多数专家认可),这不是科幻,而是已经发生的里程碑。 [[1]](https://arxiv.org/abs/2602.21201)

从“会做高考题”到“自己写论文”,AI 在数学领域的跃迁,比很多人想象得更快,也更真实。

AI 数学能力的「奇点」时刻已来临

过去几年,AI 在数学竞赛上屡创佳绩。2025 年,Gemini 系列模型已在 IMO(国际数学奥林匹克)达到金牌水平。但竞赛题有固定模式、已知解法,训练数据容易“污染”。研究级数学则完全不同:问题开放、新颖、需要跨领域洞见,且没有标准答案可抄。

Aletheia 的出现,正是这个转变的标志。它不是简单刷题工具,而是一个能自主生成、验证、修订的数学研究代理。在 FirstProof 挑战——由专业数学家提出的 10 个真实研究问题——中,Aletheia 在规定时间内自主解决了其中 6 个(问题 2、5、7、8、9、10),专家多数认可,仅问题 8 存在分歧。

为什么这比 IMO 金牌更具里程碑意义?

首先,它避开了数据污染。FirstProof 的问题来自一线数学家的工作,是 AI 训练中未见过的新鲜内容。其次,它强调原创性:AI 不是回忆已知证明,而是从零构建论证路径。最后,它展示了端到端自主性——整个过程用自然语言完成,无需人工大量干预。

普通人能直观判断:AI 已经能独立“想”出新数学 idea,并为之提供严谨支撑。这不再是辅助工具,而是正在成为数学家的真正协作伙伴,甚至独立贡献者。

从 2025 年 IMO 金牌,到 2026 年研究代理,Gemini Deep Think 的迭代路径清晰可见:通过 test-time compute(推理时算力)持续 scaling,推理能力稳步提升。这也解释了为什么 Aletheia 能在 PhD 级练习中展现潜力。

Aletheia 到底是怎么工作的?三个普通人判断

Aletheia 听起来高深,但拆开看,其实像一个极致自律的“数学研究生”在工作。它的核心是 Generator + Verifier + Reviser 的三重循环。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

判断 1:像“学生写作业 → 老师批改 → 学生改错”的自动循环,全程自然语言
  • Generator:负责提出初始想法和证明草稿。
  • Verifier:像严格的审稿人,找出逻辑漏洞、计算错误或不严谨之处。
  • Reviser:根据反馈修改方案,迭代优化。

整个过程不需要把数学转成代码再跑形式验证器,而是用自然语言端到端完成。这极大降低了门槛,也让 AI 能像人类一样“思考”。

想象你让 AI 证明一个几何猜想:它先写一段论证,Verifier 指出“这里边界条件没处理好”,Reviser 就回去补全。循环多次,直到通过。

判断 2:它能“承认失败”并高效迭代

这可能是 Aletheia 最聪明的地方。很多 AI 会盲目尝试直到资源耗尽,但 Aletheia 能在发现路径不可行时主动放弃,转向新方向。这极大提升了效率。

在 Bloom’s Erdos Conjectures 数据库等公开开放问题上,它已自主解决多个案例(相关论文提到自主解决四个开放问题)。透明度也很高:DeepMind 公开了原始 prompts 和 outputs,任何人都能去 GitHub 查看。

判断 3:推理能力随算力 scaling,继续有效

从 IMO 90%+ 到 FirstProof 6/10,再到 IMO-ProofBench ~91.9%,Aletheia 显示:PhD 级练习已可行。关键在于 test-time compute 的 scaling law——给更多推理时间和算力,能力就继续提升,而非遇到瓶颈。 [[3]](https://luhuidev.medium.com/google-deepmind-aletheia-a-deep-dive-into-a-fully-autonomous-math-research-agent-ec36c258aa09)

这意味着,未来普通用户用更强的模型 + 足够算力,就能让 AI 辅助完成高阶数学任务。

“Aletheia 不是在模仿数学家,而是在以自己的方式探索数学真理。”——项目相关描述强调了其迭代本质。

真实案例 + 当前局限,普通人该怎么看

案例 1:自主生成 eigenweights 论文

Aletheia 几乎零人工干预,生成了一篇关于算术几何中“eigenweights”的结构常数计算论文。这不是简单验证,而是产出 publishable 级成果。 [[4]](https://arxiv.org/abs/2602.10177)

案例 2:Erdos 问题解决记录

在 700 个开放问题评估中,Aletheia 自主解决了多个,展示了在猜想数据库上的实际贡献。

案例 3:FirstProof 具体表现

问题 7 尤其亮眼,是多年开放问题,Aletheia 给出了接近解决方案。专家评估透明公开,连分歧(如问题 8)都详细记录。

当然,不能盲目乐观。当前局限明显

  • 算力依赖:高性能需要大量 test-time compute,普通硬件难以复制完整 Aletheia。
  • 专家验证必要:AI 输出仍需人类数学家最终把关,尤其复杂证明。
  • 协作优于取代:目前更适合辅助顶尖研究者,而非完全独立。部分问题仍需人类提供洞见或引导。

以下是简化对比(基于公开信息):

  • 竞赛级(IMO):AI 已接近或超越人类顶尖,速度快。
  • 研究级(FirstProof):AI 解决 6/10,人类专家团队仍具优势,但 AI 自主性突出。
  • 创新性:AI 擅长系统探索,人类擅长直觉跳跃。二者结合潜力最大。

Aletheia 的透明度(公开 prompts、GitHub 项目页)是最大亮点,让普通人也能学习其工作流。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

对普通中国 AI 用户的实际意义 + 未来展望

对程序员、学生、科研爱好者来说,这意味着什么?

1. 更快验证想法:用类似 agent 思路,快速测试数学猜想或算法优化,无需等导师反馈。

2. 辅助论文写作:文献综述、证明草稿生成、错误检查——极大加速科研流程。

3. 高阶推理学习:通过观察 Aletheia 的迭代过程,普通人能直观学习严谨思考方式,提升自身能力。

4. 跨领域潜力:数学是科学基础,AI 在此突破将加速物理模拟、生物建模、AI 自身优化等。

对中国用户而言,实用性更强。国内科研竞争激烈,能借 AI 工具降低门槛,就多一分先机。学生可以用它辅助奥赛进阶或本科论文;开发者能借鉴其 agent 设计,自动化工作流。

更广泛看,数学发现加速将带动整个科学范式转变。曾经需要多年团队协作的问题,或许几年内就能看到 AI 贡献的突破。

想亲手试试 Gemini Deep Think 的强大推理能力,或用类似 agent 思路自动化你的工作流? 访问 [api.884819.xyz](https://api.884819.xyz) 即可快速接入最新模型与工具,支持中文提示与高阶数学任务,零门槛体验 AI 科研伙伴。新用户注册即送体验 token,国产模型完全免费,按量付费,无月租压力。

Aletheia 只是开始。当 AI 能自主攻克数学研究,下一个被“自动化”的领域会是物理、生物还是你的日常工作?下一篇文章,我们拆解 Aletheia 的技术细节如何被普通开发者复用,敬请期待。

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI数学 #Gemini #Aletheia #DeepThink #人工智能 #数学研究 #AI代理 #8848AI #Prompt工程 #科研工具