本文最后更新于 2026-05-16,文章内容可能已经过时。

AI数学家“活”了:Gemini Deep Think驱动的Aletheia,如何把数学研究推向自主时代

想象一下,一个没有人类指导的AI系统,面对人类数学家多年未解的研究级难题,不仅能独立生成证明思路,还能自我验证、发现错误、反复迭代,最终产出可投稿arXiv的完整论文。这听起来像科幻,但2026年,它已经真实发生。

Google DeepMind推出的Aletheia项目,正是这一转折的标志。它由Gemini Deep Think模式驱动,在专为防止数据污染而设计的FirstProof挑战中,自主解决了10道全新研究级问题中的6道。这些问题从未在训练数据中出现,专家评估确认其有效性。 [[1]](https://arxiv.org/abs/2602.21201) [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

从2025年夏季达成IMO金牌水平,到2026年初跃升至研究级自主证明,Gemini Deep Think只用了不到一年时间,就让“AI做数学”从辅助工具升级为能独立探索前沿的伙伴。这不仅仅是算力提升,更是AI推理范式的突破。对于中国AI用户来说,这意味着科研效率的潜在飞跃:无论你是数学爱好者、研究生,还是开发者,都能借助类似能力加速自己的工作。

Aletheia到底是什么?三个普通人能懂的判断

很多人听到“AI证明数学”时,第一反应是“它只是背题库吧?”Aletheia用实际表现打破了这个刻板印象。它不是简单搜索答案,而是像一个有自我审稿能力的博士生,在复杂问题上反复推敲。

判断1:AI能“自己想、自己改、自己认错”

Aletheia的核心是Generator-Verifier-Reviser循环。Generator负责提出候选方案,Verifier用自然语言评估逻辑漏洞,Reviser则根据反馈修订。整个过程可以迭代数百轮,遇到死胡同时还会主动承认“此路不通”,避免无效计算。

这就像你和一个严谨的同事合作写论文:一方天马行空 brainstorm,另一方挑刺,最后一起改稿。不同的是,AI能同时扮演所有角色,且不带情绪。

流程大致如下(简化版):

1. Generator输出初始证明草稿。

2. Verifier扫描潜在错误(如逻辑跳跃、引用不当)。

3. Reviser针对性优化,或生成新变体。

4. 循环直到Verifier通过或达到计算预算。

这种agentic workflow让系统在研究级问题上表现出惊人的韧性。

判断2:AI开始产出原创成果

Aletheia不只解题,还真正“发现新东西”。在Bloom’s Erdős Problems数据库约700个开放问题中,它自主解决了4个,并评估了更多。典型案例包括Erdős-1051,其解决方案还被进一步泛化,促成了一篇独立论文。 [[3]](https://www.deeplearning.ai/the-batch/googles-aletheia-uses-gemini-3-deep-think-to-find-original-mathematics-solutions/)

更震撼的是,它完全无人工干预生成了一篇arXiv论文,探讨算术几何中的eigenweights结构常数。这篇论文达到了“publishable quality”水平,标志着AI从“解题机”走向“研究者”。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

专家评审确认,这些成果不是简单复述已有文献,而是提供了新视角。当然,AI仍会偶尔“潜意识引用”已有工作,人类把关必不可少,但原创性已不容忽视。

判断3:目前是“强力助手+部分自主”,离完全取代还有距离

数据亮眼:Aletheia在IMO-ProofBench Advanced上达到约91.9%的通过率,在PhD级练习中表现强劲,并在FirstProof中拿下6/10。 [[4]](https://www.infoq.com/news/2026/04/deepmind-aletheia-agentic-math/)

但DeepMind团队强调,专家评估仍是最终关卡。AI擅长生成和验证,但对极高创造性的“Landmark Breakthrough”尚未达成。人类的作用从“主导”转向“方向把控+最终真理判断”——这其实是更高效的协同。

比喻来说,Aletheia像一个天赋极高的研究生:能独立完成大量文献调研和初稿,但导师仍需把握大局、确保创新性和严谨性。

技术底层:inference-time scaling与agentic workflow的威力

Gemini Deep Think的关键在于测试时算力扩展(inference-time scaling)。不同于训练阶段的预计算,它在单次推理中分配更多计算资源,探索更多假设路径。这让模型在复杂证明上表现更稳健。

对比2025年IMO金牌版本,2026版在相同或更低计算预算下,推理质量显著提升。Aletheia进一步将此转化为agentic循环,Verifier机制减少了幻觉,搜索+浏览工具帮助它准确引用文献。 [[2]](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)

对普通中国AI用户的影响非常务实:

  • 研究效率:研究生可以用类似流程快速验证猜想、生成初稿。
  • 个人学习:高中生或自学者能让AI一步步拆解高阶证明,边学边练。
  • 工具化:结合代码、搜索的workflow,让非专业人士也能参与数学探索。

DeepMind已通过API更广泛开放Deep Think能力,这为国内开发者提供了跟进机会。 [[3]](https://www.deeplearning.ai/the-batch/googles-aletheia-uses-gemini-3-deep-think-to-find-original-mathematics-solutions/)

未来展望:从数学到更广科学发现

Aletheia显示,AI数学研究的下一阶段将是更广泛领域(如物理、CS理论)的深度渗透,以及人类-AI新协同范式。想象一下:AI处理海量文献和计算验证,人类专注直觉跳跃和跨领域连接。科研生产力有望指数级提升,更多人能参与高阶探索,而非仅限顶尖专家。

理性来看,AI不会抢走数学家饭碗,而是把门槛降低,让“普通人”也能站在巨人肩膀上玩转前沿。就像计算器解放了算术能力,Aletheia可能解放证明能力。

普通用户/开发者现在能做什么?

1. 关注DeepMind官方博客和arXiv论文(推荐阅读:[DeepMind博客](https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/)、[FirstProof论文](https://arxiv.org/abs/2602.21201))。

2. 尝试Gemini API调用Deep Think模式,进行数学推理实验。

3. 参与开源验证项目,如GitHub上的Aletheia相关仓库。

4. 在日常学习中,用类似迭代思维训练自己的Prompt。

想亲手试试Gemini Deep Think级别的强大推理能力?推荐直接体验api.884819.xyz提供的最新模型调用接口。新用户注册即送体验token,零门槛跑数学Agent实验,几行代码就能复现类似迭代验证流程。平台国产模型完全免费,按量付费,无月租,注册后直接可用,稳定且性价比高。

以下是一个极简Python调用示例(突出test-time compute参数):

import requests  # 或使用官方SDK

def call_deep_think(problem):

response = requests.post("https://api.884819.xyz/v1/chat/completions", json={

"model": "gemini-3-deep-think", # 或平台可用类似推理模式

"messages": [{"role": "user", "content": f"使用迭代验证方式解决:{problem}"}],

"parameters": {"test_time_compute": "high"} # 强调扩展计算

})

return response.json()

示例:Erdős风格问题

result = call_deep_think("探讨某个开放猜想的可能证明路径...")

print(result)

实际使用中,你可以封装Generator-Verifier循环,快速上手。

AI在数学证明上已经站上新台阶,下一步它会在物理、代码生成还是跨领域科学发现上带来更大突破?我们下一篇文章将拆解DeepMind最新科学发现Agent的真实落地案例,敬请期待。

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI数学 #Gemini Deep Think #Aletheia #DeepMind #人工智能 #数学证明 #AI科研 #Prompt技巧 #8848AI #AI Agent