Hassabis 为什么选冯·诺依曼?DeepMind 看 AGI 的方法论,可能比答案本身更重要

如果你在一场高密度采访里,被问“最喜欢的历史人物是谁”,很多人会下意识说图灵、爱因斯坦,或者更“当代一点”的乔布斯。

但在 Sequoia 的那段采访里,Demis Hassabis 给出的名字是冯·诺依曼

这个回答很有意思。它不像社交媒体上那种“选一个最安全的伟人”,也不像单纯的个人偏好,更像是在不经意间把 DeepMind 对通用 AI 的判断框架,露出了一角。

对 DeepMind 来说,AGI 不是“谁更聪明”,而是“一个系统是否开始具备自我演化的能力”。

冯·诺依曼之所以重要,不只是因为他是数学家、计算机先驱、博弈论奠基者之一,更因为他几乎把现代智能系统最关键的几个关键词都提前想了一遍:计算、决策、复杂系统、自动化、自我复制、自我改进

这套语言,和今天讨论 AGI 的方式,简直像同一条线上的不同章节。

从“历史人物”到“判断框架”:为什么是冯·诺依曼?

如果只是“崇拜名单”,Hassabis 完全可以选图灵。图灵更像“智能是什么”的提问者;爱因斯坦更像“世界如何运转”的发现者;乔布斯更像“产品如何改变世界”的组织者。

但冯·诺依曼代表的是另一种气质:把智能当成一个能运行、能反馈、能迭代的系统来理解

这件事放到今天特别贴切。因为我们现在讨论通用 AI,已经不再只是看模型能不能答对一道题,而是看它能不能:

  • 在不同任务之间迁移能力
  • 在更长的任务链路里保持推理和规划
  • 借助工具、反馈和环境不断修正自己

换句话说,DeepMind 似乎关心的,不是某一次“答对”,而是系统级能力是否出现了可持续的信号

DeepMind 真正看的,不是一个 benchmark,而是三类信号

很多人评估模型,习惯盯分数。分数当然有用,但它只回答“这一次做得怎么样”,很难回答“它是不是正在变成另一种东西”。

如果把 Hassabis 这次回答翻译成 DeepMind 的内部视角,大概率可以压缩成三类信号。

1. 跨任务泛化:是不是换个题型也能用

普通人最容易理解的版本是:

一个模型今天会写总结,明天会写代码,后天还能帮你整理表格和改方案,而且不需要重头训练。

这听起来像“啥都会一点”,但技术上非常关键。因为真正的泛化不是“见过类似题目”,而是把学到的表示、策略和方法迁移到新任务里

如果模型只会在某个固定题库里表现好,那它更像一个高级插件;如果它能在陌生任务里快速适应,才更接近“通用”。

2. 长链路推理与规划:是不是能把事做完,而不只是答一句

很多模型很会“接话”,但不一定会“做事”。

比如你让它写一份产品方案,真正有用的不是第一句写得多漂亮,而是它能不能:

  • 拆目标
  • 找约束
  • 识别风险
  • 排优先级
  • 在中途发现错误后自己修正

这就是长链路推理。

在科学发现里,这种能力更重要:不是给出一个瞬间答案,而是沿着一串假设、验证、修正、再验证的路径前进。DeepMind 之所以总被外界视为“研究型 AI”的代表,核心也在这里——它们反复在做的,是让模型离“做研究”更近,而不是只离“会聊天”更近。

3. 工具使用与反馈学习:是不是开始会借力、会迭代

第三个信号更像“系统开始活起来”。

一个真正有潜力的通用智能,不会只靠脑内记忆硬扛全部问题,它会知道什么时候该查资料,什么时候该调用代码,什么时候该把任务拆成多个步骤,甚至在失败后重新尝试。

这就是工具使用和反馈学习的意义:模型不再是单次输出器,而是一个能和环境交互的执行系统。

进阶一点说,这背后涉及的不是“会不会调用 API”这么简单,而是模型是否具备:

  • 任务分解能力
  • 自我校验能力
  • 错误恢复能力
  • 在反馈中持续优化的倾向

而这些,恰好是从“语言模型”走向“智能体”的关键桥梁。

把这三个信号放回 DeepMind 的公开成果里看,会更清楚

这也是 Hassabis 那个答案最值得琢磨的地方:它不是抽象表态,而是和 DeepMind 的实际路线高度同构。

AlphaGo:不是会下棋,而是会做长期决策

AlphaGo 的意义,从来不只是“打败了人类围棋冠军”。

它真正展示的是:一个系统可以在巨大搜索空间里做长期规划,并把短期动作和最终收益连接起来。围棋这种任务,特别像现实世界里的复杂决策:不是每一步都立刻见分晓,但每一步都会改变后续局势。

AlphaFold:不是把题做对,而是碰到了科学发现

AlphaFold 让很多人第一次直观感受到,AI 不是只能生成文本,它也能介入科学问题。

蛋白质结构预测本身不是“聊天式问题”,它更像是在一堆复杂约束中寻找稳定解。这类成果之所以重要,是因为它证明了 AI 不只是能完成标准答案题,还可能参与到科学发现流程里。

AlphaCode 和 Gemini:从单点能力,走向跨任务协作

AlphaCode 让人看到代码生成和问题分解的潜力;Gemini 则把多模态、复杂指令处理、工具协作这些能力,往更“通用”的方向推进了一步。

把这些成果连起来看,逻辑其实很清楚:

DeepMind 想证明的,不是“模型会不会某个技能”,而是模型是否已经在不同形态的任务中展现出可迁移、可规划、可协作的综合智能特征

| AGI 信号 | 公开案例 | 你该怎么理解 | | 跨任务泛化 | AlphaCode、Gemini | 换任务后能力不塌,说明不是死记硬背 | | 长链路推理/规划 | AlphaGo | 不只看当下,还能考虑更长远的结果 | | 科学发现/工具协作 | AlphaFold、Gemini | 不只是回答问题,而是参与解决问题 |

这对中国 AI 用户意味着什么?

如果你是普通用户,这件事的意义很直接:

以后别再只盯着“谁更大、谁更热闹”了,要盯“谁真的更会做事”。

判断一个模型是不是在接近“通用能力”,可以问自己几个很实际的问题:

  • 它能不能在不同任务里稳定表现,而不是只会单一问答?
  • 它能不能处理更长的任务链路,而不是只输出一句漂亮话?
  • 它能不能调用工具、纠错、恢复,而不是一错到底?
  • 它在复杂提示词下,是否还能保持一致性?

如果你是产品经理、开发者,甚至是重度 AI 用户,这些问题更关键。因为它们决定了你选模型时看什么:

  • 是看一次回答好不好看
  • 还是看它能不能做完整流程
  • 是看 demo
  • 还是看真实工作流里的稳定性

想自己验证这些信号,最直接的方法不是看别人转述,而是拿同一组任务去跑不同模型。你可以直接去 api.884819.xyz 试试:注册只需要用户名+密码,不用邮箱验证,注册后就能直接用。国产模型完全免费,没有月租、没有订阅,按量付费,新用户注册即送体验token。

对很多人来说,这比“讨论 AGI 到底还有多远”更有意义。因为你真正要判断的,不是概念,而是模型在真实任务里的变化

但别把这理解成“AGI 已经来了”

最后还是要冷静一点。

Hassabis 选冯·诺依曼,不等于 DeepMind 已经宣布终点到了;更像是在说:我们开始看见通往通用智能的几类真实信号了。

这和“AGI 已经出现”之间,还有很远的距离。原因也很现实:

  • 模型依然会幻觉
  • 长任务依然会中途跑偏
  • 工具使用并不总是稳定
  • 复杂场景下的可靠性、可控性、成本,仍然是硬问题

所以更准确的说法是:

这不是终点线,而是方向盘。

它告诉我们的不是“AI 已经抵达”,而是“AI 正在朝某个更像通用智能的方向靠近”。而真正值得持续观察的,不是某一次发布会,而是接下来这些信号会不会越来越稳定、越来越可复现。

下一篇,我会继续顺着这条线拆:为什么现在很多模型看起来越来越强,但离“真正通用”仍然差着一个关键门槛。

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI新闻 #DeepMind #AGI #人工智能 #Gemini #AlphaFold #8848AI #AI趋势