Hassabis 为什么选冯·诺依曼？DeepMind 看 AGI 的方法论，可能比答案本身更重要

如果你在一场高密度采访里，被问“最喜欢的历史人物是谁”，很多人会下意识说图灵、爱因斯坦，或者更“当代一点”的乔布斯。

但在 Sequoia 的那段采访里，Demis Hassabis 给出的名字是冯·诺依曼。

这个回答很有意思。它不像社交媒体上那种“选一个最安全的伟人”，也不像单纯的个人偏好，更像是在不经意间把 DeepMind 对通用 AI 的判断框架，露出了一角。

对 DeepMind 来说，AGI 不是“谁更聪明”，而是“一个系统是否开始具备自我演化的能力”。

冯·诺依曼之所以重要，不只是因为他是数学家、计算机先驱、博弈论奠基者之一，更因为他几乎把现代智能系统最关键的几个关键词都提前想了一遍：计算、决策、复杂系统、自动化、自我复制、自我改进。

这套语言，和今天讨论 AGI 的方式，简直像同一条线上的不同章节。

从“历史人物”到“判断框架”：为什么是冯·诺依曼？

如果只是“崇拜名单”，Hassabis 完全可以选图灵。图灵更像“智能是什么”的提问者；爱因斯坦更像“世界如何运转”的发现者；乔布斯更像“产品如何改变世界”的组织者。

但冯·诺依曼代表的是另一种气质：把智能当成一个能运行、能反馈、能迭代的系统来理解。

这件事放到今天特别贴切。因为我们现在讨论通用 AI，已经不再只是看模型能不能答对一道题，而是看它能不能：

在不同任务之间迁移能力
在更长的任务链路里保持推理和规划
借助工具、反馈和环境不断修正自己

换句话说，DeepMind 似乎关心的，不是某一次“答对”，而是系统级能力是否出现了可持续的信号。

DeepMind 真正看的，不是一个 benchmark，而是三类信号

很多人评估模型，习惯盯分数。分数当然有用，但它只回答“这一次做得怎么样”，很难回答“它是不是正在变成另一种东西”。

如果把 Hassabis 这次回答翻译成 DeepMind 的内部视角，大概率可以压缩成三类信号。

1. 跨任务泛化：是不是换个题型也能用

普通人最容易理解的版本是：

一个模型今天会写总结，明天会写代码，后天还能帮你整理表格和改方案，而且不需要重头训练。

这听起来像“啥都会一点”，但技术上非常关键。因为真正的泛化不是“见过类似题目”，而是把学到的表示、策略和方法迁移到新任务里。

如果模型只会在某个固定题库里表现好，那它更像一个高级插件；如果它能在陌生任务里快速适应，才更接近“通用”。

2. 长链路推理与规划：是不是能把事做完，而不只是答一句

很多模型很会“接话”，但不一定会“做事”。

比如你让它写一份产品方案，真正有用的不是第一句写得多漂亮，而是它能不能：

拆目标
找约束
识别风险
排优先级
在中途发现错误后自己修正

这就是长链路推理。

在科学发现里，这种能力更重要：不是给出一个瞬间答案，而是沿着一串假设、验证、修正、再验证的路径前进。DeepMind 之所以总被外界视为“研究型 AI”的代表，核心也在这里——它们反复在做的，是让模型离“做研究”更近，而不是只离“会聊天”更近。

3. 工具使用与反馈学习：是不是开始会借力、会迭代

第三个信号更像“系统开始活起来”。

一个真正有潜力的通用智能，不会只靠脑内记忆硬扛全部问题，它会知道什么时候该查资料，什么时候该调用代码，什么时候该把任务拆成多个步骤，甚至在失败后重新尝试。

这就是工具使用和反馈学习的意义：模型不再是单次输出器，而是一个能和环境交互的执行系统。

进阶一点说，这背后涉及的不是“会不会调用 API”这么简单，而是模型是否具备：

任务分解能力
自我校验能力
错误恢复能力
在反馈中持续优化的倾向

而这些，恰好是从“语言模型”走向“智能体”的关键桥梁。

把这三个信号放回 DeepMind 的公开成果里看，会更清楚

这也是 Hassabis 那个答案最值得琢磨的地方：它不是抽象表态，而是和 DeepMind 的实际路线高度同构。

AlphaGo：不是会下棋，而是会做长期决策

AlphaGo 的意义，从来不只是“打败了人类围棋冠军”。

它真正展示的是：一个系统可以在巨大搜索空间里做长期规划，并把短期动作和最终收益连接起来。围棋这种任务，特别像现实世界里的复杂决策：不是每一步都立刻见分晓，但每一步都会改变后续局势。

AlphaFold：不是把题做对，而是碰到了科学发现

AlphaFold 让很多人第一次直观感受到，AI 不是只能生成文本，它也能介入科学问题。

蛋白质结构预测本身不是“聊天式问题”，它更像是在一堆复杂约束中寻找稳定解。这类成果之所以重要，是因为它证明了 AI 不只是能完成标准答案题，还可能参与到科学发现流程里。

AlphaCode 和 Gemini：从单点能力，走向跨任务协作

AlphaCode 让人看到代码生成和问题分解的潜力；Gemini 则把多模态、复杂指令处理、工具协作这些能力，往更“通用”的方向推进了一步。

把这些成果连起来看，逻辑其实很清楚：

DeepMind 想证明的，不是“模型会不会某个技能”，而是模型是否已经在不同形态的任务中展现出可迁移、可规划、可协作的综合智能特征。

这对中国 AI 用户意味着什么？

如果你是普通用户，这件事的意义很直接：

以后别再只盯着“谁更大、谁更热闹”了，要盯“谁真的更会做事”。

判断一个模型是不是在接近“通用能力”，可以问自己几个很实际的问题：

它能不能在不同任务里稳定表现，而不是只会单一问答？
它能不能处理更长的任务链路，而不是只输出一句漂亮话？
它能不能调用工具、纠错、恢复，而不是一错到底？
它在复杂提示词下，是否还能保持一致性？

如果你是产品经理、开发者，甚至是重度 AI 用户，这些问题更关键。因为它们决定了你选模型时看什么：

是看一次回答好不好看
还是看它能不能做完整流程
是看 demo
还是看真实工作流里的稳定性

想自己验证这些信号，最直接的方法不是看别人转述，而是拿同一组任务去跑不同模型。你可以直接去 api.884819.xyz 试试：注册只需要用户名+密码，不用邮箱验证，注册后就能直接用。国产模型完全免费，没有月租、没有订阅，按量付费，新用户注册即送体验token。

对很多人来说，这比“讨论 AGI 到底还有多远”更有意义。因为你真正要判断的，不是概念，而是模型在真实任务里的变化。

但别把这理解成“AGI 已经来了”

最后还是要冷静一点。

Hassabis 选冯·诺依曼，不等于 DeepMind 已经宣布终点到了；更像是在说：我们开始看见通往通用智能的几类真实信号了。

这和“AGI 已经出现”之间，还有很远的距离。原因也很现实：

模型依然会幻觉
长任务依然会中途跑偏
工具使用并不总是稳定
复杂场景下的可靠性、可控性、成本，仍然是硬问题

所以更准确的说法是：

这不是终点线，而是方向盘。

它告诉我们的不是“AI 已经抵达”，而是“AI 正在朝某个更像通用智能的方向靠近”。而真正值得持续观察的，不是某一次发布会，而是接下来这些信号会不会越来越稳定、越来越可复现。

下一篇，我会继续顺着这条线拆：为什么现在很多模型看起来越来越强，但离“真正通用”仍然差着一个关键门槛。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI新闻 #DeepMind #AGI #人工智能 #Gemini #AlphaFold #8848AI #AI趋势