Figure 03视频震撼全网:AI机器人学会"偷懒"和直觉,你的岗位还安全吗?

📌 第一章:那段让全网沉默的视频

几天前,一段视频像深夜里的惊雷,让整个AI和机器人圈瞬间安静了。

视频的主角是 Figure 公司最新发布的 Figure 03 人形机器人。画面里,它正在完成一项看似寻常的任务:把传送带上的零件拿起,精准地放入旁边的箱子里。

起初,一切都按部就班。但就在某一刻, Figure 03 做出了一个让所有围观者倒吸一口凉气的动作——它并没有像它的前辈(Figure 01/02)或者我们在工厂里常见的机械臂那样,严格遵循“抓取-提升-平移-下降-释放”的预设 rigid 路径。

相反,它在抓起零件后,利用零件自身的惯性,划出了一条极具动感的弧线,顺势“甩”进了箱子里。

这个动作极度丝滑,极度像一个为了早点下班而寻找捷径的熟练工。

它学会了“偷懒”。

这不是人类工程师明确教给它的。人类只给了它一个目标:把零件放进箱子。至于怎么放,它自己找到了这条更省力、更高效的路径。

这段视频在社交媒体上的讨论量,瞬间超过了此前所有人形机器人视频的总和。为什么?因为我们看到的不再是一台死板执行代码的机器,而是一个拥有了“经验”甚至“直觉”的智能体。

正如一位在评论区获得高赞的网友所言:“你上次‘偷懒’找捷径,是出于经验还是直觉?机器人现在也会了。”

这种沉默背后的潜台词是:如果机器不仅能做我们教它的事,还能做我们没教过、但它自己觉得更好的事,那人作为“更高级智能”的边界,还在哪里?

📌 第二章:拆解“偷懒”和“直觉”背后的技术真相

为了让大家不至于陷入单纯的恐慌,我们有必要剥开 Figure 03 的技术外衣,看看这所谓的“偷懒”和“直觉”在代码层面到底是什么。

“偷懒”不是 Bug,是强化学习的涌现行为

在传统的工业机器人时代,如果你想让机器臂动一下,你需要给它输入精确的 3D 坐标(X, Y, Z)以及每个关节的角度。如果传送带上的零件位置偏了 1 厘米,机器臂就会抓空。

Figure 03 完全不同。它采用的是端到端神经网络(End-to-End Neural Networks)

简单来说,它的核心大脑是一个巨大的黑盒。输入端是摄像头看到的实时画面,输出端是控制机器人每一个关节运动的电流信号。在真正上岗之前,Figure 03 在高精度的仿真环境(Simulation)中进行了海量的训练。

在训练中,工程师设置了一个“奖励函数”:成功把零件放进箱子,得 100 分;耗时越短,额外加分;消耗能量越少,额外加分。

起初,Figure 03 笨拙地尝试各种动作。但在数百万次的尝试后,强化学习算法“涌现”出了一种最优解——那个看似“偷懒”的甩动动作,实际上是在满足所有奖励条件下的全局最优路径规划。它利用了物理学原理(惯性)来节省能量和时间。

这标志着 AI 从执行指令到自主决策的质变。

“直觉”的技术本质:VLA 模型

那什么是 Figure 03 的“直觉”?

比如,当你对它说“我饿了”,它会看向桌子,在一堆杂物中准确地拿起苹果递给你,而不是拿起旁边的餐巾纸。这种“看一眼就知道怎么做”的能力,被称为视觉-语言-动作模型(Vision-Language-Action, VLA)

这是上一代机器人无法想象的。Figure 03 不再需要复杂的规则硬编码,它通过视觉模型理解场景,通过语言模型(类似于 GPT-5.2 的变体)理解意图,然后直接转化为动作。

为了让你更直观地理解 Figure 03 的进化,我们整理了下面这张技术层次对比表:

| 能力维度 | Figure 01/02 | Figure 03 | | :--- | :--- | :--- | | 任务理解 | 关键词指令(如“拿苹果”) | 自然语言+上下文推理(如“我饿了”) | | 路径规划 | 预设轨迹,死板执行 | 实时动态优化(“偷懒”来源) | | 异常处理 | 停机报错,等待人工干预 | 自主判断继续/求助 | | 泛化能力 | 只能在固定场景工作 | 陌生环境快速适应 | | 核心大脑 | 基础视觉+规则引擎 | VLA 大模型+深度强化学习 |

📌 第三章:这次和以前的“狼来了”有什么不同?

过去十年,我们听了太多次“机器人将替代人类”的预言,但每次都像是“狼来了”。

为什么?因为横亘在实验室 demo 和大规模商业应用之间,有三座大山:成本高、灵活性差、故障率高

以前的工业机器人,虽然干活快,但只能干一种活。一旦要换产线,重新编程和调试的成本甚至超过了雇佣工人的成本。

但这一次,Figure 03 让我们看到了翻越这三座大山的希望。

1. 灵活性不再是瓶颈

有了 VLA 模型,Figure 03 具备了极强的“泛化能力”。今天在 BMW 工厂拧螺丝,明天稍加微调就能去仓储中心分拣包裹。它不需要人类为每个场景写代码,它自己能“看懂”环境。

2. 错误恢复率的质变

在 BMW 工厂的测试数据中,Figure 03 展示了惊人的自我修复能力。如果零件在抓取时滑落,它不会停机报错,而是会自主判断:是重新抓取,还是先清理掉落物?官方披露的技术报告显示,其任务成功率已超过 95%,即便在发生轻微异常时,错误恢复率也达到了前所未有的高度。

3. 成本曲线的交叉

高盛(Goldman Sachs)的报告预测,到 2030 年,全球人形机器人市场规模将达到 380 亿美元。随着 OpenAI(也是 Figure 的重要投资者)在算法上的持续优化,以及硬件供应链的成熟,人形机器人的时薪成本正在迅速下降。

这次的本质差异在于:它不再是“更快的机械臂”,而是“有判断力的劳动者”。这才是真正的威胁边界转移。以前机器抢的是纯体力的活,现在它开始抢那些需要一点点“脑子”的蓝领活了。

📌 第四章:哪些工作真的危险了?哪些还安全?

面对 Figure 03 展示的能力,我们不能盲目乐观,也不能陷入恐慌,需要理性的分析。

我们提出了一个“替代风险四象限”框架,以“体力重复性”和“判断复杂性”为两轴,来评估不同职业的风险:

“替代风险四象限”分析图(示意)

>

(这里想象一张图,横轴是“判断复杂性”,纵轴是“体力重复性”)

>

- 右上角(高体力重复,低判断复杂):高危区
- 左下角(低体力重复,高判断复杂):相对安全区

🚨 高危区(3-5 年内面临巨变)

这些岗位的特点是:动作高度重复,所谓的“判断”其实通过视觉直觉就能完成。

1. 仓储分拣与打包:Figure 03 已经证明了自己在处理非结构化物体上的能力。

2. 流水线简单装配:在 BMW 工厂的测试就是明证。

3. 快递末端配送:结合自动驾驶底盘和人形上半身,能解决最后 100 米的上楼问题。

4. 餐厅后厨备菜:洗菜、切菜、简单的翻炒,对 VLA 模型来说只是时间问题。

🛡️ 相对安全区(10 年以上,甚至更久)

这些岗位需要的情感共情、复杂决策或高度非结构化的环境适应能力,是目前的 AI 和硬件难以企及的。

1. 情感共情的护理人员:机器人可以帮你翻身,但无法给你提供临终关怀时的情感支持。

2. 高度非结构化的现场维修:比如去深山里维修一个型号老旧、没有图纸的变压器,这需要极强的逻辑推理和应变能力。

3. 创意决策类岗位:广告创意、顶层战略规划、前沿科学研究。AI 是最好的副驾,但主驾依然是人。

你可以给自己做一个自测:“你的工作里,有多少比例是‘看一眼就知道怎么做’的任务?” 这个比例越高,被 Figure 03 们替代的风险就越大。

📌 第五章:普通人现在能做什么?(行动落地)

既然变化不可逆转,那焦虑就没有意义。最有意义的是:行动

根据你目前受影响的程度,我们给出三条不同层级的应对策略:

1. 观望者:建立认知免疫

如果你现在的岗位还在安全区,你需要做的是保持关注,而不是漠视。要理解 AI 进化的逻辑,当狼真的来了时,你至少知道该往哪跑。

2. 学习者:把 AI 当作副驾

不管你现在做什么,尝试把日常工作中的脑力部分外包给 AI。比如使用 Deepseek R1 帮你写周报,用 Kimi K2.5 帮你读长文档。当你习惯了指挥 AI 干活,你就从“被替代者”变成了“管理者”。

3. 参与者:亲手摸一摸“机器决策”的边界

你可能会问:我又不是工程师,怎么“感受”AI 决策边界?其实门槛没你想的高。

很多进阶读者可能想知道,那种模糊的“直觉”在代码层面是如何运作的。我们可以用一个简单的思想实验类比:

# 用一个简单示例类比"机器人直觉"——

展示 LLM 如何在没有明确指令时做出"最优选择"

import openai # 这里推荐使用兼容接口,比如 api.884819.xyz

假设你已经获取了 API Key

client = openai.OpenAI(

base_url="https://api.884819.xyz/v1", # 兼容 OpenAI 格式的接口

api_key="your_working_key"

)

模拟"给机器人一个模糊任务,看它如何自主决策"

我们不给它具体的坐标,只给它一个场景和目标

response = client.chat.completions.create(

model="gpt-5.2", # 使用具有强大推理能力的模型

messages=[

{"role": "system", "content":

"你是一个仓库机器人的决策核心。你的视野里有一个红色的重箱子和一个蓝色的轻箱子。当你接收到的任务描述不完整时,你需要结合场景自主推断最优行动方案,而不是报错停机。"},

{"role": "user", "content":

"把箱子搬过来。"}

]

)

print("机器人决策结果:")

print(response.choices[0].message.content)

当你运行这段代码,你会发现 AI(模拟的机器人大脑)通常不会报错说“指令不明”,而是会“猜”——它可能会回答:“由于你没有指定,我将优先搬运蓝色的轻箱子,因为这更节省能量且风险更低。”

你看,这就是“直觉”和“偷懒”的雏形。

文中的代码示例,你可以直接复制运行。如果还没有 API 访问权限,api.884819.xyz 提供兼容 OpenAI 格式的接口,注册后即可调用 GPT-5.2Claude Opus 4.6 等主流模型——亲手测试一次,比读十篇分析文章更有感知。

机器人学会偷懒的那一刻,真正的竞争不再是人 vs 机器,而是“懂 AI 的人” vs “不懂 AI 的人”

---

📖 下期预告

>

Figure 03 让我们看到了“手”的革命——但有一场更安静、影响更深远的战争,正在“眼睛”里发生。

>

《当 AI 学会“看懂”工厂:计算机视觉如何让质检员成为第一批失业者》

>

如果说 Figure 03 是体力劳动的终结者,那视觉 AI 就是脑力蓝领的收割机——而它已经在你不知道的工厂里,悄悄上岗了。

>

关注 8848AI,下周三见。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#Figure03 #人工智能 #人形机器人 #OpenAI #8848AI #AI教程 #就业前景 #VLA模型