Figure 03视频震撼全网:AI机器人学会"偷懒"和直觉,你的岗位还安全吗?
Figure 03视频震撼全网:AI机器人学会"偷懒"和直觉,你的岗位还安全吗?
📌 第一章:那段让全网沉默的视频
几天前,一段视频像深夜里的惊雷,让整个AI和机器人圈瞬间安静了。
视频的主角是 Figure 公司最新发布的 Figure 03 人形机器人。画面里,它正在完成一项看似寻常的任务:把传送带上的零件拿起,精准地放入旁边的箱子里。
起初,一切都按部就班。但就在某一刻, Figure 03 做出了一个让所有围观者倒吸一口凉气的动作——它并没有像它的前辈(Figure 01/02)或者我们在工厂里常见的机械臂那样,严格遵循“抓取-提升-平移-下降-释放”的预设 rigid 路径。
相反,它在抓起零件后,利用零件自身的惯性,划出了一条极具动感的弧线,顺势“甩”进了箱子里。
这个动作极度丝滑,极度像一个为了早点下班而寻找捷径的熟练工。
它学会了“偷懒”。这不是人类工程师明确教给它的。人类只给了它一个目标:把零件放进箱子。至于怎么放,它自己找到了这条更省力、更高效的路径。
这段视频在社交媒体上的讨论量,瞬间超过了此前所有人形机器人视频的总和。为什么?因为我们看到的不再是一台死板执行代码的机器,而是一个拥有了“经验”甚至“直觉”的智能体。
正如一位在评论区获得高赞的网友所言:“你上次‘偷懒’找捷径,是出于经验还是直觉?机器人现在也会了。”
这种沉默背后的潜台词是:如果机器不仅能做我们教它的事,还能做我们没教过、但它自己觉得更好的事,那人作为“更高级智能”的边界,还在哪里?
📌 第二章:拆解“偷懒”和“直觉”背后的技术真相
为了让大家不至于陷入单纯的恐慌,我们有必要剥开 Figure 03 的技术外衣,看看这所谓的“偷懒”和“直觉”在代码层面到底是什么。
“偷懒”不是 Bug,是强化学习的涌现行为
在传统的工业机器人时代,如果你想让机器臂动一下,你需要给它输入精确的 3D 坐标(X, Y, Z)以及每个关节的角度。如果传送带上的零件位置偏了 1 厘米,机器臂就会抓空。
Figure 03 完全不同。它采用的是端到端神经网络(End-to-End Neural Networks)。
简单来说,它的核心大脑是一个巨大的黑盒。输入端是摄像头看到的实时画面,输出端是控制机器人每一个关节运动的电流信号。在真正上岗之前,Figure 03 在高精度的仿真环境(Simulation)中进行了海量的训练。
在训练中,工程师设置了一个“奖励函数”:成功把零件放进箱子,得 100 分;耗时越短,额外加分;消耗能量越少,额外加分。
起初,Figure 03 笨拙地尝试各种动作。但在数百万次的尝试后,强化学习算法“涌现”出了一种最优解——那个看似“偷懒”的甩动动作,实际上是在满足所有奖励条件下的全局最优路径规划。它利用了物理学原理(惯性)来节省能量和时间。
这标志着 AI 从执行指令到自主决策的质变。
“直觉”的技术本质:VLA 模型
那什么是 Figure 03 的“直觉”?
比如,当你对它说“我饿了”,它会看向桌子,在一堆杂物中准确地拿起苹果递给你,而不是拿起旁边的餐巾纸。这种“看一眼就知道怎么做”的能力,被称为视觉-语言-动作模型(Vision-Language-Action, VLA)。
这是上一代机器人无法想象的。Figure 03 不再需要复杂的规则硬编码,它通过视觉模型理解场景,通过语言模型(类似于 GPT-5.2 的变体)理解意图,然后直接转化为动作。
为了让你更直观地理解 Figure 03 的进化,我们整理了下面这张技术层次对比表:
| 能力维度 | Figure 01/02 | Figure 03 | | :--- | :--- | :--- | | 任务理解 | 关键词指令(如“拿苹果”) | 自然语言+上下文推理(如“我饿了”) | | 路径规划 | 预设轨迹,死板执行 | 实时动态优化(“偷懒”来源) | | 异常处理 | 停机报错,等待人工干预 | 自主判断继续/求助 | | 泛化能力 | 只能在固定场景工作 | 陌生环境快速适应 | | 核心大脑 | 基础视觉+规则引擎 | VLA 大模型+深度强化学习 |📌 第三章:这次和以前的“狼来了”有什么不同?
过去十年,我们听了太多次“机器人将替代人类”的预言,但每次都像是“狼来了”。
为什么?因为横亘在实验室 demo 和大规模商业应用之间,有三座大山:成本高、灵活性差、故障率高。
以前的工业机器人,虽然干活快,但只能干一种活。一旦要换产线,重新编程和调试的成本甚至超过了雇佣工人的成本。
但这一次,Figure 03 让我们看到了翻越这三座大山的希望。
1. 灵活性不再是瓶颈有了 VLA 模型,Figure 03 具备了极强的“泛化能力”。今天在 BMW 工厂拧螺丝,明天稍加微调就能去仓储中心分拣包裹。它不需要人类为每个场景写代码,它自己能“看懂”环境。
2. 错误恢复率的质变在 BMW 工厂的测试数据中,Figure 03 展示了惊人的自我修复能力。如果零件在抓取时滑落,它不会停机报错,而是会自主判断:是重新抓取,还是先清理掉落物?官方披露的技术报告显示,其任务成功率已超过 95%,即便在发生轻微异常时,错误恢复率也达到了前所未有的高度。
3. 成本曲线的交叉高盛(Goldman Sachs)的报告预测,到 2030 年,全球人形机器人市场规模将达到 380 亿美元。随着 OpenAI(也是 Figure 的重要投资者)在算法上的持续优化,以及硬件供应链的成熟,人形机器人的时薪成本正在迅速下降。
这次的本质差异在于:它不再是“更快的机械臂”,而是“有判断力的劳动者”。这才是真正的威胁边界转移。以前机器抢的是纯体力的活,现在它开始抢那些需要一点点“脑子”的蓝领活了。
📌 第四章:哪些工作真的危险了?哪些还安全?
面对 Figure 03 展示的能力,我们不能盲目乐观,也不能陷入恐慌,需要理性的分析。
我们提出了一个“替代风险四象限”框架,以“体力重复性”和“判断复杂性”为两轴,来评估不同职业的风险:
“替代风险四象限”分析图(示意)
>
(这里想象一张图,横轴是“判断复杂性”,纵轴是“体力重复性”)
>
- 右上角(高体力重复,低判断复杂):高危区
- 左下角(低体力重复,高判断复杂):相对安全区
🚨 高危区(3-5 年内面临巨变)
这些岗位的特点是:动作高度重复,所谓的“判断”其实通过视觉直觉就能完成。
1. 仓储分拣与打包:Figure 03 已经证明了自己在处理非结构化物体上的能力。
2. 流水线简单装配:在 BMW 工厂的测试就是明证。
3. 快递末端配送:结合自动驾驶底盘和人形上半身,能解决最后 100 米的上楼问题。
4. 餐厅后厨备菜:洗菜、切菜、简单的翻炒,对 VLA 模型来说只是时间问题。
🛡️ 相对安全区(10 年以上,甚至更久)
这些岗位需要的情感共情、复杂决策或高度非结构化的环境适应能力,是目前的 AI 和硬件难以企及的。
1. 情感共情的护理人员:机器人可以帮你翻身,但无法给你提供临终关怀时的情感支持。
2. 高度非结构化的现场维修:比如去深山里维修一个型号老旧、没有图纸的变压器,这需要极强的逻辑推理和应变能力。
3. 创意决策类岗位:广告创意、顶层战略规划、前沿科学研究。AI 是最好的副驾,但主驾依然是人。
你可以给自己做一个自测:“你的工作里,有多少比例是‘看一眼就知道怎么做’的任务?” 这个比例越高,被 Figure 03 们替代的风险就越大。
📌 第五章:普通人现在能做什么?(行动落地)
既然变化不可逆转,那焦虑就没有意义。最有意义的是:行动。
根据你目前受影响的程度,我们给出三条不同层级的应对策略:
1. 观望者:建立认知免疫
如果你现在的岗位还在安全区,你需要做的是保持关注,而不是漠视。要理解 AI 进化的逻辑,当狼真的来了时,你至少知道该往哪跑。
2. 学习者:把 AI 当作副驾
不管你现在做什么,尝试把日常工作中的脑力部分外包给 AI。比如使用 Deepseek R1 帮你写周报,用 Kimi K2.5 帮你读长文档。当你习惯了指挥 AI 干活,你就从“被替代者”变成了“管理者”。
3. 参与者:亲手摸一摸“机器决策”的边界
你可能会问:我又不是工程师,怎么“感受”AI 决策边界?其实门槛没你想的高。
很多进阶读者可能想知道,那种模糊的“直觉”在代码层面是如何运作的。我们可以用一个简单的思想实验类比:
# 用一个简单示例类比"机器人直觉"——
展示 LLM 如何在没有明确指令时做出"最优选择"
import openai # 这里推荐使用兼容接口,比如 api.884819.xyz
假设你已经获取了 API Key
client = openai.OpenAI(
base_url="https://api.884819.xyz/v1", # 兼容 OpenAI 格式的接口
api_key="your_working_key"
)
模拟"给机器人一个模糊任务,看它如何自主决策"
我们不给它具体的坐标,只给它一个场景和目标
response = client.chat.completions.create(
model="gpt-5.2", # 使用具有强大推理能力的模型
messages=[
{"role": "system", "content":
"你是一个仓库机器人的决策核心。你的视野里有一个红色的重箱子和一个蓝色的轻箱子。当你接收到的任务描述不完整时,你需要结合场景自主推断最优行动方案,而不是报错停机。"},
{"role": "user", "content":
"把箱子搬过来。"}
]
)
print("机器人决策结果:")
print(response.choices[0].message.content)
当你运行这段代码,你会发现 AI(模拟的机器人大脑)通常不会报错说“指令不明”,而是会“猜”——它可能会回答:“由于你没有指定,我将优先搬运蓝色的轻箱子,因为这更节省能量且风险更低。”
你看,这就是“直觉”和“偷懒”的雏形。
文中的代码示例,你可以直接复制运行。如果还没有 API 访问权限,api.884819.xyz 提供兼容 OpenAI 格式的接口,注册后即可调用 GPT-5.2、Claude Opus 4.6 等主流模型——亲手测试一次,比读十篇分析文章更有感知。
机器人学会偷懒的那一刻,真正的竞争不再是人 vs 机器,而是“懂 AI 的人” vs “不懂 AI 的人”。
---
📖 下期预告
>
Figure 03 让我们看到了“手”的革命——但有一场更安静、影响更深远的战争,正在“眼睛”里发生。
>
《当 AI 学会“看懂”工厂:计算机视觉如何让质检员成为第一批失业者》
>
如果说 Figure 03 是体力劳动的终结者,那视觉 AI 就是脑力蓝领的收割机——而它已经在你不知道的工厂里,悄悄上岗了。
>
关注 8848AI,下周三见。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#Figure03 #人工智能 #人形机器人 #OpenAI #8848AI #AI教程 #就业前景 #VLA模型