我以为 Computer Use 就是 Computer Use,测完才发现我在用锤子拧螺丝

上个月我在 Mac 上做了一件蠢事。

我用 Claude 的 computer use 功能,让它帮我批量重命名 500 个文件。AI 很认真地"看"着屏幕,一个一个地点击 Finder 里的文件,改名,回车,再点下一个……跑了将近 20 分钟,还没弄完一半。

后来换 Codex,一段 shell 脚本,8 秒搞定。

然后我又犯了另一个错误:让 Codex 帮我操作 Figma 导出切图。它生成了一段脚本,自信满满地开始执行,然后……报错了。因为 Figma 桌面端没有开放 CLI 接口,Codex 根本"摸不到"那个 GUI。

两次翻车,让我彻底搞清楚了一件事:Codex 的 computer use 和 Claude 的 computer use,根本不是同一种东西。 它们只是碰巧用了同一个词。

---

先别急着上手——这俩根本不是同类产品

很多人(包括一个月前的我)看到"computer use"这个词,会默认它们是同一类功能的不同实现。但如果你仔细拆开来看,会发现两者的底层架构和设计哲学差得很远。

Codex 的逻辑:把计算机当成一个可编程对象。你描述任务,它生成代码(通常是 shell 脚本、Python 脚本),在云端沙箱里执行,返回结果。它从来不"看"你的屏幕,它只读文件系统、调 API、跑命令行。 Claude computer use 的逻辑:把计算机当成一个可观察的视觉环境。它通过截图理解当前屏幕状态,然后模拟鼠标点击、键盘输入,像一个真实的人类操作员坐在你电脑前。

用一张表把核心差异前置:

| 维度 | Codex | Claude computer use | | 交互方式 | 代码生成 → 沙箱执行 | 截图感知 → 鼠标/键盘模拟 | | 运行环境 | 云端隔离沙箱 | 你的本地真实桌面 | | 能否操作 GUI | 不能(除非有 API/CLI) | 能(任何可见界面) | | 适合任务类型 | 文件操作、数据处理、脚本化任务 | 无 API 的软件操作、表单填写、网页交互 | | 速度 | 快(秒级~分钟级) | 慢(分钟级~十分钟级) | | 稳定性 | 高(代码行为可预测) | 中(依赖截图识别准确率) | | 调用模型 | Codex 系列 | Claude Sonnet 4.6 / Claude Opus 4.6 | | 计费方式 | 按 token + 执行时间 | 按 token(含图像 token) |
核心认知:Codex 是"写代码的 AI 程序员",Claude computer use 是"会用电脑的 AI 实习生"。前者快准狠但只认命令行,后者灵活但慢且贵。

---

测试设计——同一台 Mac,同一批任务

测试环境:MacBook Pro M3 Pro,macOS Sequoia 15.2,API 均通过 [api.884819.xyz](https://api.884819.xyz) 统一接入(这样可以排除网络延迟差异,后面会细说)。

选了五个典型自动化场景,刻意覆盖"纯逻辑型"和"GUI 交互型"两个维度:

1. 批量重命名文件(500 个 jpg,按日期+序号规则重命名)→ 纯逻辑型

2. 抓取网页数据填入表格(某电商平台商品列表 → Excel)→ 混合型

3. 自动发送邮件(读取 CSV,逐行发送个性化邮件)→ 纯逻辑型

4. 操作 Figma 导出切图(打开文件,按图层名批量导出 PNG)→ 纯 GUI 型

5. 多步 Shell 任务(克隆仓库 → 安装依赖 → 跑测试 → 输出报告)→ 纯逻辑型

---

实测过程——逐任务拆解

任务一:批量重命名文件

Codex 操作路径

描述需求后,Codex 生成了以下脚本:

#!/bin/bash

Codex 生成的批量重命名脚本

DIR="$1"

COUNTER=1

for FILE in "$DIR"/*.jpg; do

DATE=$(stat -f "%Sm" -t "%Y%m%d" "$FILE")

NEWNAME="${DATE}_$(printf '%04d' $COUNTER).jpg"

mv "$FILE" "$DIR/$NEWNAME"

((COUNTER++))

done

echo "完成:共重命名 $COUNTER 个文件"

执行时间:8 秒,500 个文件全部完成,零错误。

Claude 操作路径

Claude 截图识别 Finder 窗口,尝试逐个点击文件 → 右键 → 重命名。执行了约 12 分钟后,我手动终止了测试,此时完成了约 60 个文件。

结论:Codex 完胜。这种有明确规则的文件操作,脚本是碾压级答案。

---

任务二:抓取网页数据填入表格

这个任务有意思,因为它取决于目标网站的结构。

Codex:生成了 Python 脚本,用 requests + BeautifulSoup 抓取,直接写入 Excel。耗时 23 秒,但遇到了反爬机制,需要手动调整 headers,来回两轮修改后完成。 Claude:打开浏览器,截图识别页面结构,用鼠标框选数据区域,然后……它发现自己无法直接"复制"网页内容到 Excel,于是开始逐行读取截图中的文字,手动输入到 Numbers 表格里。耗时 18 分钟,准确率约 94%(有几个数字识别错了)。 结论:Codex 在有反爬的情况下仍然更快,但需要人工介入调试。Claude 慢但不需要调试,适合"我不想写代码"的场景。

---

任务三:自动发送邮件

Codex:生成 Python 脚本,用 smtplib 读取 CSV 逐行发送。配置好 SMTP 后,41 秒发完 50 封邮件,全部送达。 Claude:打开 Mail.app,截图识别界面,开始手动点击"新建邮件"→ 填写收件人 → 粘贴内容 → 发送。第 3 封邮件时,Mail.app 弹出了一个"允许访问通讯录"的权限弹窗,Claude 识别到了,点击"允许",继续执行。这个细节让我印象深刻——它真的在"处理意外情况"。

但速度仍然慢:50 封邮件跑了 34 分钟

结论:Codex 在速度上没有悬念。但 Claude 处理弹窗权限的能力,暗示了它在"意外情况"上的潜力。

---

任务四:操作 Figma 导出切图 ⭐ 关键翻车场景

这是最能体现两者本质差异的任务。

Codex 的翻车

Figma 桌面端没有开放 CLI 接口。Codex 尝试用 Figma REST API 来操作,但导出特定图层需要知道 node ID,它无法自动获取当前打开文件的图层结构。最终报错:

Error: Cannot access Figma layer structure without valid node IDs.

Please provide file key and node IDs manually.

完成率:0%。Codex 在这里彻底失效,因为它没有"眼睛"。 Claude 的表现

Claude 截图识别 Figma 界面,找到左侧图层面板,逐一点击目标图层,右键 → Copy/Paste → Export。整个过程需要大量的截图-识别-点击循环。

耗时 28 分钟,成功导出了 23 个图层中的 21 个(2 个因为图层名称太长,截图识别出现截断错误)。

完成率:91%

这一轮,Claude 赢得毫无争议。

---

任务五:多步 Shell 任务

克隆仓库 → 安装依赖 → 跑测试 → 输出报告。这是 Codex 的主场。

Codex:生成完整 bash 脚本,处理了依赖冲突(自动切换 Python 版本),4 分 12 秒完成,测试报告格式规整。 Claude:打开终端,开始逐条输入命令。在 pip install 阶段遇到依赖冲突时,它读取了错误信息,尝试了两种修复方案,第二种成功了。总耗时 11 分 38 秒结论:Codex 快 3 倍,但 Claude 的"读错误信息-自主修复"能力值得关注。

---

五任务数据汇总

| 任务 | Codex 耗时 | Codex 完成率 | Claude 耗时 | Claude 完成率 | | 批量重命名 | 8 秒 | 100% | >12 分钟 | ~12%(中止) | | 网页抓取 | 23 秒 | 100% | 18 分钟 | 94% | | 自动发邮件 | 41 秒 | 100% | 34 分钟 | 100% | | Figma 导出 | —— | 0% | 28 分钟 | 91% | | 多步 Shell | 4分12秒 | 100% | 11分38秒 | 100% |

数据说话,没有绝对的赢家。

---

本质差异——两种截然不同的哲学

测试数据背后,是两家公司对"AI 操控计算机"这件事的不同理解。

OpenAI 的思路:代码是最好的接口。计算机本质上是一个可编程系统,只要你能写出足够好的代码,就能控制一切。Codex 继承了这个信念——它把每一个任务都翻译成代码逻辑,然后执行。这种方式快、准、可复现,但有一个硬性前提:目标必须有 API 或 CLI 可以调用Anthropic 的思路:感知-行动循环。Claude computer use 把计算机当成一个视觉环境,AI 通过"看"来理解状态,通过"点击"来改变状态,就像人类操作员一样。这种方式慢、有误差,但它能操作任何有界面的软件,不需要对方开放任何接口

这就是为什么 Figma 任务会出现 0% vs 91% 的极端差距。

一个简洁的选择决策树
你的任务是什么?

├── 有 API / CLI 可以调用?

│ ├── 是 → 用 Codex(快10倍,稳定性更高)

│ └── 否 → 继续往下

├── 任务必须通过 GUI 完成?

│ ├── 是 → 用 Claude computer use

│ └── 否(其实有 CLI 但你懒得查)→ 用 Codex

└── 任务又有逻辑又有 GUI?

→ 组合用(见下一章)

---

结论与建议——不是选一个,是学会组合用

说"Codex 更强"或"Claude 更强"都是错的。它们是互补关系,不是竞争关系。

一个实用的 Mac 自动化工作流搭配方案:

第一层(Codex 打底):所有可以脚本化的任务,全部交给 Codex。文件处理、数据清洗、API 调用、定时任务——这是 Codex 的绝对主场,不要浪费 Claude 的资源。 第二层(Claude 收尾):当工作流遇到"必须操作 GUI"的节点时,切换到 Claude computer use。比如:Codex 处理完数据,Claude 帮你把结果粘贴进某个没有 API 的内部系统;或者 Codex 跑完测试,Claude 帮你截图发到飞书群。 接入成本对比(基于当前定价): | 维度 | Codex | Claude Sonnet 4.6 (computer use) | | 输入 token | 较低 | 中等(含图像 token,每张截图约 1000+ token) | | 典型任务成本 | ¥0.1 ~ ¥0.5 | ¥1 ~ ¥8(取决于截图数量) | | 延迟 | 低(秒级响应) | 高(每步操作 3~8 秒) | | 稳定性 | 高 | 中(依赖截图质量和界面变化) |

Claude computer use 的成本显著更高,主要因为每一步操作都要发送截图,图像 token 消耗快。所以只在真正需要 GUI 的场景才用它,不要拿它当万能工具。

---

文中两个工具的 API 我都是通过同一个接入层调用的,好处是不用分别管理两套密钥、两套计费,切换模型只改一行参数。如果你也想直接复现本文的测试,可以用 [api.884819.xyz](https://api.884819.xyz) ——支持 Codex 和 Claude 全系模型,国内直连,按量计费,新用户注册即送体验 token,文中所有代码示例直接粘贴就能跑。

两个最简调用示例(Python):

# Codex 调用示例

from openai import OpenAI

client = OpenAI(

api_key="your_key",

base_url="https://api.884819.xyz/v1"

)

response = client.chat.completions.create(

model="codex-mini-latest",

messages=[{"role": "user", "content": "写一个批量重命名jpg文件的bash脚本,按日期+序号格式"}]

)

print(response.choices[0].message.content)

# Claude computer use 调用示例

import anthropic

client = anthropic.Anthropic(

api_key="your_key",

base_url="https://api.884819.xyz"

)

response = client.beta.messages.create(

model="claude-sonnet-4-6", # 对应 Claude Sonnet 4.6

max_tokens=4096,

tools=[{"type": "computer_20241022", "name": "computer", "display_width_px": 1280, "display_height_px": 800}],

messages=[{"role": "user", "content": "打开Figma,导出所有名称包含'icon'的图层为PNG"}],

betas=["computer-use-2024-10-22"]

)

---

测完这两个工具,我开始好奇一件事:

如果把 Codex 生成的脚本,直接交给 Claude computer use 去执行,会发生什么?

下篇我会试着把两个工具串成一条 pipeline——让 AI 写代码,让另一个 AI 帮你点"运行"。理论上,这能把两者的优势叠加:Codex 负责逻辑,Claude 负责界面交互,中间用一个轻量的编排层串联起来。

实测结果……有点出乎意料。有一个环节出了问题,是我完全没预料到的。

下篇见。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI工具 #ComputerUse #Claude #Codex #Mac自动化 #AI效率 #8848AI #AI实测