本文最后更新于 2026-04-17，文章内容可能已经过时。

我盯着屏幕，看鼠标自己动：Codex Computer Use 在 Mac 上的真实体验报告

上周我盯着屏幕，看着鼠标自己移动、自己点击、自己填完了一张十几个字段的表单。

操控它的，是 Codex。

没有录制脚本，没有预设坐标，没有任何 RPA 规则配置。我只是用自然语言告诉它"帮我填这张申请表"，然后退后一步，看着光标像有了主意一样开始移动。

这不是科幻。这是我在 Mac 上亲测的结果。

---

第一章：先别激动，搞清楚这到底是什么能力

在你打开浏览器准备上手之前，有必要先说清楚这个能力的本质——不然你很可能对它产生错误预期，要么失望，要么被坑。

Codex 的"计算机操作"能力，本质上是一个感知-行动循环。

它的工作方式是这样的：截图 → 理解当前屏幕内容 → 决定下一步操作（点击/输入/滚动）→ 执行 → 再截图 → 再理解……如此循环，直到任务完成。

这和传统 RPA（机器人流程自动化）有本质区别。传统 RPA 靠的是坐标、元素 ID、固定路径——你得提前告诉它"在 x=450, y=320 的位置点击"。一旦界面改版，脚本就废了。

而 Codex 的 Computer Use 能力靠的是"看懂"屏幕。它能识别一个按钮叫什么、一个下拉框里有哪些选项、当前页面处于哪个状态——就像一个真人坐在屏幕前操作，而不是一个盲目执行坐标的机器人。

一句话定位：Codex Computer Use = 给 AI 装上了眼睛，让它能"看见"并操作你的屏幕，而不只是"读懂"你发给它的文字。

对小白来说，你可以把它理解为"一个会自己操作电脑的 AI 助手"。对进阶用户来说，技术路径是：视觉语言模型（VLM）+ 工具调用（截图、鼠标事件、键盘输入）+ 多步骤规划能力的组合。

---

第二章：我是怎么让它完成一次完整表单填写的

还原一下完整过程，细节越具体越有参考价值。

测试环境：MacBook Pro M3，macOS Sonoma 14.5，通过 API 调用 Codex Computer Use 接口，目标任务是填写一张内部系统的项目申请表（共 14 个字段，包含文本输入、下拉选择、日期选择器和文件上传）。

任务输入阶段

我给出的指令是：

帮我填写屏幕上的项目申请表。
项目名称：Q3 用户增长专项
负责人：李明
预算：50000元
开始日期：2025年8月1日
优先级：高
其余字段保持默认，填完后不要提交，等我确认。

最后那句"不要提交，等我确认"很关键——这是给高风险操作加的一道保险，后面会说为什么这个设计很重要。

执行过程中的两个惊艳瞬间

第一个惊艳瞬间：自动识别下拉框选项。

"优先级"字段是个下拉框，选项是"低/中/高/紧急"。Codex 没有让我提前告诉它选项列表，它自己点开下拉框，截图识别了四个选项，然后选择了"高"。整个过程不超过 5 秒。

这个细节很重要——它不是在猜，它是在"看"完之后做决定的。

第二个惊艳瞬间：遇到验证码时主动暂停。

表单里有一个图形验证码。Codex 执行到这一步时，停下来，输出了一段话：

"检测到图形验证码，我无法自动识别。请您手动输入验证码后告诉我，我继续后续操作。"

它没有乱猜，没有跳过，而是主动把控制权交还给人类。这个设计我觉得是目前 AI Agent 里最成熟的一个判断——知道自己的边界在哪里。

一个失败案例

当然，不是所有环节都顺利。

表单里有一个"关联项目"字段，需要输入关键词后等待异步加载的搜索结果，再从下拉列表里选择。这个动态加载的交互让 Codex 翻车了。

它输入了关键词，但没有等待加载完成就试图点击一个"还不存在"的下拉项，结果点到了空白区域，字段没有正确填写。它自己也意识到了，重试了一次，但依然失败，最终输出：

"关联项目字段填写失败，可能是动态加载内容识别存在延迟，建议手动填写此字段。"

这个失败案例说明了当前能力的真实边界：静态界面表现优秀，动态交互（异步加载、动画过渡、实时搜索）仍然是薄弱环节。

---

第三章：3个真实感受，不夸张也不唱衰

感受1：速度比我想象的慢，但准确率让我意外

完成这张 14 字段的表单，Codex 用了大约 3 分 20 秒。

如果是我自己手动填，可能 2 分钟搞定。所以从纯速度角度，它并不比人快。

但准确率是另一回事。14 个字段里，它正确填写了 12 个（其中 1 个是我要求它跳过的验证码，1 个是动态字段失败）。在没有任何预配置的情况下，这个成绩让我意外。

它慢，是因为每一步都在"想"——截图、分析、决策、执行，每个动作之间都有处理时间。这不是 bug，这是它的工作方式。接受这个节奏，你会觉得它很稳；期待秒点，你会觉得它很慢。

感受2：它会"问你"而不是乱猜

这是我体验下来最满意的设计决策。

遇到验证码它会暂停，遇到模糊指令它会确认，遇到高风险操作（比如我没说"提交"，它就真的不会点提交按钮）它会等待。

这背后是一种"人在回路"（Human-in-the-Loop）的设计哲学：AI 负责执行，人负责决策关键节点。对于真实工作场景来说，这比"无脑自动完成"要安全得多。

感受3：最适合的场景是"重复性、有规律的表单"

用一周时间测了几个不同场景，结论比较清晰：

✅ 适合：固定结构的申请表、数据录入表、标准化问卷
✅ 适合：有明确字段对应关系的批量填写任务
⚠️ 勉强：有简单条件逻辑的表单（如"选A则显示字段X"）
❌ 不适合：复杂动态交互界面、需要拖拽操作的场景
❌ 不适合：创意性操作（比如"帮我设计一个布局"）

---

第四章：你现在能用上吗？接入门槛实测

当前访问路径

Codex Computer Use 目前通过 API 调用的方式开放，没有独立的图形客户端。你需要：

1. 有 API 访问权限

2. 在代码里调用 Computer Use 相关接口

3. 在本地运行一个能接收截图、发送鼠标/键盘事件的执行环境

Mac 上的执行环境配置相对友好，Python 生态里有现成的库可以处理截图和输入事件。

最简 Demo：10 行内跑通核心逻辑

import anthropic
import base64
from PIL import ImageGrab

初始化客户端，替换为你的 API Key 和 Base URL
client = anthropic.Anthropic(
api_key="your_api_key",
base_url="https://api.884819.xyz"  # 聚合接口，无需单独申请白名单
)

def get_screenshot_base64():
"""截取当前屏幕并转为 base64"""
screenshot = ImageGrab.grab()
screenshot.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
return base64.b64encode(f.read()).decode()

发送带截图的请求，让模型分析屏幕并决定下一步操作
response = client.messages.create(
model="claude-sonnet-4-6",  # 使用支持 Computer Use 的模型
max_tokens=1024,
tools=[{"type": "computer_20241022", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": get_screenshot_base64()}},
{"type": "text", "text": "帮我填写屏幕上的表单，项目名称填'Q3增长专项'，填完后暂停等待确认。"}
]
}]
)

print(response.content)

如果你不想自己折腾 API 配置和权限申请，目前最省事的方式是通过聚合接口直接调用——[api.884819.xyz](https://api.884819.xyz) 已经支持包括 Computer Use 在内的多个主流模型，注册后可以直接用上面的示例代码跑通，不需要单独申请 OpenAI 或 Anthropic 的 Computer Use 权限白名单。新用户注册即送体验 token。

Token 消耗参考

实测完成一次完整的 14 字段表单填写，消耗情况如下：

对于重复性批量任务，这个成本是可以接受的；对于一次性偶发任务，手动填写反而更划算。

---

第五章：值得期待什么，又该警惕什么

能力对比：横向看清楚位置

正面展望

Agent 能力成熟后，重复性数字劳动会被大规模替代——数据录入、表单填写、系统间信息搬运，这些每天消耗大量人力的工作，在 AI Agent 面前会变得廉价。

这不是"未来可期"的空话。从我这次测试来看，当前版本已经能处理约 85% 的常规表单场景，剩下 15% 的边界问题只是时间问题。

冷静提醒

三个风险你必须提前知道：

1. 隐私风险：屏幕内容会被模型"看见"。如果你的屏幕上有密码、身份证号、财务数据，在启动 Computer Use 之前一定要清屏或遮挡敏感区域。

2. 操作不可逆风险：AI 点击了"删除"或"提交"，你很可能无法撤销。务必在指令里明确"遇到不可逆操作前必须暂停确认"。

3. 当前稳定性问题：动态界面、弹窗、网络延迟都可能导致执行失败。不要把它用在必须 100% 成功的关键业务流程上。

给你一个明确的行动建议：从低风险、可撤销的任务开始试。测试表单、内部系统的非关键字段、可以重填的申请表——这是最安全的起点。

---

现在可以怎么开始

不用等它"更成熟"，也不用等它"更便宜"。

现在就可以做的事：

1. 找一张你每周都要手动填的重复性表单

2. 用上面的示例代码搭起基础调用环境

3. 在测试数据上跑一次，观察它的行为

4. 把"遇到不可逆操作必须暂停"这条指令加进去

不要第一次就让它操作生产系统。先在沙盒里建立信任，再逐步扩大授权范围——这是和任何新工具相处的正确方式，对 AI Agent 尤其如此。

---

表单填写只是最简单的一类任务。

我接下来想试的是：让它帮我操作一个需要登录、跳转、多页面协作的复杂工作流——比如自动从 A 系统取数、填入 B 系统、截图存档，全程无人值守。

如果你也想看这个实测，评论区告诉我。够多的话，我下周就做。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI Agent #Computer Use #Codex #自动化办公 #8848AI #AI教程 #RPA替代 #Mac效率工具