我盯着屏幕,看鼠标自己动:Codex Computer Use 在 Mac 上的真实体验报告

上周我盯着屏幕,看着鼠标自己移动、自己点击、自己填完了一张十几个字段的表单。

操控它的,是 Codex。

没有录制脚本,没有预设坐标,没有任何 RPA 规则配置。我只是用自然语言告诉它"帮我填这张申请表",然后退后一步,看着光标像有了主意一样开始移动。

这不是科幻。这是我在 Mac 上亲测的结果。

---

第一章:先别激动,搞清楚这到底是什么能力

在你打开浏览器准备上手之前,有必要先说清楚这个能力的本质——不然你很可能对它产生错误预期,要么失望,要么被坑。

Codex 的"计算机操作"能力,本质上是一个感知-行动循环。

它的工作方式是这样的:截图 → 理解当前屏幕内容 → 决定下一步操作(点击/输入/滚动)→ 执行 → 再截图 → 再理解……如此循环,直到任务完成。

这和传统 RPA(机器人流程自动化)有本质区别。传统 RPA 靠的是坐标、元素 ID、固定路径——你得提前告诉它"在 x=450, y=320 的位置点击"。一旦界面改版,脚本就废了。

而 Codex 的 Computer Use 能力靠的是"看懂"屏幕。它能识别一个按钮叫什么、一个下拉框里有哪些选项、当前页面处于哪个状态——就像一个真人坐在屏幕前操作,而不是一个盲目执行坐标的机器人。

一句话定位:Codex Computer Use = 给 AI 装上了眼睛,让它能"看见"并操作你的屏幕,而不只是"读懂"你发给它的文字。

对小白来说,你可以把它理解为"一个会自己操作电脑的 AI 助手"。对进阶用户来说,技术路径是:视觉语言模型(VLM)+ 工具调用(截图、鼠标事件、键盘输入)+ 多步骤规划能力的组合。

---

第二章:我是怎么让它完成一次完整表单填写的

还原一下完整过程,细节越具体越有参考价值。

测试环境:MacBook Pro M3,macOS Sonoma 14.5,通过 API 调用 Codex Computer Use 接口,目标任务是填写一张内部系统的项目申请表(共 14 个字段,包含文本输入、下拉选择、日期选择器和文件上传)。

任务输入阶段

我给出的指令是:

帮我填写屏幕上的项目申请表。

项目名称:Q3 用户增长专项

负责人:李明

预算:50000元

开始日期:2025年8月1日

优先级:高

其余字段保持默认,填完后不要提交,等我确认。

最后那句"不要提交,等我确认"很关键——这是给高风险操作加的一道保险,后面会说为什么这个设计很重要。

执行过程中的两个惊艳瞬间

第一个惊艳瞬间:自动识别下拉框选项。

"优先级"字段是个下拉框,选项是"低/中/高/紧急"。Codex 没有让我提前告诉它选项列表,它自己点开下拉框,截图识别了四个选项,然后选择了"高"。整个过程不超过 5 秒。

这个细节很重要——它不是在猜,它是在"看"完之后做决定的。

第二个惊艳瞬间:遇到验证码时主动暂停。

表单里有一个图形验证码。Codex 执行到这一步时,停下来,输出了一段话:

"检测到图形验证码,我无法自动识别。请您手动输入验证码后告诉我,我继续后续操作。"

它没有乱猜,没有跳过,而是主动把控制权交还给人类。这个设计我觉得是目前 AI Agent 里最成熟的一个判断——知道自己的边界在哪里。

一个失败案例

当然,不是所有环节都顺利。

表单里有一个"关联项目"字段,需要输入关键词后等待异步加载的搜索结果,再从下拉列表里选择。这个动态加载的交互让 Codex 翻车了。

它输入了关键词,但没有等待加载完成就试图点击一个"还不存在"的下拉项,结果点到了空白区域,字段没有正确填写。它自己也意识到了,重试了一次,但依然失败,最终输出:

"关联项目字段填写失败,可能是动态加载内容识别存在延迟,建议手动填写此字段。"

这个失败案例说明了当前能力的真实边界:静态界面表现优秀,动态交互(异步加载、动画过渡、实时搜索)仍然是薄弱环节。

---

第三章:3个真实感受,不夸张也不唱衰

感受1:速度比我想象的慢,但准确率让我意外

完成这张 14 字段的表单,Codex 用了大约 3 分 20 秒。

如果是我自己手动填,可能 2 分钟搞定。所以从纯速度角度,它并不比人快。

但准确率是另一回事。14 个字段里,它正确填写了 12 个(其中 1 个是我要求它跳过的验证码,1 个是动态字段失败)。在没有任何预配置的情况下,这个成绩让我意外。

它慢,是因为每一步都在"想"——截图、分析、决策、执行,每个动作之间都有处理时间。这不是 bug,这是它的工作方式。接受这个节奏,你会觉得它很稳;期待秒点,你会觉得它很慢。

感受2:它会"问你"而不是乱猜

这是我体验下来最满意的设计决策。

遇到验证码它会暂停,遇到模糊指令它会确认,遇到高风险操作(比如我没说"提交",它就真的不会点提交按钮)它会等待。

这背后是一种"人在回路"(Human-in-the-Loop)的设计哲学:AI 负责执行,人负责决策关键节点。对于真实工作场景来说,这比"无脑自动完成"要安全得多。

感受3:最适合的场景是"重复性、有规律的表单"

用一周时间测了几个不同场景,结论比较清晰:

  • 适合:固定结构的申请表、数据录入表、标准化问卷
  • 适合:有明确字段对应关系的批量填写任务
  • ⚠️ 勉强:有简单条件逻辑的表单(如"选A则显示字段X")
  • 不适合:复杂动态交互界面、需要拖拽操作的场景
  • 不适合:创意性操作(比如"帮我设计一个布局")

---

第四章:你现在能用上吗?接入门槛实测

当前访问路径

Codex Computer Use 目前通过 API 调用的方式开放,没有独立的图形客户端。你需要:

1. 有 API 访问权限

2. 在代码里调用 Computer Use 相关接口

3. 在本地运行一个能接收截图、发送鼠标/键盘事件的执行环境

Mac 上的执行环境配置相对友好,Python 生态里有现成的库可以处理截图和输入事件。

最简 Demo:10 行内跑通核心逻辑

import anthropic

import base64

from PIL import ImageGrab

初始化客户端,替换为你的 API Key 和 Base URL

client = anthropic.Anthropic(

api_key="your_api_key",

base_url="https://api.884819.xyz" # 聚合接口,无需单独申请白名单

)

def get_screenshot_base64():

"""截取当前屏幕并转为 base64"""

screenshot = ImageGrab.grab()

screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:

return base64.b64encode(f.read()).decode()

发送带截图的请求,让模型分析屏幕并决定下一步操作

response = client.messages.create(

model="claude-sonnet-4-6", # 使用支持 Computer Use 的模型

max_tokens=1024,

tools=[{"type": "computer_20241022", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],

messages=[{

"role": "user",

"content": [

{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": get_screenshot_base64()}},

{"type": "text", "text": "帮我填写屏幕上的表单,项目名称填'Q3增长专项',填完后暂停等待确认。"}

]

}]

)

print(response.content)

如果你不想自己折腾 API 配置和权限申请,目前最省事的方式是通过聚合接口直接调用——[api.884819.xyz](https://api.884819.xyz) 已经支持包括 Computer Use 在内的多个主流模型,注册后可以直接用上面的示例代码跑通,不需要单独申请 OpenAI 或 Anthropic 的 Computer Use 权限白名单。新用户注册即送体验 token。

Token 消耗参考

实测完成一次完整的 14 字段表单填写,消耗情况如下:

| 指标 | 数值 | | 截图轮次 | 约 18 次 | | Input Token(含图像)| ~45,000 tokens | | Output Token | ~2,800 tokens | | 估算费用(按主流定价)| 约 ¥0.8–1.2 元 |

对于重复性批量任务,这个成本是可以接受的;对于一次性偶发任务,手动填写反而更划算。

---

第五章:值得期待什么,又该警惕什么

能力对比:横向看清楚位置

| 维度 | Codex Computer Use | Claude Computer Use | 传统 RPA | | 界面适应性 | 强(视觉理解) | 强(视觉理解) | 弱(依赖坐标/元素) | | 动态交互处理 | 一般 | 一般 | 取决于脚本质量 | | 配置成本 | 低(自然语言指令) | 低(自然语言指令) | 高(需专业配置) | | 稳定性 | 中等 | 中等 | 高(确定性执行) | | 适合场景 | 灵活、非标准化任务 | 灵活、非标准化任务 | 固定、高频、标准化任务 |

正面展望

Agent 能力成熟后,重复性数字劳动会被大规模替代——数据录入、表单填写、系统间信息搬运,这些每天消耗大量人力的工作,在 AI Agent 面前会变得廉价。

这不是"未来可期"的空话。从我这次测试来看,当前版本已经能处理约 85% 的常规表单场景,剩下 15% 的边界问题只是时间问题。

冷静提醒

三个风险你必须提前知道:

1. 隐私风险:屏幕内容会被模型"看见"。如果你的屏幕上有密码、身份证号、财务数据,在启动 Computer Use 之前一定要清屏或遮挡敏感区域。

2. 操作不可逆风险:AI 点击了"删除"或"提交",你很可能无法撤销。务必在指令里明确"遇到不可逆操作前必须暂停确认"。

3. 当前稳定性问题:动态界面、弹窗、网络延迟都可能导致执行失败。不要把它用在必须 100% 成功的关键业务流程上。

给你一个明确的行动建议:从低风险、可撤销的任务开始试。测试表单、内部系统的非关键字段、可以重填的申请表——这是最安全的起点。

---

现在可以怎么开始

不用等它"更成熟",也不用等它"更便宜"。

现在就可以做的事:

1. 找一张你每周都要手动填的重复性表单

2. 用上面的示例代码搭起基础调用环境

3. 在测试数据上跑一次,观察它的行为

4. 把"遇到不可逆操作必须暂停"这条指令加进去

不要第一次就让它操作生产系统。先在沙盒里建立信任,再逐步扩大授权范围——这是和任何新工具相处的正确方式,对 AI Agent 尤其如此。

---

表单填写只是最简单的一类任务。

我接下来想试的是:让它帮我操作一个需要登录、跳转、多页面协作的复杂工作流——比如自动从 A 系统取数、填入 B 系统、截图存档,全程无人值守。

如果你也想看这个实测,评论区告诉我。够多的话,我下周就做。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI Agent #Computer Use #Codex #自动化办公 #8848AI #AI教程 #RPA替代 #Mac效率工具