我盯着屏幕,看鼠标自己动:Codex Computer Use 在 Mac 上的真实体验报告
我盯着屏幕,看鼠标自己动:Codex Computer Use 在 Mac 上的真实体验报告
上周我盯着屏幕,看着鼠标自己移动、自己点击、自己填完了一张十几个字段的表单。
操控它的,是 Codex。
没有录制脚本,没有预设坐标,没有任何 RPA 规则配置。我只是用自然语言告诉它"帮我填这张申请表",然后退后一步,看着光标像有了主意一样开始移动。
这不是科幻。这是我在 Mac 上亲测的结果。
---
第一章:先别激动,搞清楚这到底是什么能力
在你打开浏览器准备上手之前,有必要先说清楚这个能力的本质——不然你很可能对它产生错误预期,要么失望,要么被坑。
Codex 的"计算机操作"能力,本质上是一个感知-行动循环。它的工作方式是这样的:截图 → 理解当前屏幕内容 → 决定下一步操作(点击/输入/滚动)→ 执行 → 再截图 → 再理解……如此循环,直到任务完成。
这和传统 RPA(机器人流程自动化)有本质区别。传统 RPA 靠的是坐标、元素 ID、固定路径——你得提前告诉它"在 x=450, y=320 的位置点击"。一旦界面改版,脚本就废了。
而 Codex 的 Computer Use 能力靠的是"看懂"屏幕。它能识别一个按钮叫什么、一个下拉框里有哪些选项、当前页面处于哪个状态——就像一个真人坐在屏幕前操作,而不是一个盲目执行坐标的机器人。
一句话定位:Codex Computer Use = 给 AI 装上了眼睛,让它能"看见"并操作你的屏幕,而不只是"读懂"你发给它的文字。
对小白来说,你可以把它理解为"一个会自己操作电脑的 AI 助手"。对进阶用户来说,技术路径是:视觉语言模型(VLM)+ 工具调用(截图、鼠标事件、键盘输入)+ 多步骤规划能力的组合。
---
第二章:我是怎么让它完成一次完整表单填写的
还原一下完整过程,细节越具体越有参考价值。
测试环境:MacBook Pro M3,macOS Sonoma 14.5,通过 API 调用 Codex Computer Use 接口,目标任务是填写一张内部系统的项目申请表(共 14 个字段,包含文本输入、下拉选择、日期选择器和文件上传)。任务输入阶段
我给出的指令是:
帮我填写屏幕上的项目申请表。
项目名称:Q3 用户增长专项
负责人:李明
预算:50000元
开始日期:2025年8月1日
优先级:高
其余字段保持默认,填完后不要提交,等我确认。
最后那句"不要提交,等我确认"很关键——这是给高风险操作加的一道保险,后面会说为什么这个设计很重要。
执行过程中的两个惊艳瞬间
第一个惊艳瞬间:自动识别下拉框选项。"优先级"字段是个下拉框,选项是"低/中/高/紧急"。Codex 没有让我提前告诉它选项列表,它自己点开下拉框,截图识别了四个选项,然后选择了"高"。整个过程不超过 5 秒。
这个细节很重要——它不是在猜,它是在"看"完之后做决定的。
第二个惊艳瞬间:遇到验证码时主动暂停。表单里有一个图形验证码。Codex 执行到这一步时,停下来,输出了一段话:
"检测到图形验证码,我无法自动识别。请您手动输入验证码后告诉我,我继续后续操作。"
它没有乱猜,没有跳过,而是主动把控制权交还给人类。这个设计我觉得是目前 AI Agent 里最成熟的一个判断——知道自己的边界在哪里。
一个失败案例
当然,不是所有环节都顺利。
表单里有一个"关联项目"字段,需要输入关键词后等待异步加载的搜索结果,再从下拉列表里选择。这个动态加载的交互让 Codex 翻车了。
它输入了关键词,但没有等待加载完成就试图点击一个"还不存在"的下拉项,结果点到了空白区域,字段没有正确填写。它自己也意识到了,重试了一次,但依然失败,最终输出:
"关联项目字段填写失败,可能是动态加载内容识别存在延迟,建议手动填写此字段。"
这个失败案例说明了当前能力的真实边界:静态界面表现优秀,动态交互(异步加载、动画过渡、实时搜索)仍然是薄弱环节。
---
第三章:3个真实感受,不夸张也不唱衰
感受1:速度比我想象的慢,但准确率让我意外
完成这张 14 字段的表单,Codex 用了大约 3 分 20 秒。
如果是我自己手动填,可能 2 分钟搞定。所以从纯速度角度,它并不比人快。
但准确率是另一回事。14 个字段里,它正确填写了 12 个(其中 1 个是我要求它跳过的验证码,1 个是动态字段失败)。在没有任何预配置的情况下,这个成绩让我意外。
它慢,是因为每一步都在"想"——截图、分析、决策、执行,每个动作之间都有处理时间。这不是 bug,这是它的工作方式。接受这个节奏,你会觉得它很稳;期待秒点,你会觉得它很慢。
感受2:它会"问你"而不是乱猜
这是我体验下来最满意的设计决策。
遇到验证码它会暂停,遇到模糊指令它会确认,遇到高风险操作(比如我没说"提交",它就真的不会点提交按钮)它会等待。
这背后是一种"人在回路"(Human-in-the-Loop)的设计哲学:AI 负责执行,人负责决策关键节点。对于真实工作场景来说,这比"无脑自动完成"要安全得多。
感受3:最适合的场景是"重复性、有规律的表单"
用一周时间测了几个不同场景,结论比较清晰:
- ✅ 适合:固定结构的申请表、数据录入表、标准化问卷
- ✅ 适合:有明确字段对应关系的批量填写任务
- ⚠️ 勉强:有简单条件逻辑的表单(如"选A则显示字段X")
- ❌ 不适合:复杂动态交互界面、需要拖拽操作的场景
- ❌ 不适合:创意性操作(比如"帮我设计一个布局")
---
第四章:你现在能用上吗?接入门槛实测
当前访问路径
Codex Computer Use 目前通过 API 调用的方式开放,没有独立的图形客户端。你需要:
1. 有 API 访问权限
2. 在代码里调用 Computer Use 相关接口
3. 在本地运行一个能接收截图、发送鼠标/键盘事件的执行环境
Mac 上的执行环境配置相对友好,Python 生态里有现成的库可以处理截图和输入事件。
最简 Demo:10 行内跑通核心逻辑
import anthropic
import base64
from PIL import ImageGrab
初始化客户端,替换为你的 API Key 和 Base URL
client = anthropic.Anthropic(
api_key="your_api_key",
base_url="https://api.884819.xyz" # 聚合接口,无需单独申请白名单
)
def get_screenshot_base64():
"""截取当前屏幕并转为 base64"""
screenshot = ImageGrab.grab()
screenshot.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
return base64.b64encode(f.read()).decode()
发送带截图的请求,让模型分析屏幕并决定下一步操作
response = client.messages.create(
model="claude-sonnet-4-6", # 使用支持 Computer Use 的模型
max_tokens=1024,
tools=[{"type": "computer_20241022", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": get_screenshot_base64()}},
{"type": "text", "text": "帮我填写屏幕上的表单,项目名称填'Q3增长专项',填完后暂停等待确认。"}
]
}]
)
print(response.content)
如果你不想自己折腾 API 配置和权限申请,目前最省事的方式是通过聚合接口直接调用——[api.884819.xyz](https://api.884819.xyz) 已经支持包括 Computer Use 在内的多个主流模型,注册后可以直接用上面的示例代码跑通,不需要单独申请 OpenAI 或 Anthropic 的 Computer Use 权限白名单。新用户注册即送体验 token。
Token 消耗参考
实测完成一次完整的 14 字段表单填写,消耗情况如下:
| 指标 | 数值 | | 截图轮次 | 约 18 次 | | Input Token(含图像)| ~45,000 tokens | | Output Token | ~2,800 tokens | | 估算费用(按主流定价)| 约 ¥0.8–1.2 元 |对于重复性批量任务,这个成本是可以接受的;对于一次性偶发任务,手动填写反而更划算。
---
第五章:值得期待什么,又该警惕什么
能力对比:横向看清楚位置
| 维度 | Codex Computer Use | Claude Computer Use | 传统 RPA | | 界面适应性 | 强(视觉理解) | 强(视觉理解) | 弱(依赖坐标/元素) | | 动态交互处理 | 一般 | 一般 | 取决于脚本质量 | | 配置成本 | 低(自然语言指令) | 低(自然语言指令) | 高(需专业配置) | | 稳定性 | 中等 | 中等 | 高(确定性执行) | | 适合场景 | 灵活、非标准化任务 | 灵活、非标准化任务 | 固定、高频、标准化任务 |正面展望
Agent 能力成熟后,重复性数字劳动会被大规模替代——数据录入、表单填写、系统间信息搬运,这些每天消耗大量人力的工作,在 AI Agent 面前会变得廉价。
这不是"未来可期"的空话。从我这次测试来看,当前版本已经能处理约 85% 的常规表单场景,剩下 15% 的边界问题只是时间问题。
冷静提醒
三个风险你必须提前知道:1. 隐私风险:屏幕内容会被模型"看见"。如果你的屏幕上有密码、身份证号、财务数据,在启动 Computer Use 之前一定要清屏或遮挡敏感区域。
2. 操作不可逆风险:AI 点击了"删除"或"提交",你很可能无法撤销。务必在指令里明确"遇到不可逆操作前必须暂停确认"。
3. 当前稳定性问题:动态界面、弹窗、网络延迟都可能导致执行失败。不要把它用在必须 100% 成功的关键业务流程上。
给你一个明确的行动建议:从低风险、可撤销的任务开始试。测试表单、内部系统的非关键字段、可以重填的申请表——这是最安全的起点。---
现在可以怎么开始
不用等它"更成熟",也不用等它"更便宜"。
现在就可以做的事:
1. 找一张你每周都要手动填的重复性表单
2. 用上面的示例代码搭起基础调用环境
3. 在测试数据上跑一次,观察它的行为
4. 把"遇到不可逆操作必须暂停"这条指令加进去
不要第一次就让它操作生产系统。先在沙盒里建立信任,再逐步扩大授权范围——这是和任何新工具相处的正确方式,对 AI Agent 尤其如此。
---
表单填写只是最简单的一类任务。
我接下来想试的是:让它帮我操作一个需要登录、跳转、多页面协作的复杂工作流——比如自动从 A 系统取数、填入 B 系统、截图存档,全程无人值守。
如果你也想看这个实测,评论区告诉我。够多的话,我下周就做。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI Agent #Computer Use #Codex #自动化办公 #8848AI #AI教程 #RPA替代 #Mac效率工具