本文最后更新于 2026-04-20，文章内容可能已经过时。

Codex 替你填表？我花两小时测了「多步骤表单」，结论比你想的更复杂

Codex 能帮你写代码这件事你已经知道了。

但它能不能替你填表？我花了两个小时测试，结论比我预期的更复杂。

不是"能"，也不是"不能"——是"要看情况，而且情况比官网说的更苛刻"。

市面上关于 Codex 的评测，九成以上停在代码生成层面：写个函数、重构一段逻辑、补全单元测试。这些我都见过，写得也不错。但 Codex 还有一个被低调提及的能力——computer use，也就是直接操控电脑界面、执行 GUI 任务。

这个能力在中文圈几乎没有系统性的场景测试。所以我自己做了一个。

---

为什么选「多步骤表单填写」作为测试场景

选这个场景不是随机的。

多步骤表单是日常效率任务里最能暴露 AI 操控能力边界的类型之一，因为它同时考验四个维度：

视觉识别：能不能准确定位到目标输入框、按钮、下拉菜单
元素定位：在动态渲染的界面上，能不能找到"当前可交互"的元素
状态跟踪：填到第三步时，还记不记得第一步填了什么
异常处理：填错一个字段，能不能自己发现并回退修正

单纯的代码任务不需要这四项。但表单填写，一个都不能少。

我设计的测试表单包含：文本输入框（姓名、邮箱）、下拉菜单（国家/地区选择，JavaScript 动态渲染）、日期选择器（弹出式日历控件）、文件上传（本地图片）、分页提交（共三步，每步有验证逻辑）。

测试环境：MacBook Pro M3，macOS Sonoma，Chrome 最新版，Codex API 通过 computer use 模式调用。

---

任务过程实录：它在第几步卡住的

第一步：文本输入（顺利）

Codex 接到任务指令后，首先截取当前屏幕，识别出表单结构。

[action] screenshot
[observe] Detected form with 5 fields on current viewport
[action] click(x=412, y=238)  // 姓名输入框
[action] type("张伟")
[action] click(x=412, y=312)  // 邮箱输入框
[action] type("[email protected]")

这一步干净利落，定位精度比我预期高。它没有点错位置，文字输入也没有出现乱码或截断。

耗时：约 23 秒（人工完成同步骤：约 8 秒）

第二步：下拉菜单（首次翻车）

国家选择是一个 JavaScript 渲染的自定义下拉组件，不是原生、）？Codex 应付得来。

React/Vue 自定义组件、带动画的 UI 库？大概率卡住。

感受三：错误恢复能力比想象中强——这是真惊喜

这是整个测试里最让我意外的部分。

在日期选择器那一步，Codex 多点了一次月份切换按钮，跳过了目标月份。它没有继续往前走，而是：

[observe] Current month: 2026-04, target: 2026-03
[action] click(prev_month_button)  // 主动回退
[observe] Current month: 2026-03
[action] click(x=287, y=445)  // 点击目标日期
[observe] Date selected: 2026-03-15 ✓

它自己发现了偏差，自己修正了。

这说明 Codex 在执行过程中有持续的"状态验证"机制——每一步操作后都会截图确认结果是否符合预期，不符合则触发修正逻辑。这个能力在实际使用中非常关键，因为 GUI 操作本来就充满意外。

如果这个机制能覆盖更多异常类型（比如动态加载），Codex 的可用性会有质的提升。

---

能力边界画像：什么任务适合它，什么不适合

用一个简单的 2×2 矩阵来定位：

                    界面复杂度
低 ◄──────────► 高
│                │
状    高          │   ⚠️ 谨慎      │   ❌ 不适合
态              │  (登录态企业系统) │  (动态渲染+多状态)
依              │                │
赖              ├────────────────┤
程              │                │
度    低          │   ✅ 适合      │   ⚠️ 有条件
│  (静态表单/    │  (复杂静态界面,
│   本地文件处理) │   需要人工确认节点)
│                │

明确结论：

✅ 静态 HTML 表单：适合，定位准确，执行稳定
✅ 本地文件批处理：适合，路径输入策略有效规避 GUI 复杂度
⚠️ 动态渲染表单：有限适合，原生控件可以，自定义组件大概率卡住
❌ 需要登录态的企业系统：不适合，Session 管理和多因素认证是额外的坑
❌ 时间敏感的实时任务：不适合，延迟倍率太高

如果你想自己复现这个测试，或者把 Codex 的 computer use 能力接入你自己的工作流，需要一个稳定的 API 访问渠道。我目前用的是 [api.884819.xyz](https://api.884819.xyz)，支持 OpenAI 全系模型，按量计费，国内直连，没有月租——对于想在正式接入前先探探边界的人来说，测试成本比较可控。新用户注册即送体验 token，国产模型（Deepseek、通义千问 Qwen3 等）完全免费。

---

现在值得用吗？给不同读者的建议

小白用户：先观望

操作门槛不低。你需要理解 API 调用、处理 action log、在任务卡住时手动介入。如果你没有一定的技术背景，现在用 Codex computer use 的体验会让你沮丧多于惊喜。

等它再成熟六个月，会有更友好的封装工具出现。

开发者 / 效率极客：值得现在接入

踩坑红利期。现在研究清楚它的能力边界，等生态成熟时你已经有了一套可用的工作流模板。

建议从静态表单批处理开始，避开动态组件，先跑通一个真实场景，再逐步扩展。

企业采购决策者：不要用于生产流程

不是说它不好，是说它现在的稳定性不适合生产环境。动态组件的失败率太高，没有可靠的错误恢复机制（自我纠错能力还太初级），无法保证 SLA。

适合的场景是：内部工具原型验证。用它快速验证一个自动化流程的可行性，然后用传统 RPA 或定制脚本做生产实现。

---

它是一个正在学走路的助手。你得知道什么时候该扶它一把——扶对了，它能帮你省不少力气；扶错了地方，你会比自己做还累。

---

下一篇我在想：

Codex 的 computer use 和 Claude Sonnet 4.6 的 computer use，在完全相同的表单任务上，谁更靠谱？

Anthropic 在 computer use 上投入了相当多的工程资源，Claude 的视觉定位策略和 Codex 有明显的架构差异——这个横向对比很可能会有意外的结论。

我打算用这次完全相同的测试表单做对比，数据说话。如果你有特别想看的测试场景，评论区告诉我，高赞的我优先做。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI测评 #Codex #ComputerUse #AI自动化 #效率工具 #8848AI #AI实测 #人工智能