本文最后更新于 2026-05-11,文章内容可能已经过时。

新 Siri、Claude Code、OpenAI Codex 同台竞技:我用同一个任务喂了三个 AI,结果差点把文件夹搞崩

上周我同时开着新 Siri 和 Claude Code,结果两个 AI 同时在帮我"处理文件"——一个在系统层调度,一个在终端里跑脚本,最后文件夹乱成一团,脚本路径全错,报告也没生成。

这不是工具不好用,是我根本没搞清楚它们各自在解决什么问题。

这个问题比你想的更值得认真对待。因为现在市面上关于这三个工具的讨论,要么在比"谁的代码写得更好",要么在比"哪个更像科幻电影里的 AI"——但这两个维度都没抓到核心。它们根本不在同一条赛道上,用同一把尺子量,是在浪费你的判断力。

这篇文章的任务,是帮你建立一个坐标系。

---

第一章:先把概念打直——三个产品到底在抢谁的地盘?

在开始任何对比之前,先把三个产品的"本职工作"说清楚。

新 Siri(Apple Intelligence 加持版) 的定位是系统级助手。它的核心能力不是写代码,而是理解你的意图之后,在整个 Apple 生态里帮你调度——打开 App、读取日历、发邮件、搜索本地文件、跨 App 执行动作。它的"大脑"在设备端和苹果服务器之间分层运行,强调隐私和离线能力。 Claude Code 的定位是终端内的代码 Agent。你在命令行里召唤它,它能读取你的本地代码库、理解项目上下文、写代码、跑测试、改 bug,甚至帮你做 git commit。它是给开发者用的,默认你知道终端是什么。 OpenAI Codex(这里指 Codex Agent,而非早期的代码补全模型)的定位是云端代码执行 Agent。它更像一个"远程工程师"——你描述任务,它在云端的沙盒环境里写代码、执行、返回结果。交互界面更接近对话,对非开发者更友好。

用一张矩阵把三者的能力边界可视化:

| 能力维度 | 新 Siri | Claude Code | OpenAI Codex | | 系统级集成(调度 App/文件) | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | | 代码生成质量 | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | | 多步自主推理 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | | 离线可用性 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐ | | 国内访问稳定性 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | | 非技术用户友好度 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
关键认知: 这张表不是在说谁"更强",而是在说谁在哪个维度是主角。Siri 在系统集成上碾压另外两个,但让它写一个数据清洗脚本,它会礼貌地建议你去找 Shortcuts。

搞清楚这条分界线,你才知道自己的钱该花在哪里。接下来,我用一个真实任务来验证这张矩阵。

---

第二章:真实工作流拆解——同一个任务,三个工具各自能接管哪些环节?

我设计了一个贴近真实的复合任务:

"把一份包含 500 行销售数据的 Excel 清洗 → 写分析脚本 → 生成 PDF 报告 → 发邮件给同事"

这个任务有四个环节,每个环节都需要不同的能力。我分别用三个工具走了一遍完整流程。

新 Siri 的表现

Siri 在第一步(理解任务意图)第四步(发邮件)表现出色。我直接说"把桌面上那份销售数据发给张总",它能识别文件、打开邮件、自动填写收件人。这个体验是另外两个工具完全给不了的。

但到了第二步(写清洗脚本),Siri 卡壳了。它能理解我说"数据里有很多空行要清掉",但它给出的是 Shortcuts 自动化方案,不是 Python 脚本。如果你的工作流依赖代码,这里就是断点。

人工干预次数:2 次(需要手动把 Siri 的 Shortcuts 方案转换为可执行脚本,并手动触发报告生成)

Claude Code 的表现

Claude Code 在第二步和第三步几乎是无缝的。我在终端里描述任务,它直接读取了我的 Excel 文件路径,生成了完整的 pandas 清洗脚本,并在我确认后自动执行:

import pandas as pd

读取数据

df = pd.read_excel('sales_data.xlsx')

清洗:删除空行、去除重复值、标准化日期格式

df = df.dropna(how='all')

df = df.drop_duplicates()

df['date'] = pd.to_datetime(df['date'], errors='coerce')

过滤异常值(销售额为负的记录)

df = df[df['sales_amount'] > 0]

df.to_excel('sales_data_cleaned.xlsx', index=False)

print(f"清洗完成,剩余 {len(df)} 条有效记录")

报告生成也处理得不错,它调用了 reportlab 库生成 PDF,格式中规中矩。

但到了第四步(发邮件),Claude Code 在终端环境里没有直接访问你邮件客户端的能力。它给了我一段 smtplib 的发邮件代码,但需要我手动配置 SMTP 参数——对非开发者来说,这里的摩擦感很明显。

人工干预次数:1 次(配置邮件发送参数)

OpenAI Codex 的表现

Codex 的交互体验最接近"对话",它在云端沙盒里执行代码,不需要你本地有 Python 环境。对非开发者来说,这是最低门槛的选择。

数据清洗和脚本生成的质量与 Claude Code 接近,但因为运行在云端,它无法直接访问你本地的文件——你需要先上传 Excel,任务完成后再下载结果。这个"上传-下载"的摩擦点在高频使用时会让人烦躁。

发邮件同样需要额外配置,和 Claude Code 面临相同的问题。

人工干预次数:3 次(上传文件、下载结果、配置邮件)

三工具完成同一任务的横向对比

| 环节 | 新 Siri | Claude Code | OpenAI Codex | | 理解任务意图 | ✅ 流畅 | ✅ 流畅 | ✅ 流畅 | | 数据清洗脚本 | ❌ 需转换 | ✅ 直接执行 | ✅ 云端执行 | | 生成报告 | ❌ 需手动 | ✅ 自动生成 | ✅ 自动生成 | | 发邮件 | ✅ 一句话搞定 | ⚠️ 需配置 | ⚠️ 需配置 | | 人工干预次数 | 2 次 | 1 次 | 3 次 | 结论很清晰: 没有哪个工具能独立完成全部四个环节。Siri 擅长两头(意图理解+系统调度),代码 Agent 擅长中间(脚本生成+执行)。真正的效率来自串联,而不是选边站。

---

第三章:互补还是打架?三类用户的答案不一样

不同背景的人,最优配置完全不同。我用决策树的方式给出具体建议:

🙋 非技术用户

你的主力工具:新 Siri

如果你不知道终端是什么,Claude Code 的上手成本会让你放弃。Siri 配合 Apple Intelligence,能处理你 80% 的日常任务——日程管理、文件搜索、邮件起草、跨 App 操作。

辅助工具:OpenAI Codex(对话界面)

当你需要处理数据或生成脚本时,Codex 的对话式交互比 Claude Code 的终端更友好。上传文件、描述需求、下载结果,三步走完。

👨‍💻 全栈开发者

你的主力工具:Claude Code

你已经活在终端里,Claude Code 是你工作流的天然延伸。它能读取整个代码库的上下文,理解项目结构,写出符合你代码风格的代码。这是另外两个工具给不了的深度集成。

辅助工具:新 Siri

用 Siri 处理那些和代码无关但消耗注意力的杂事——安排会议、发消息、搜索文档——让你保持心流状态。

📊 产品经理/数据分析师

你的主力工具:OpenAI Codex

你需要写脚本但不想管环境配置,Codex 的云端执行是最省心的方案。描述清楚你的数据需求,它帮你跑完,你直接看结果。

辅助工具:Claude Code(学习期)

如果你愿意投入两周学习终端基础,Claude Code 的本地执行能力和更深的上下文理解会让你的数据工作效率提升一个台阶。这是一个值得做的投资。

---

第四章:隐藏的成本账——订阅费、API 调用、学习曲线怎么算?

这一章要泼一点冷水。

定价结构对比

新 Siri / Apple Intelligence: 随 Apple 设备免费,不额外收费。但你需要一台支持 Apple Intelligence 的设备(iPhone 15 Pro 及以上,或 M 系列 Mac),这个隐性门槛不低。 Claude Code: 按 token 计费,底层调用 Claude 的 API。轻度用户(每天几次数据处理任务)月费大约在 30-80 元人民币;中度用户(全天候代码辅助)月费可能到 200-500 元;重度用户(大型项目、长上下文)月费可能超过 800 元OpenAI Codex: 目前作为 ChatGPT Plus/Pro 的功能提供,Plus 订阅约 140 元/月,Pro 订阅更贵。独立 API 调用另算。 | 用户类型 | 新 Siri | Claude Code | OpenAI Codex | | 轻度用户 | 免费 | ~50 元/月 | ~140 元/月(含 Plus) | | 中度用户 | 免费 | ~300 元/月 | ~140 元/月 | | 重度用户 | 免费 | ~800 元+/月 | ~140 元/月(有用量上限) |
一个容易被忽视的结论: 对中度用户来说,Codex(包含在 Plus 订阅里)的性价比反而比 Claude Code 的按量计费更可预测。但如果你是重度用户,按量计费的 Claude Code 反而更灵活。

国内访问稳定性——这才是真正的隐性成本

这个变量在大多数评测文章里被忽略,但对国内用户来说,它可能是最重要的选型因素。

新 Siri 的核心功能在国内可用(部分 Apple Intelligence 功能有地区限制),稳定性最高。

Claude Code 和 Codex 都需要稳定的网络环境,在没有可靠访问工具的情况下,你可能在最关键的时刻遇到连接超时——这种摩擦感会彻底打断工作流。

如果你想在国内稳定调用 Claude 或 GPT 系列做代码任务,目前我测试下来最顺手的入口是 [api.884819.xyz](https://api.884819.xyz)——支持多模型切换(包括 Claude Opus 4.6、GPT-5 系列、Deepseek R1),按需付费不绑定订阅,对开发者工作流友好。国产模型(Deepseek、通义千问 Qwen3)完全免费,新用户注册即送体验 token,没有月租。对于刚开始探索代码 Agent 工作流的用户,这是一个低风险的起点。

---

第五章:我的最终配置方案 + 可直接复制的 Prompt 模板

我当前的"双轨工作流"

Siri 负责系统调度,Claude Code 负责代码生成,两者通过场景切换。

具体来说:

  • 所有"打开/发送/搜索/提醒"类任务 → 直接喊 Siri
  • 所有"写脚本/处理数据/生成文件"类任务 → 切到终端用 Claude Code
  • 需要在无本地环境的情况下快速跑代码 → 用 Codex 的对话界面

触发词规则很简单:有"写"字或"处理"字的需求,走 Claude Code;其他的,先试 Siri。

3 个可直接复制的 Prompt 模板

模板 1:数据处理(Claude Code / Codex 通用)
我有一份 Excel 文件,路径是 [文件路径],包含以下列:[列名列表]。

请帮我:

1. 删除所有空行和完全重复的行

2. 将 [日期列] 统一转换为 YYYY-MM-DD 格式

3. 过滤掉 [数值列] 中小于 0 的异常值

4. 输出清洗后的文件,命名为 [原文件名]_cleaned.xlsx

5. 打印清洗前后的行数对比

请先展示代码,等我确认后再执行。

模板 2:自动化脚本(Claude Code 终端场景)
我需要一个 Python 脚本,每天早上 9 点自动执行以下操作:

1. 读取 [目录路径] 下所有 .csv 文件

2. 合并成一个 DataFrame,添加"来源文件名"列

3. 按 [关键列] 分组,计算每组的 [统计指标]

4. 生成摘要报告,保存为 report_[日期].txt

脚本需要:

  • 有错误处理(文件不存在时不崩溃)
  • 运行完成后打印执行摘要
  • 兼容 macOS 和 Linux

请同时给出用 crontab 设置定时任务的命令。

模板 3:文档生成(三个工具通用)
基于以下数据摘要,生成一份面向非技术管理层的分析报告:

[粘贴你的数据摘要]

报告要求:

  • 篇幅控制在 500 字以内
  • 开头用一句话说明核心结论
  • 用 3 个要点支撑结论,每点附具体数字
  • 结尾给出 1-2 个可执行的行动建议
  • 不要用技术术语,用管理层能理解的语言

输出格式:Markdown,方便复制到邮件或文档。

---

写在最后:如果你只能选一个起点

别被选择困难症困住。

如果你是 Apple 用户、不写代码: 先把新 Siri 用熟,它的系统集成能力已经能解决你大部分效率问题。 如果你是开发者: 直接上 Claude Code,两天就能上手,一周就会依赖它。 如果你在两者之间: 从 Codex 的对话界面开始,零配置、低门槛,感受一下代码 Agent 的工作方式,再决定要不要深入。

这三个工具不是竞争关系,是分工关系。搞清楚分工,你的工作流效率会有实质性的提升——不是那种"感觉好像快了一点"的提升,而是"这件事以前要一小时,现在十分钟"的那种。

---

这篇我们聊的是"选哪个"。但还有一个更难的问题没有回答——当这些 AI Agent 真的能独立完成一个完整项目时,开发者的核心价值在哪里?下一篇我想认真聊聊这个,不是焦虑帖,是我自己想清楚之后的答案。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。 新用户注册即送体验token。 → [api.884819.xyz](https://api.884819.xyz)

#AI工具对比 #Claude #Siri #OpenAI #代码Agent #AI效率工具 #8848AI #开发者工具