本文最后更新于 2026-05-17，文章内容可能已经过时。

Extended Thinking 用了两个月，我得出了一个反直觉的结论

我以为我找到了神器，结果发现我只是找到了一把需要对准靶子才有用的枪。

两个月前，Claude Opus 4.6 的 Extended Thinking 功能刚开始大规模可用，我第一时间接入了 API，迫不及待地把手头所有任务都跑了一遍。结果有一次让我印象深刻——我用 Extended Thinking 帮一个朋友改了一段产品文案，等了将近 20 秒，消耗了大量 token，得到的输出……和普通模式几乎没有区别。

那一刻我意识到：这东西可能被我用错了。

之后的两个月，我刻意设计了对比实验，把几十个真实工作任务分别跑了普通模式和 Extended Thinking 两个版本。结论和大多数人的直觉完全相反：它在某些任务上的效果提升是量级级别的，但在另一些任务上，它不仅没帮助，甚至比普通模式更差、更慢、更贵。

这篇文章不是功能评测，是一份带血的使用报告。

---

第一章：Extended Thinking 到底在做什么

在讲用法之前，必须先建立正确的心智模型。否则你会一直在错误的地方寻找问题。

普通模式下，Claude 接收你的 prompt，直接生成回答。整个过程的 token 消耗 = 输入 token + 输出 token。

Extended Thinking 模式下，模型在生成最终回答之前，会先进行一段"内部独白"——它会把推理过程显式地写出来，反复检查、修正、推翻自己的中间结论，然后才给出最终答案。这段"内部独白"是要计费的，也是慢的根源。

普通模式 Token 流向：
[输入 Prompt] → [直接输出] → 结束
Token 消耗 = 输入 + 输出

Extended Thinking Token 流向：
[输入 Prompt] → [内部推理 thinking tokens] → [最终输出] → 结束
Token 消耗 = 输入 + thinking tokens + 输出
↑
这部分是额外的，也是贵的

thinking 参数里有一个关键字段：budget_tokens。这是你给模型"思考配额"的上限，设置越高，模型可以推理得越深，但消耗也越多。

一个典型的 Python 调用示例：

import anthropic

client = anthropic.Anthropic(
api_key="your_api_key",
base_url="https://api.884819.xyz"  # 国内可直接访问
)

response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000  # 根据任务复杂度调整，范围 1000-32000
},
messages=[{
"role": "user",
"content": "你的任务 prompt"
}]
)

思维过程和最终回答分开返回
for block in response.content:
if block.type == "thinking":
print("思维过程：", block.thinking)
elif block.type == "text":
print("最终回答：", block.text)

关键认知：Extended Thinking 贵在 thinking tokens，慢在推理过程。搞清楚这两点，才能判断什么任务值得付这个代价。

---

第二章：3 种真正值回票价的任务场景

场景①：多约束条件下的逻辑推导

这是 Extended Thinking 最能打的场景，没有之一。

典型例子：合同条款冲突分析。一份 SaaS 服务合同里，甲方要求"数据不出境"，同时要求"7×24 小时全球技术支持"，还有一条"所有运维操作需在中国大陆服务器上完成"。这三个条款之间存在潜在冲突，普通模式往往会给你一个"表面合理"的分析，漏掉边界条件。

我用同一份合同文本跑了两次：

普通模式（budget_tokens 未开启）：

响应时间：约 4 秒
输出：识别出 2 处显性冲突，给出修改建议
问题：漏掉了"全球技术支持"在特定时区下可能触发的数据跨境传输场景

Extended Thinking（budget_tokens: 8000）：

响应时间：约 18 秒
thinking tokens 消耗：约 6200 个
输出：识别出 4 处冲突（包括 2 处隐性冲突），每处冲突附带触发条件和风险等级

费用估算（以 Claude Opus 4.6 定价为参考）：

普通模式：约 $0.02
Extended Thinking：约 $0.11（thinking tokens 按输出价格计费）

贵了约 5 倍，但漏掉一个合同条款冲突的代价可能是几十万。这笔账很好算。

直接可用的 Prompt 模板：

你是一位合同审查专家。请分析以下合同条款，
找出所有可能存在的逻辑冲突和边界条件风险。

要求：
1. 逐条列出每个潜在冲突
2. 说明冲突在什么具体情境下会被触发
3. 给出风险等级（高/中/低）和修改建议

[合同文本粘贴于此]

一行总结：任务约束条件越多、越相互纠缠，Extended Thinking 的优势越明显。

---

场景②：需要"自我纠错"的代码架构设计

注意，这里说的不是写单个函数，而是设计模块间关系、接口协议、异常处理链路。

普通模式的问题在于：它会给你一个"第一个看起来合理的方案"，然后停下来。Extended Thinking 的思维过程会主动发现自己方案的漏洞——我亲眼在 thinking 块里看到它写："等等，如果 A 模块超时，B 模块的回调会进入死循环，需要重新设计……"

这种自我纠错能力，在架构设计这种"错误代价高、前期发现成本低"的场景里，价值极高。

budget_tokens 建议设置：12000 以上，给模型足够的空间把方案推翻重来。

一行总结：架构设计不是写代码，是在做决策——Extended Thinking 的价值在于帮你在写代码之前就发现决策漏洞。

---

场景③：信息密度极高的长文档分析与决策建议

投融资协议关键条款提取、竞争对手战略分析、技术方案评审——这类任务的共同特点是：需要多轮推理才能得出有说服力的结论，且结论需要可被审计。

Extended Thinking 的"思考过程"在这里有一个意外的好处：它的 thinking 块本身就是一条可审计的推理链。当你把分析报告交给老板或客户时，你可以把 thinking 块的关键段落一起附上，证明这个结论不是拍脑袋得出的。

budget_tokens 建议：根据文档长度动态调整，每 1000 字文档对应约 2000 thinking tokens 是一个粗略的经验值。

一行总结：当你的输出需要被人工复核时，Extended Thinking 的推理链是比结论本身更有价值的东西。

---

第三章：3 种彻底浪费的错误用法

错误用法①：拿它做创意写作和头脑风暴

这是我犯过的第一个错误，也是最反直觉的一个坑。

Extended Thinking 的推理倾向天然是"收敛"的——它会在内部推理中不断检验自己的想法是否合理、是否自洽。这个特性在逻辑推导时是优点，在创意发散时是致命缺陷。

我用它写过一篇科幻短篇小说的开头。它给的版本逻辑严密、设定自洽，但读起来像一份技术文档。普通模式配合高 temperature（如果 API 支持），反而能给出更有惊喜感、更具文学性的输出。

而且创意写作任务的 token 消耗本就不低，Extended Thinking 叠加上去，费用直接翻倍，质量却下降了。

一行总结：创意任务需要发散，Extended Thinking 擅长收敛——方向相反，强行用只会两败俱伤。

---

错误用法②：处理有标准答案的简单问答

查 API 文档、翻译一段短文、把 JSON 转成 CSV——这类任务，普通 Claude 已经是满分。

Extended Thinking 在这里只是把简单问题复杂化。我做过一个对比：

| 任务 | 普通模式 | Extended Thinking | | 翻译 50 字英文段落 | ~2秒，消耗约 200 tokens | ~12秒，消耗约 1800 tokens | | 输出质量差异 | 无差异 | 无差异 | | 费用比较 | 基准 | 约 9 倍 |

花 9 倍的钱得到一模一样的结果，这不是在用工具，这是在浪费预算。

一行总结：普通模式已经满分的任务，Extended Thinking 给不了 120 分，只会给你一张更贵的账单。

---

错误用法③：在需要快速迭代的对话场景中开启

产品需求讨论、实时会议记录整理、客服辅助回复——这类场景的核心诉求是响应速度，而 Extended Thinking 的延迟通常在 10-30 秒之间（取决于 budget_tokens 设置）。

10 秒的等待，在一个需要快速来回的对话里，会完全破坏节奏感。我曾经在一次产品需求讨论的实时辅助工具里开启了 Extended Thinking，结果每次等待都让对话陷入尴尬的沉默。

这种场景，宁可用更快的模型（比如 Claude Sonnet 4.6 或 Gemini 3.1 Flash），速度换来的流畅感远比推理深度更重要。

一行总结：对话是实时的，Extended Thinking 是异步的——把异步工具用在实时场景里，是工程判断失误，不是功能问题。

---

第四章：一张判断表 + 我的实际工作流配置

讲完三正三反，规律其实已经呼之欲出了。我把它整理成一张 2×2 判断矩阵：

                    任务复杂度
低             高
┌─────────────┬─────────────┐
时  低 │  普通模式   │  Extended   │
间     │  已经够用   │  Thinking   │
敏     │             │  值回票价   │
感  ───┼─────────────┼─────────────┤
度  高 │  普通模式   │  普通模式   │
│  或更快模型 │  + 拆分任务 │
└─────────────┴─────────────┘

使用规则：

低复杂度 + 低时间敏感：普通模式，没有理由升级
高复杂度 + 低时间敏感：Extended Thinking 的主场，budget_tokens 可以设高一些（8000-20000）
低复杂度 + 高时间敏感：普通模式，甚至可以换更快的轻量模型
高复杂度 + 高时间敏感：这是最难的场景，Extended Thinking 的延迟会成为瓶颈，建议把任务拆分成多个低复杂度子任务并行处理（这也是下篇要讲的内容）

如果你想自己跑一遍这些对比实验，需要一个稳定可用的 Claude API 接入点。我目前用的是 api.884819.xyz，支持 Claude Opus 4.6 的完整参数（包括 thinking 参数），按量计费，不需要解决访问问题，国产模型（Deepseek、千问等）完全免费，没有月租。对于想认真测试 Extended Thinking 边界的人来说，是目前最省事的方式。

上面代码示例里的 base_url 直接填这个地址即可，其他参数不需要改动。

新用户注册即送体验 token，注册只需用户名+密码，不需要邮箱验证。

---

第五章：结论与边界声明

两个月、几十个任务跑下来，我能给出的最诚实的结论是：

Extended Thinking 是 Claude 系列目前推理能力的天花板，但天花板不等于万能。真正的高手不是把最强工具用在所有地方，而是知道什么时候该换工具。

这是一份个人经验，不是权威测评。Claude 的模型还在持续迭代，Extended Thinking 的边界可能会随着版本更新而变化——也许某一天它会快到可以用在实时对话里，也许它的创意能力会有质的提升。

但有一个原则不会变：工具要对齐任务，不是任务迁就工具。

如果你现在还在对所有任务无差别开启 Extended Thinking，这篇文章的价值就是帮你省下那些不必要的 token 费用，以及更重要的——时间。

---

下一篇预告

Extended Thinking 解决的是"推理深度"问题：让模型在一条路上想得更深、更彻底。

但最近我在测试另一个方向：当任务需要的不是"想得更深"，而是"同时探索很多条路"时，应该怎么设计 prompt 和工作流？

下一篇我会写：《Claude 多路并行调用实战：用 3 个 Agent 同时工作，比单次 Extended Thinking 更快、更便宜、覆盖面更广》

深度 vs 广度，这是两种完全不同的 AI 使用哲学。如果你做过类似的多 Agent 并行实验，欢迎在评论区留下你的结论——我会在文章里引用，并注明来源。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#ExtendedThinking #Claude #AI效率 #API调用 #8848AI #AI工具 #Prompt技巧 #AI实战