Extended Thinking 用了两个月,我得出了一个反直觉的结论
本文最后更新于 2026-05-17,文章内容可能已经过时。
Extended Thinking 用了两个月,我得出了一个反直觉的结论
我以为我找到了神器,结果发现我只是找到了一把需要对准靶子才有用的枪。
两个月前,Claude Opus 4.6 的 Extended Thinking 功能刚开始大规模可用,我第一时间接入了 API,迫不及待地把手头所有任务都跑了一遍。结果有一次让我印象深刻——我用 Extended Thinking 帮一个朋友改了一段产品文案,等了将近 20 秒,消耗了大量 token,得到的输出……和普通模式几乎没有区别。
那一刻我意识到:这东西可能被我用错了。
之后的两个月,我刻意设计了对比实验,把几十个真实工作任务分别跑了普通模式和 Extended Thinking 两个版本。结论和大多数人的直觉完全相反:它在某些任务上的效果提升是量级级别的,但在另一些任务上,它不仅没帮助,甚至比普通模式更差、更慢、更贵。
这篇文章不是功能评测,是一份带血的使用报告。
---
第一章:Extended Thinking 到底在做什么
在讲用法之前,必须先建立正确的心智模型。否则你会一直在错误的地方寻找问题。
普通模式下,Claude 接收你的 prompt,直接生成回答。整个过程的 token 消耗 = 输入 token + 输出 token。
Extended Thinking 模式下,模型在生成最终回答之前,会先进行一段"内部独白"——它会把推理过程显式地写出来,反复检查、修正、推翻自己的中间结论,然后才给出最终答案。这段"内部独白"是要计费的,也是慢的根源。
普通模式 Token 流向:
[输入 Prompt] → [直接输出] → 结束
Token 消耗 = 输入 + 输出
Extended Thinking Token 流向:
[输入 Prompt] → [内部推理 thinking tokens] → [最终输出] → 结束
Token 消耗 = 输入 + thinking tokens + 输出
↑
这部分是额外的,也是贵的
thinking 参数里有一个关键字段:budget_tokens。这是你给模型"思考配额"的上限,设置越高,模型可以推理得越深,但消耗也越多。
一个典型的 Python 调用示例:
import anthropic
client = anthropic.Anthropic(
api_key="your_api_key",
base_url="https://api.884819.xyz" # 国内可直接访问
)
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000 # 根据任务复杂度调整,范围 1000-32000
},
messages=[{
"role": "user",
"content": "你的任务 prompt"
}]
)
思维过程和最终回答分开返回
for block in response.content:
if block.type == "thinking":
print("思维过程:", block.thinking)
elif block.type == "text":
print("最终回答:", block.text)
关键认知:Extended Thinking 贵在 thinking tokens,慢在推理过程。搞清楚这两点,才能判断什么任务值得付这个代价。
---
第二章:3 种真正值回票价的任务场景
场景①:多约束条件下的逻辑推导
这是 Extended Thinking 最能打的场景,没有之一。
典型例子:合同条款冲突分析。一份 SaaS 服务合同里,甲方要求"数据不出境",同时要求"7×24 小时全球技术支持",还有一条"所有运维操作需在中国大陆服务器上完成"。这三个条款之间存在潜在冲突,普通模式往往会给你一个"表面合理"的分析,漏掉边界条件。
我用同一份合同文本跑了两次:
普通模式(budget_tokens 未开启):
- 响应时间:约 4 秒
- 输出:识别出 2 处显性冲突,给出修改建议
- 问题:漏掉了"全球技术支持"在特定时区下可能触发的数据跨境传输场景
budget_tokens: 8000):
- 响应时间:约 18 秒
- thinking tokens 消耗:约 6200 个
- 输出:识别出 4 处冲突(包括 2 处隐性冲突),每处冲突附带触发条件和风险等级
费用估算(以 Claude Opus 4.6 定价为参考):
- 普通模式:约 $0.02
- Extended Thinking:约 $0.11(thinking tokens 按输出价格计费)
贵了约 5 倍,但漏掉一个合同条款冲突的代价可能是几十万。这笔账很好算。
直接可用的 Prompt 模板:你是一位合同审查专家。请分析以下合同条款,
找出所有可能存在的逻辑冲突和边界条件风险。
要求:
1. 逐条列出每个潜在冲突
2. 说明冲突在什么具体情境下会被触发
3. 给出风险等级(高/中/低)和修改建议
[合同文本粘贴于此]
一行总结:任务约束条件越多、越相互纠缠,Extended Thinking 的优势越明显。
---
场景②:需要"自我纠错"的代码架构设计
注意,这里说的不是写单个函数,而是设计模块间关系、接口协议、异常处理链路。
普通模式的问题在于:它会给你一个"第一个看起来合理的方案",然后停下来。Extended Thinking 的思维过程会主动发现自己方案的漏洞——我亲眼在 thinking 块里看到它写:"等等,如果 A 模块超时,B 模块的回调会进入死循环,需要重新设计……"
这种自我纠错能力,在架构设计这种"错误代价高、前期发现成本低"的场景里,价值极高。
budget_tokens 建议设置:12000 以上,给模型足够的空间把方案推翻重来。
一行总结:架构设计不是写代码,是在做决策——Extended Thinking 的价值在于帮你在写代码之前就发现决策漏洞。
---
场景③:信息密度极高的长文档分析与决策建议
投融资协议关键条款提取、竞争对手战略分析、技术方案评审——这类任务的共同特点是:需要多轮推理才能得出有说服力的结论,且结论需要可被审计。
Extended Thinking 的"思考过程"在这里有一个意外的好处:它的 thinking 块本身就是一条可审计的推理链。当你把分析报告交给老板或客户时,你可以把 thinking 块的关键段落一起附上,证明这个结论不是拍脑袋得出的。
budget_tokens 建议:根据文档长度动态调整,每 1000 字文档对应约 2000 thinking tokens 是一个粗略的经验值。
一行总结:当你的输出需要被人工复核时,Extended Thinking 的推理链是比结论本身更有价值的东西。
---
第三章:3 种彻底浪费的错误用法
错误用法①:拿它做创意写作和头脑风暴
这是我犯过的第一个错误,也是最反直觉的一个坑。
Extended Thinking 的推理倾向天然是"收敛"的——它会在内部推理中不断检验自己的想法是否合理、是否自洽。这个特性在逻辑推导时是优点,在创意发散时是致命缺陷。
我用它写过一篇科幻短篇小说的开头。它给的版本逻辑严密、设定自洽,但读起来像一份技术文档。普通模式配合高 temperature(如果 API 支持),反而能给出更有惊喜感、更具文学性的输出。
而且创意写作任务的 token 消耗本就不低,Extended Thinking 叠加上去,费用直接翻倍,质量却下降了。
一行总结:创意任务需要发散,Extended Thinking 擅长收敛——方向相反,强行用只会两败俱伤。
---
错误用法②:处理有标准答案的简单问答
查 API 文档、翻译一段短文、把 JSON 转成 CSV——这类任务,普通 Claude 已经是满分。
Extended Thinking 在这里只是把简单问题复杂化。我做过一个对比:
| 任务 | 普通模式 | Extended Thinking | | 翻译 50 字英文段落 | ~2秒,消耗约 200 tokens | ~12秒,消耗约 1800 tokens | | 输出质量差异 | 无差异 | 无差异 | | 费用比较 | 基准 | 约 9 倍 |花 9 倍的钱得到一模一样的结果,这不是在用工具,这是在浪费预算。
一行总结:普通模式已经满分的任务,Extended Thinking 给不了 120 分,只会给你一张更贵的账单。
---
错误用法③:在需要快速迭代的对话场景中开启
产品需求讨论、实时会议记录整理、客服辅助回复——这类场景的核心诉求是响应速度,而 Extended Thinking 的延迟通常在 10-30 秒之间(取决于 budget_tokens 设置)。
10 秒的等待,在一个需要快速来回的对话里,会完全破坏节奏感。我曾经在一次产品需求讨论的实时辅助工具里开启了 Extended Thinking,结果每次等待都让对话陷入尴尬的沉默。
这种场景,宁可用更快的模型(比如 Claude Sonnet 4.6 或 Gemini 3.1 Flash),速度换来的流畅感远比推理深度更重要。
一行总结:对话是实时的,Extended Thinking 是异步的——把异步工具用在实时场景里,是工程判断失误,不是功能问题。
---
第四章:一张判断表 + 我的实际工作流配置
讲完三正三反,规律其实已经呼之欲出了。我把它整理成一张 2×2 判断矩阵:
任务复杂度
低 高
┌─────────────┬─────────────┐
时 低 │ 普通模式 │ Extended │
间 │ 已经够用 │ Thinking │
敏 │ │ 值回票价 │
感 ───┼─────────────┼─────────────┤
度 高 │ 普通模式 │ 普通模式 │
│ 或更快模型 │ + 拆分任务 │
└─────────────┴─────────────┘
使用规则:
- 低复杂度 + 低时间敏感:普通模式,没有理由升级
- 高复杂度 + 低时间敏感:Extended Thinking 的主场,
budget_tokens可以设高一些(8000-20000) - 低复杂度 + 高时间敏感:普通模式,甚至可以换更快的轻量模型
- 高复杂度 + 高时间敏感:这是最难的场景,Extended Thinking 的延迟会成为瓶颈,建议把任务拆分成多个低复杂度子任务并行处理(这也是下篇要讲的内容)
budget_tokens 配置经验:
| 任务类型 | budget_tokens 推荐值 | 原因 |
| 合同/法律文本分析 | 8000-15000 | 约束条件多,需要深度推理 |
| 代码架构设计 | 12000-20000 | 需要足够空间推翻重来 |
| 长文档决策分析 | 6000-10000 | 按文档长度线性调整 |
| 数学/逻辑证明 | 10000-25000 | 步骤多,不能截断 |
| 简单问答(不建议开启) | — | 直接用普通模式 |
如果你想自己跑一遍这些对比实验,需要一个稳定可用的 Claude API 接入点。我目前用的是 api.884819.xyz,支持 Claude Opus 4.6 的完整参数(包括 thinking 参数),按量计费,不需要解决访问问题,国产模型(Deepseek、千问等)完全免费,没有月租。对于想认真测试 Extended Thinking 边界的人来说,是目前最省事的方式。
上面代码示例里的 base_url 直接填这个地址即可,其他参数不需要改动。
---
第五章:结论与边界声明
两个月、几十个任务跑下来,我能给出的最诚实的结论是:
Extended Thinking 是 Claude 系列目前推理能力的天花板,但天花板不等于万能。真正的高手不是把最强工具用在所有地方,而是知道什么时候该换工具。
这是一份个人经验,不是权威测评。Claude 的模型还在持续迭代,Extended Thinking 的边界可能会随着版本更新而变化——也许某一天它会快到可以用在实时对话里,也许它的创意能力会有质的提升。
但有一个原则不会变:工具要对齐任务,不是任务迁就工具。
如果你现在还在对所有任务无差别开启 Extended Thinking,这篇文章的价值就是帮你省下那些不必要的 token 费用,以及更重要的——时间。
---
下一篇预告
Extended Thinking 解决的是"推理深度"问题:让模型在一条路上想得更深、更彻底。
但最近我在测试另一个方向:当任务需要的不是"想得更深",而是"同时探索很多条路"时,应该怎么设计 prompt 和工作流?
下一篇我会写:《Claude 多路并行调用实战:用 3 个 Agent 同时工作,比单次 Extended Thinking 更快、更便宜、覆盖面更广》深度 vs 广度,这是两种完全不同的 AI 使用哲学。如果你做过类似的多 Agent 并行实验,欢迎在评论区留下你的结论——我会在文章里引用,并注明来源。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#ExtendedThinking #Claude #AI效率 #API调用 #8848AI #AI工具 #Prompt技巧 #AI实战