本文最后更新于 2026-05-31，文章内容可能已经过时。

AI 写完了一篇论文，但我第 4 轮就断了——长任务自动化的三个致命断点

最近 Wharton 教授 Ethan Mollick 发了一条让很多人沉默的推文。

他用 claude-opus-4-6 4.5 在 Claude Code 里完成了两件事：一篇有完整结构的学术论文草稿，和一个可以运行的 RPG 文字游戏。不是 demo，不是截图展示，是真实落地的文件输出。整个过程他几乎没有手动干预，AI 自己拆解任务、迭代内容、处理格式，最后交付。

我看完的第一反应是：这我也能做到。

然后我照着思路跑了一遍，第 4 轮对话，AI 开始自由发挥，偏离了我最初的要求。第 7 轮，它忘了自己在做什么。最后交付的文件格式一团糟，我花了比 AI 生成内容更多的时间在返工。

这不是模型能力的问题。Opus 4.5 的上下文窗口是 200K tokens，足够装下一本中篇小说。问题出在我身上——我没有给这个任务搭好脚手架。

这篇文章把我踩过的三个断点拆开，给你可以直接复用的修复方案。

---

从Mollick 的实验说起

Mollick 的实验之所以值得关注，不是因为「AI 写了论文」这个结论，而是因为他展示的是一个有真实交付物的完整工作流。

论文那个任务，他给了一个研究方向和几篇参考文献，Claude Code 自动完成了文献梳理、论点构建、章节草稿，最终输出了一个结构完整的 .md 文件。RPG 游戏那个任务更复杂——涉及游戏逻辑、对话分支、状态管理，最终跑出了一个可以在终端里玩的文字冒险游戏。

这两个任务有一个共同特征：任务本身是多步骤的，中间有依赖关系，最终有明确的验收标准。这正是「长任务自动化」区别于普通对话的核心——你不是在问 AI 一个问题，你是在委托 AI 完成一个项目。

Claude Code 在这类场景下的优势在于它的 agentic 执行机制：它可以调用工具、读写文件、执行代码，并在多轮之间保持任务状态。官方文档里把这种模式称为「extended thinking with tool use」，本质上是让模型在一个持续的工作循环里自主决策。

但这个循环能不能跑完，取决于你有没有把任务结构化到足够清晰的程度。

---

我自己跑了一遍——流程复盘

我选的任务是：用 Claude Code 生成一份「AI 工具选型指南」，要求包含市场分析、工具对比表、推荐逻辑，最终输出一个可以直接发布的 Markdown 文档。

选题 → 拆解任务

我的第一版 prompt 大概是这样的：

帮我写一份 AI 工具选型指南，面向中小企业，
包含市场分析、主流工具对比、选型建议。

看起来没问题，对吧？

喂给 Claude Code → 中途干预

前两轮很顺。AI 开始做市场分析，结构清晰，我很满意。第 3 轮，它开始写工具对比，但不知道为什么，它把「面向中小企业」这个约束悄悄丢掉了，开始写面向所有用户的通用对比。

我没有立刻干预，想着后面它会自己修正。

第 4 轮，它开始写「选型建议」，但这部分的逻辑和前面的对比表完全脱节——对比表里排第一的工具，在建议里没有被推荐。

我意识到出问题了，开始手动纠正。但这时候上下文已经积累了大量内容，我的纠正指令被稀释在里面，AI 只改了表面，没有修复底层逻辑。

最终交付

最后输出的文件，格式是我没有约定过的，标题层级混乱，有些章节用了 H2，有些用了 H3，完全不统一。我花了将近一个小时在做格式清理和内容修正。

这次踩坑让我意识到：断点不是随机出现的，它们有规律，而且可以提前预防。

---

三个最容易断掉的环节

断点一：任务描述太模糊，AI 在第 3 轮开始自由发挥

问题现象

任务开始时 AI 表现正常，但随着轮次增加，它会逐渐「漂移」——悄悄扩大或缩小任务范围，或者在没有明确指令的情况下做出自己的判断。

根本原因

模糊的 prompt 给了 AI 太大的解释空间。当任务进入中期，AI 需要在多个可能的方向里选一个，它会选它认为「合理」的，而不是你想要的。

修复方案：写有边界感的 prompt

对比一下这两个版本：

# 断掉版
帮我写一份 AI 工具选型指南，面向中小企业，
包含市场分析、主流工具对比、选型建议。

# 修复版
任务：生成一份 AI 工具选型指南
目标读者：50人以下的中小企业技术负责人，预算有限，优先考虑性价比
必须包含：
- 市场背景（不超过 500 字，只讲和中小企业相关的部分）
- 工具对比表（列：工具名、定价模式、适用场景、上手难度）
- 选型决策树（用 Markdown 列表模拟，不要用图片）
不要包含：
- 面向大企业的 enterprise 方案
- 需要自建服务器的工具
约束：全文不超过 3000 字，输出为单个 .md 文件

关键差异在于：用「不要包含」来划定边界，比只写「要包含什么」更有效。AI 的漂移往发生在边界模糊的地方，明确排除项可以大幅减少这种情况。

小结：把任务描述从「我想要什么」升级为「我要什么 + 我不要什么 + 验收标准是什么」，漂移问题基本可以消除。

---

断点二：上下文窗口耗尽，AI 忘了自己在做什么

问题现象

长任务进行到中后期，AI 开始重复已经完成的工作，或者忽略之前确认过的约束，像是「失忆」了一样。

根本原因

虽然 claude-opus-4-6 4.5 有 200K tokens的上下文窗口，但这不意味着所有内容都被同等权重地「记住」。随着对话轮次增加，早期的任务指令会被后续内容稀释，模型对任务初始状态的「注意力」会下降。

这不是 bug，是 Transformer 架构的基本特性。

修复方案：检查点摘要 + 分段提交

解决方法是主动管理上下文，而不是被动等待 AI 失忆。核心思路是：每隔一定轮次，让 AI 生成一个任务状态摘要，然后把这个摘要作为下一段任务的起点。

下面是一个用 Claude API 实现分段摘要的最小示例：

import anthropic

client = anthropic.Anthropic()

def create_checkpoint_summary(conversation_history: list, task_goal: str) -> str:
"""
在长任务中途生成检查点摘要，用于维持任务连贯性
"""
summary_prompt = f"""
你正在执行一个长任务，任务目标是：{task_goal}

以下是目前的对话历史摘要请求。
请用不超过 300 字总结：
1. 已完成的部分
2. 当前进度
3. 还需要完成的部分
4. 需要保持的关键约束

对话历史：
{conversation_history}
"""
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=500,
messages=[{"role": "user", "content": summary_prompt}]
)
return response.content[0].text

def continue_task_with_checkpoint(checkpoint_summary: str, next_instruction: str) -> str:
"""
用检查点摘要重启任务上下文，继续执行
"""
context_prompt = f"""
【任务状态恢复】
{checkpoint_summary}

【下一步指令】
{next_instruction}

请基于以上状态继续执行任务，保持与已完成部分的一致性。
"""
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=2000,
messages=[{"role": "user", "content": context_prompt}]
)
return response.content[0].text

实际使用时，建议每 5-8 轮对话生成一次检查点。查点摘要本身很短（300 字以内），但它能把任务的「骨架」保留下来，防止 AI 在细节里迷失。

小结：不要指望 AI 自己记住所有事情。主动设置检查点，把任务状态的管理权拿回来。

---

断点三：交付物格式没有约定，最后一步返工

问题现象

任务内容质量不错，但最终输出的文件格式混乱：标题层级不统一、文件命名随意、有些内容该是列表却写成了段落。你需要花大量时间做格式清理。

根本原因

这是最隐蔽的断点，因为它不会在过程中暴露，只在最后交付时才爆发。AI 在没有格式约定的情况下，会根据当前上下文「猜」一个它认为合适的格式，而这个猜测往和你的预期不一致。

修复方案：在任务开头锁定输出格式

格式约定必须在任务启动时就写清楚，而不是在最后说「帮我整理一下格式」。

# 断掉版（没有格式约定）
帮我写一份产品分析报告，包含竞品分析和用户调研结论。

修复版（格式前置锁定）
帮我写一份产品分析报告。

【输出格式要求】
文件名：product-analysis-YYYYMMDD.md
标题层级：H1 只用一次（文档标题），章节用 H2，子章节用 H3，不使用 H4
竞品对比必须用 Markdown 表格，列：产品名 | 核心功能 | 定价 | 优势 | 劣势
用户调研结论用有序列表，每条结论后附一句「数据来源」说明
文档末尾附「下一步行动建议」章节，用 checkbox 列表格式（- [ ] 行动项）
不使用加粗以外的强调格式（不用斜体、不用下划线）

【验收标准】
全文可以直接复制到 Notion 不需要二次排版
竞品表格至少包含 4 个竞品

格式约定的核心逻辑是：把你脑子里隐含的「理所当然」显式化。你觉得「当然应该用表格」，但 AI 不知道，除非你告诉它。

小结：格式约定是任务启动清单的一部分，不是事后补救的工具。把它写在最前面，返工率会大幅下降。

---

可以直接用的任务脚手架模板

把上面三个修复方案整合起来，就是这个通用的长任务启动模板：

# 长任务启动模板

任务目标
[一句话描述最终交付物是什么]

约束条件
必须包含：[列出必要元素]
不要包含：[列出排除项]
字数/规模限制：[具体数字]
目标读者：[具体描述]

检查点设置
每完成一个主要章节/模块，先输出一个 50 字以内的进度确认，再继续
如果发现任务方向需要调整，先暂停并说明，不要自行决定

输出格式
文件格式：[.md / .py / .json等]
文件命名：[命名规范]
结构规范：[标题层级、列表格式、表格要求等]
验收标准：[什么情况下算完成]

开始指令
[具体的第一步任务描述]

三类场景的微调方式：

论文/长文写作：在「检查点设置」里加上「每章完成后输出章节摘要，供后续章节引用」，防止前后论点脱节。
代码项目：在「输出格式」里加上「每个函数必须有 docstring，文件末尾附使用示例」，在「约束条件」里写明技术栈和禁用的库。
内容生产（批量文章/报告）：在「约束条件」里加上「风格参考：[粘贴一段示例文本]」，让 AI 有具体的风格锚点。

---

如果你想直接用 API 测试这套流程，可以通过 [api.884819.xyz](https://api.884819.xyz) 获取访问，价格与官方一致，国内直连，省去注册和网络折腾的麻烦。上面的 Python 示例代码可以直接跑，把 claude-opus-4-6 换成你需要的模型即可。

---

结论——模型够用，方法论是瓶颈

Opus 4.5 的能力已经超过了大多数人的使用方式。200K 的上下文窗口、原生的工具调用能力、稳定的长文本生成质量——这些都不是瓶颈。

真正的瓶颈是：你有没有把任务结构化到 AI 可以自主执行的程度。

一个可操作的行动建议：下次启动长任务之前，先花 10 分钟填完上面那个模板。不需要完美，但必须把「不要什么」和「格式是什么」写清楚。这 10 分钟，会帮你省掉后面 2 个小时的返工。

---

这次跑的是单模型、单任务的场景。但我一直在想一个更激进的设定：如果把任务拆给多个 AI 角色分工协作会怎样——一个负责写、一个负责审、一个专门负责挑逻辑漏洞。理论上，这种「AI 多智能体工作流」可以把单模型的上限再往上推一个量级。

下周我会实际跑一遍，把结果写出来。如果你对多智能体协作感兴趣，可以先关注，下周见。

---

本文由848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI教程 #Claude #长任务自动化 #Prompt技巧 #ClaudeCode #AI工作流 #8848AI #人工智能