AI 写完了一篇论文,但我第 4 轮就断了——长任务自动化的三个致命断点

最近 Wharton 教授 Ethan Mollick 发了一条让很多人沉默的推文。

他用 claude-opus-4-6 4.5 在 Claude Code 里完成了两件事:一篇有完整结构的学术论文草稿,和一个可以运行的 RPG 文字游戏。不是 demo,不是截图展示,是真实落地的文件输出。整个过程他几乎没有手动干预,AI 自己拆解任务、迭代内容、处理格式,最后交付。

我看完的第一反应是:这我也能做到。

然后我照着思路跑了一遍,第 4 轮对话,AI 开始自由发挥,偏离了我最初的要求。第 7 轮,它忘了自己在做什么。最后交付的文件格式一团糟,我花了比 AI 生成内容更多的时间在返工。

这不是模型能力的问题。Opus 4.5 的上下文窗口是 200K tokens,足够装下一本中篇小说。问题出在我身上——我没有给这个任务搭好脚手架。

这篇文章把我踩过的三个断点拆开,给你可以直接复用的修复方案。

---

从Mollick 的实验说起

Mollick 的实验之所以值得关注,不是因为「AI 写了论文」这个结论,而是因为他展示的是一个有真实交付物的完整工作流

论文那个任务,他给了一个研究方向和几篇参考文献,Claude Code 自动完成了文献梳理、论点构建、章节草稿,最终输出了一个结构完整的 .md 文件。RPG 游戏那个任务更复杂——涉及游戏逻辑、对话分支、状态管理,最终跑出了一个可以在终端里玩的文字冒险游戏。

这两个任务有一个共同特征:任务本身是多步骤的,中间有依赖关系,最终有明确的验收标准。这正是「长任务自动化」区别于普通对话的核心——你不是在问 AI 一个问题,你是在委托 AI 完成一个项目。

Claude Code 在这类场景下的优势在于它的 agentic 执行机制:它可以调用工具、读写文件、执行代码,并在多轮之间保持任务状态。官方文档里把这种模式称为「extended thinking with tool use」,本质上是让模型在一个持续的工作循环里自主决策。

但这个循环能不能跑完,取决于你有没有把任务结构化到足够清晰的程度。

---

我自己跑了一遍——流程复盘

我选的任务是:用 Claude Code 生成一份「AI 工具选型指南」,要求包含市场分析、工具对比表、推荐逻辑,最终输出一个可以直接发布的 Markdown 文档。

选题 → 拆解任务

我的第一版 prompt 大概是这样的:

帮我写一份 AI 工具选型指南,面向中小企业,

包含市场分析、主流工具对比、选型建议。

看起来没问题,对吧?

喂给 Claude Code → 中途干预

前两轮很顺。AI 开始做市场分析,结构清晰,我很满意。第 3 轮,它开始写工具对比,但不知道为什么,它把「面向中小企业」这个约束悄悄丢掉了,开始写面向所有用户的通用对比。

我没有立刻干预,想着后面它会自己修正。

第 4 轮,它开始写「选型建议」,但这部分的逻辑和前面的对比表完全脱节——对比表里排第一的工具,在建议里没有被推荐。

我意识到出问题了,开始手动纠正。但这时候上下文已经积累了大量内容,我的纠正指令被稀释在里面,AI 只改了表面,没有修复底层逻辑。

最终交付

最后输出的文件,格式是我没有约定过的,标题层级混乱,有些章节用了 H2,有些用了 H3,完全不统一。我花了将近一个小时在做格式清理和内容修正。

这次踩坑让我意识到:断点不是随机出现的,它们有规律,而且可以提前预防。

---

三个最容易断掉的环节

断点一:任务描述太模糊,AI 在第 3 轮开始自由发挥

问题现象

任务开始时 AI 表现正常,但随着轮次增加,它会逐渐「漂移」——悄悄扩大或缩小任务范围,或者在没有明确指令的情况下做出自己的判断。

根本原因

模糊的 prompt 给了 AI 太大的解释空间。当任务进入中期,AI 需要在多个可能的方向里选一个,它会选它认为「合理」的,而不是你想要的。

修复方案:写有边界感的 prompt

对比一下这两个版本:

# 断掉版

帮我写一份 AI 工具选型指南,面向中小企业,

包含市场分析、主流工具对比、选型建议。

# 修复版

任务:生成一份 AI 工具选型指南

目标读者:50人以下的中小企业技术负责人,预算有限,优先考虑性价比

必须包含:

- 市场背景(不超过 500 字,只讲和中小企业相关的部分)

- 工具对比表(列:工具名、定价模式、适用场景、上手难度)

- 选型决策树(用 Markdown 列表模拟,不要用图片)

不要包含:

- 面向大企业的 enterprise 方案

- 需要自建服务器的工具

约束:全文不超过 3000 字,输出为单个 .md 文件

关键差异在于:用「不要包含」来划定边界,比只写「要包含什么」更有效。AI 的漂移往发生在边界模糊的地方,明确排除项可以大幅减少这种情况。

小结:把任务描述从「我想要什么」升级为「我要什么 + 我不要什么 + 验收标准是什么」,漂移问题基本可以消除。

---

断点二:上下文窗口耗尽,AI 忘了自己在做什么

问题现象

长任务进行到中后期,AI 开始重复已经完成的工作,或者忽略之前确认过的约束,像是「失忆」了一样。

根本原因

虽然 claude-opus-4-6 4.5 有 200K tokens的上下文窗口,但这不意味着所有内容都被同等权重地「记住」。随着对话轮次增加,早期的任务指令会被后续内容稀释,模型对任务初始状态的「注意力」会下降。

这不是 bug,是 Transformer 架构的基本特性。

修复方案:检查点摘要 + 分段提交

解决方法是主动管理上下文,而不是被动等待 AI 失忆。核心思路是:每隔一定轮次,让 AI 生成一个任务状态摘要,然后把这个摘要作为下一段任务的起点。

下面是一个用 Claude API 实现分段摘要的最小示例:

import anthropic

client = anthropic.Anthropic()

def create_checkpoint_summary(conversation_history: list, task_goal: str) -> str:

"""

在长任务中途生成检查点摘要,用于维持任务连贯性

"""

summary_prompt = f"""

你正在执行一个长任务,任务目标是:{task_goal}

以下是目前的对话历史摘要请求。

请用不超过 300 字总结:

1. 已完成的部分

2. 当前进度

3. 还需要完成的部分

4. 需要保持的关键约束

对话历史:

{conversation_history}

"""

response = client.messages.create(

model="claude-opus-4-6",

max_tokens=500,

messages=[{"role": "user", "content": summary_prompt}]

)

return response.content[0].text

def continue_task_with_checkpoint(checkpoint_summary: str, next_instruction: str) -> str:

"""

用检查点摘要重启任务上下文,继续执行

"""

context_prompt = f"""

【任务状态恢复】

{checkpoint_summary}

【下一步指令】

{next_instruction}

请基于以上状态继续执行任务,保持与已完成部分的一致性。

"""

response = client.messages.create(

model="claude-opus-4-6",

max_tokens=2000,

messages=[{"role": "user", "content": context_prompt}]

)

return response.content[0].text

实际使用时,建议每 5-8 轮对话生成一次检查点。查点摘要本身很短(300 字以内),但它能把任务的「骨架」保留下来,防止 AI 在细节里迷失。

小结:不要指望 AI 自己记住所有事情。主动设置检查点,把任务状态的管理权拿回来。

---

断点三:交付物格式没有约定,最后一步返工

问题现象

任务内容质量不错,但最终输出的文件格式混乱:标题层级不统一、文件命名随意、有些内容该是列表却写成了段落。你需要花大量时间做格式清理。

根本原因

这是最隐蔽的断点,因为它不会在过程中暴露,只在最后交付时才爆发。AI 在没有格式约定的情况下,会根据当前上下文「猜」一个它认为合适的格式,而这个猜测往和你的预期不一致。

修复方案:在任务开头锁定输出格式

格式约定必须在任务启动时就写清楚,而不是在最后说「帮我整理一下格式」。

# 断掉版(没有格式约定)

帮我写一份产品分析报告,包含竞品分析和用户调研结论。

修复版(格式前置锁定)

帮我写一份产品分析报告。

【输出格式要求】

  • 文件名:product-analysis-YYYYMMDD.md
  • 标题层级:H1 只用一次(文档标题),章节用 H2,子章节用 H3,不使用 H4
  • 竞品对比必须用 Markdown 表格,列:产品名 | 核心功能 | 定价 | 优势 | 劣势
  • 用户调研结论用有序列表,每条结论后附一句「数据来源」说明
  • 文档末尾附「下一步行动建议」章节,用 checkbox 列表格式(- [ ] 行动项)
  • 不使用加粗以外的强调格式(不用斜体、不用下划线)

【验收标准】

  • 全文可以直接复制到 Notion 不需要二次排版
  • 竞品表格至少包含 4 个竞品

格式约定的核心逻辑是:把你脑子里隐含的「理所当然」显式化。你觉得「当然应该用表格」,但 AI 不知道,除非你告诉它。

小结:格式约定是任务启动清单的一部分,不是事后补救的工具。把它写在最前面,返工率会大幅下降。

---

可以直接用的任务脚手架模板

把上面三个修复方案整合起来,就是这个通用的长任务启动模板:

# 长任务启动模板

任务目标

[一句话描述最终交付物是什么]

约束条件

  • 必须包含:[列出必要元素]
  • 不要包含:[列出排除项]
  • 字数/规模限制:[具体数字]
  • 目标读者:[具体描述]

检查点设置

  • 每完成一个主要章节/模块,先输出一个 50 字以内的进度确认,再继续
  • 如果发现任务方向需要调整,先暂停并说明,不要自行决定

输出格式

  • 文件格式:[.md / .py / .json等]
  • 文件命名:[命名规范]
  • 结构规范:[标题层级、列表格式、表格要求等]
  • 验收标准:[什么情况下算完成]

开始指令

[具体的第一步任务描述]

三类场景的微调方式:
  • 论文/长文写作:在「检查点设置」里加上「每章完成后输出章节摘要,供后续章节引用」,防止前后论点脱节。
  • 代码项目:在「输出格式」里加上「每个函数必须有 docstring,文件末尾附使用示例」,在「约束条件」里写明技术栈和禁用的库。
  • 内容生产(批量文章/报告):在「约束条件」里加上「风格参考:[粘贴一段示例文本]」,让 AI 有具体的风格锚点。

---

如果你想直接用 API 测试这套流程,可以通过 [api.884819.xyz](https://api.884819.xyz) 获取访问,价格与官方一致,国内直连,省去注册和网络折腾的麻烦。上面的 Python 示例代码可以直接跑,把 claude-opus-4-6 换成你需要的模型即可。

---

结论——模型够用,方法论是瓶颈

Opus 4.5 的能力已经超过了大多数人的使用方式。200K 的上下文窗口、原生的工具调用能力、稳定的长文本生成质量——这些都不是瓶颈。

真正的瓶颈是:你有没有把任务结构化到 AI 可以自主执行的程度。

一个可操作的行动建议:下次启动长任务之前,先花 10 分钟填完上面那个模板。不需要完美,但必须把「不要什么」和「格式是什么」写清楚。这 10 分钟,会帮你省掉后面 2 个小时的返工。

---

这次跑的是单模型、单任务的场景。但我一直在想一个更激进的设定:如果把任务拆给多个 AI 角色分工协作会怎样——一个负责写、一个负责审、一个专门负责挑逻辑漏洞。理论上,这种「AI 多智能体工作流」可以把单模型的上限再往上推一个量级。

下周我会实际跑一遍,把结果写出来。如果你对多智能体协作感兴趣,可以先关注,下周见。

---

本文由848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI教程 #Claude #长任务自动化 #Prompt技巧 #ClaudeCode #AI工作流 #8848AI #人工智能