本文最后更新于 2026-04-14，文章内容可能已经过时。

Claude 开放 100 万 Token 还不加价，真正改变的不是“能塞更多”，而是 Agent 终于没那么容易聊崩了

你有没有发现，AI 一旦聊久了就开始变笨？

最典型的场景是：你让它连续做研究、整理十几份资料、改一整个项目的代码，前几轮还挺聪明，后面就开始失忆、跑偏、重复自己，甚至一本正经胡说八道。很多人以为这是模型智商不够，实际上更常见的问题是——上下文开始腐烂了。

这也是 Anthropic 这次更新真正值得关注的地方：Claude 正式开放 100 万 Token 上下文、长上下文不额外加价，同时推出 Compaction API。如果只把它理解成“上下文从 20 万变成 100 万”，那就低估了这波更新。它更像是把 Agent 长会话里最难处理的稳定性问题，第一次拉进了可工程化优化的范畴。

长上下文解决的是“装不装得下”，Compaction API 解决的是“跑久了会不会坏”。

100 万 Token 到底意味着什么？重点不是大，而是终于更值得用

先说最直观的数字。

这意味着什么？

以前很多“看起来能做、实际不敢做”的任务，现在开始有了现实落地空间：

一次性喂入多份行业报告，让 AI 做交叉比较
把需求文档、会议纪要、历史决策一起给模型，减少来回补料
让编程 Agent 在更完整的项目上下文里工作，而不是每轮只看几段代码
做复杂知识助手时，不必一上来就把所有信息切得过碎

但中国用户最该关心的，其实不是“它能装多少”，而是这样用到底值不值。

“无溢价定价”为什么重要：长上下文第一次不只是给大厂看的能力

Anthropic 官方这次释放的另一个关键信号是：100 万 Token 上下文能力不是高价特权，不额外收长上下文溢价。换句话说，它不是“给你更长，但每次都贵得离谱”，而是按模型原有的 token 计费逻辑走。

这件事比参数本身更重要。

过去长上下文有个老问题：你不是不能用，而是越想认真用，越容易被成本劝退。很多团队最后只能退回到两种保守方案：

1. 把资料切得很碎，只喂最小片段

2. 缩短会话长度，频繁重开任务

这两种做法都能省钱，但都会损失任务连续性。

可以把当前市面上的长上下文成本逻辑粗略分成三类：

当然，不加价不等于没成本。100 万 Token 依然会带来三件很现实的事：

请求时延更长
吞吐下降
整体工程成本变高

所以别把它理解成“以后所有任务都直接上 100 万 Token”。更合理的理解是：当任务真的需要完整上下文时，你终于不用先被价格挡在门外。

比 100 万 Token 更关键的，是 `Compaction API`

如果说长上下文解决的是容量问题，那 Compaction API 解决的就是 Agent 最头疼的续航问题。

什么叫“上下文腐烂”？

一个 Agent 会话拉得足够长之后，经常会出现这些症状：

旧信息越积越多，重要约束被埋掉
任务目标中途漂移
模型记混历史结论
无效聊天占满窗口，真正有用的信息反而稀释
同一个 bug 修过一次，下一轮又改回去了

这就是典型的上下文腐烂。它不是简单的“窗口满了”，而是信息质量随着对话长度下降。

`Compaction API` 和普通摘要有什么区别？

很多人第一反应是：那不就是做个 summary 吗？

不是。

Compaction API 不是把对话“缩短一点”，而是把长会话重新整理成适合继续执行的状态包。 它重点保留的通常不是表面字数，而是：

当前任务目标
已确认的约束条件
关键事实和中间结论
尚未完成的待办
后续继续推理必须依赖的上下文状态

普通摘要更像“写读后感”，Compaction API 更像“给接班人交班”。

这也是为什么它在 Agent 时代甚至比更长上下文还关键。因为真实工作流里，问题从来不只是“能不能塞进去”，而是模型连续跑 30 轮后，是否还在同一条任务线上。

这波更新对谁最有用？

对普通用户：体验升级是立竿见影的

如果你不是开发者，这次更新最容易感知到的提升有三类：

超长文档总结：几十页报告不用拆得太碎
复杂对话接力：前面聊过的设定更容易延续
一次性喂完整资料：需求、参考、限制条件能一起给

比如做留学申请、投研资料整理、法务条款比对，过去很容易出现“前面你不是说过吗”的挫败感，现在至少在容量层面缓解了不少。

对开发者：真正的变化在工作流设计

这次更值得兴奋的，其实是下面这些场景：

研究型 Agent：输入几十份报告、会议纪要、网页摘录，持续追踪同一问题
编程 Agent：多轮修改同一项目时，记住架构约束、接口命名和历史修复结论
客服/运营知识助手：长时间处理产品规则、工单历史、例外流程
长期记忆任务：把记忆管理从“无限堆历史”改成“结构化压缩后续跑”

案例 1：研究型 Agent

一个行业研究任务，前面塞入 20 份券商研报、3 次会议纪要、十几页网页摘录。没有 compact 时，第 15 轮以后常见问题是：模型开始重复观点，忘记最初研究目标。加上 compact 后，更容易保留“研究问题—已验证结论—待补证据”这条主线。

案例 2：编程 Agent

连续让 Agent 修改同一项目：先重构目录，再修接口，再补测试。长会话里最怕的是它忘了命名规范，或者把上一轮修好的 bug 又引回来。compact 的价值，是把“项目约束、已改动模块、禁改区域、待办列表”提炼出来，减少后续轮次漂移。

案例 3：客服/运营助手

客服知识库经常既有规则，也有例外。长会话里，最怕模型只记住一般规则，忘了历史工单里的特殊处理。压缩后如果还能保留“用户身份、产品版本、已执行动作、不可违反规则”，系统稳定性会比单纯拉长上下文更强。

有了 100 万 Token，还需要 RAG 吗？

答案很明确：需要。

这是这类新闻里最容易被误解的一点。长上下文 ≠ 永久记忆，100 万 Token ≠ 不需要 RAG/数据库/外部工具。

更合理的组合方式其实是：

长上下文：适合一次性放入较完整的任务材料
RAG：适合按需检索、降低冗余输入
记忆系统：适合跨会话长期存储用户状态
Compaction API：适合长任务运行中的状态压缩和续航

一句话概括：RAG 负责“拿什么进来”，长上下文负责“能装多少”，compact 负责“怎么持续跑下去”。

怎么判断这是不是噱头？给你一套实测框架

如果你真想判断这波更新值不值，不要只看参数表，建议直接按下面 6 个指标测：

1. 长文档召回率

能否在几十万字资料里准确找出关键细节，而不是只抓开头和结尾。

2. 跨轮一致性

第 20 轮时，是否还记得第 3 轮确认过的约束。

3. 任务完成稳定性

同样的长流程任务，多跑几次结果是否稳定，是否中途跑偏。

4. compact 后信息损失率

压缩之后，关键目标、规则、结论丢了多少。

5. 成本变化

不只是 API 账单，还包括缓存、重试、编排和人力调试成本。

6. 响应时延

上下文越长，请求等待越明显，实际产品体验会不会被拖垮。

结论可以先说在前面：这是一次非常重要的能力升级，但它改变的是 Agent 的上限，不会自动替你解决工程实现。

两段最值得开发者先跑的代码

1. 基础长上下文调用示例

import requests

url = "https://api.884819.xyz/v1/chat/completions"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}

long_context = open("materials.txt", "r", encoding="utf-8").read()

payload = {
"model": "Claude",
"messages": [
{"role": "system", "content": "你是一个研究助手，请严格保持研究目标一致。"},
{"role": "user", "content": f"以下是完整资料，请先建立事实表，再输出结论：\n{long_context}"}
]
}

resp = requests.post(url, headers=headers, json=payload, timeout=300)
print(resp.json())

适合什么时候用？

当你的任务确实依赖大块原始材料，而且拆碎会明显损失上下文关系时。

2. `Compaction API` 流程示意

# 伪代码示意：长会话 -> 达阈值 -> compact -> 继续推理

messages = load_chat_history()

if token_count(messages) > 800000:
compacted_state = call_compaction_api({
"messages": messages,
"instruction": "保留任务目标、已确认约束、关键事实、未完成待办"
})

messages = [
{"role": "system", "content": "你继续执行任务，必须遵守压缩状态中的约束。"},
{"role": "user", "content": compacted_state}
]

response = call_model(messages)
save(response)

工程上最关键的不是“压一次”，而是定义清楚什么时候压、压完保留什么、后续消息结构怎么接。

最后的判断：这次更新重要，但别把它当银弹

如果只看 headline，这次更新像是在比谁的上下文更长；但真正值得行业认真看的，是它把长上下文、无溢价定价、Compaction API、Agent 上下文腐烂这四件事连成了一套。

这意味着长任务 AI 正从“偶尔能跑出来”走向“更可持续地跑”。但它到底能不能转化成生产力，还取决于你会不会组合使用长上下文、RAG、记忆系统和 compact，而不是无脑把所有东西都塞进去。

如果你想自己试试 100 万 Token 长上下文、对比 compact 前后的效果，可以直接通过 api.884819.xyz 接入相关模型，先跑一个真实任务，比看参数表更有感觉。平台支持用户名+密码即可注册，不需要邮箱验证；注册后内置 AI 对话功能可直接使用。国产模型如 Deepseek R1/V3、通义千问 Qwen3、Kimi K2.5、GLM-5 也都可免费体验；平台没有月租、没有订阅，按量付费。新用户注册即送体验token。

而我更建议开发者别只围观新闻，直接拿自己的文档、代码仓库、Agent 工作流去压测。因为这次真正值得研究的，不只是 Claude 变长了，而是Agent 的上下文管理范式正在变。

下一篇我们就继续拆：100 万 Token 会不会杀死 RAG？长上下文、RAG、记忆系统，到底该怎么搭配，才不会既浪费钱又把系统做复杂。 本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#Claude #Agent #长上下文 #CompactionAPI #AI工程 #8848AI #人工智能 #AI教程