Claude 开放 100 万 Token 还不加价,真正改变的不是“能塞更多”,而是 Agent 终于没那么容易聊崩了

你有没有发现,AI 一旦聊久了就开始变笨?

最典型的场景是:你让它连续做研究、整理十几份资料、改一整个项目的代码,前几轮还挺聪明,后面就开始失忆、跑偏、重复自己,甚至一本正经胡说八道。很多人以为这是模型智商不够,实际上更常见的问题是——上下文开始腐烂了

这也是 Anthropic 这次更新真正值得关注的地方:Claude 正式开放 100 万 Token 上下文、长上下文不额外加价,同时推出 Compaction API。如果只把它理解成“上下文从 20 万变成 100 万”,那就低估了这波更新。它更像是把 Agent 长会话里最难处理的稳定性问题,第一次拉进了可工程化优化的范畴。

长上下文解决的是“装不装得下”,Compaction API 解决的是“跑久了会不会坏”。

100 万 Token 到底意味着什么?重点不是大,而是终于更值得用

先说最直观的数字。

Token 不等于字数。以中文场景粗略估算,100 万 Token 大约相当于 70 万~150 万中文字符,具体会因标点、格式、代码、表格而波动。换成人能理解的量级,大致可以这么看: | 内容类型 | 100 万 Token 粗略相当于 | | 中文文本 | 约 70 万~150 万字 | | PDF/报告 | 十几到几十份长文档 | | 网页资料 | 数百页网页摘录 | | 代码 | 一个中大型代码仓库的重要部分 |

这意味着什么?

以前很多“看起来能做、实际不敢做”的任务,现在开始有了现实落地空间:

  • 一次性喂入多份行业报告,让 AI 做交叉比较
  • 把需求文档、会议纪要、历史决策一起给模型,减少来回补料
  • 让编程 Agent 在更完整的项目上下文里工作,而不是每轮只看几段代码
  • 做复杂知识助手时,不必一上来就把所有信息切得过碎

但中国用户最该关心的,其实不是“它能装多少”,而是这样用到底值不值

“无溢价定价”为什么重要:长上下文第一次不只是给大厂看的能力

Anthropic 官方这次释放的另一个关键信号是:100 万 Token 上下文能力不是高价特权,不额外收长上下文溢价。换句话说,它不是“给你更长,但每次都贵得离谱”,而是按模型原有的 token 计费逻辑走。

这件事比参数本身更重要。

过去长上下文有个老问题:你不是不能用,而是越想认真用,越容易被成本劝退。很多团队最后只能退回到两种保守方案:

1. 把资料切得很碎,只喂最小片段

2. 缩短会话长度,频繁重开任务

这两种做法都能省钱,但都会损失任务连续性。

可以把当前市面上的长上下文成本逻辑粗略分成三类:

| 方案 | 常见做法 | 现实影响 | | 标准上下文 | 常规定价 | 便宜,但长任务容易频繁截断 | | 长上下文溢价 | 上下文越长,价格越高或资格受限 | 看得见,用不起 | | 无溢价长上下文 | 按原计费规则走,不单收“超长税” | 更适合真实工作流压测 |

当然,不加价不等于没成本。100 万 Token 依然会带来三件很现实的事:

  • 请求时延更长
  • 吞吐下降
  • 整体工程成本变高

所以别把它理解成“以后所有任务都直接上 100 万 Token”。更合理的理解是:当任务真的需要完整上下文时,你终于不用先被价格挡在门外。

比 100 万 Token 更关键的,是 Compaction API

如果说长上下文解决的是容量问题,那 Compaction API 解决的就是 Agent 最头疼的续航问题。

什么叫“上下文腐烂”?

一个 Agent 会话拉得足够长之后,经常会出现这些症状:

  • 旧信息越积越多,重要约束被埋掉
  • 任务目标中途漂移
  • 模型记混历史结论
  • 无效聊天占满窗口,真正有用的信息反而稀释
  • 同一个 bug 修过一次,下一轮又改回去了

这就是典型的上下文腐烂。它不是简单的“窗口满了”,而是信息质量随着对话长度下降

Compaction API 和普通摘要有什么区别?

很多人第一反应是:那不就是做个 summary 吗?

不是。

Compaction API 不是把对话“缩短一点”,而是把长会话重新整理成适合继续执行的状态包。 它重点保留的通常不是表面字数,而是:
  • 当前任务目标
  • 已确认的约束条件
  • 关键事实和中间结论
  • 尚未完成的待办
  • 后续继续推理必须依赖的上下文状态
普通摘要更像“写读后感”,Compaction API 更像“给接班人交班”。

这也是为什么它在 Agent 时代甚至比更长上下文还关键。因为真实工作流里,问题从来不只是“能不能塞进去”,而是模型连续跑 30 轮后,是否还在同一条任务线上。

这波更新对谁最有用?

对普通用户:体验升级是立竿见影的

如果你不是开发者,这次更新最容易感知到的提升有三类:

  • 超长文档总结:几十页报告不用拆得太碎
  • 复杂对话接力:前面聊过的设定更容易延续
  • 一次性喂完整资料:需求、参考、限制条件能一起给

比如做留学申请、投研资料整理、法务条款比对,过去很容易出现“前面你不是说过吗”的挫败感,现在至少在容量层面缓解了不少。

对开发者:真正的变化在工作流设计

这次更值得兴奋的,其实是下面这些场景:

  • 研究型 Agent:输入几十份报告、会议纪要、网页摘录,持续追踪同一问题
  • 编程 Agent:多轮修改同一项目时,记住架构约束、接口命名和历史修复结论
  • 客服/运营知识助手:长时间处理产品规则、工单历史、例外流程
  • 长期记忆任务:把记忆管理从“无限堆历史”改成“结构化压缩后续跑”

案例 1:研究型 Agent

一个行业研究任务,前面塞入 20 份券商研报、3 次会议纪要、十几页网页摘录。没有 compact 时,第 15 轮以后常见问题是:模型开始重复观点,忘记最初研究目标。加上 compact 后,更容易保留“研究问题—已验证结论—待补证据”这条主线。

案例 2:编程 Agent

连续让 Agent 修改同一项目:先重构目录,再修接口,再补测试。长会话里最怕的是它忘了命名规范,或者把上一轮修好的 bug 又引回来。compact 的价值,是把“项目约束、已改动模块、禁改区域、待办列表”提炼出来,减少后续轮次漂移。

案例 3:客服/运营助手

客服知识库经常既有规则,也有例外。长会话里,最怕模型只记住一般规则,忘了历史工单里的特殊处理。压缩后如果还能保留“用户身份、产品版本、已执行动作、不可违反规则”,系统稳定性会比单纯拉长上下文更强。

有了 100 万 Token,还需要 RAG 吗?

答案很明确:需要。

这是这类新闻里最容易被误解的一点。长上下文 ≠ 永久记忆,100 万 Token ≠ 不需要 RAG/数据库/外部工具。

更合理的组合方式其实是:

  • 长上下文:适合一次性放入较完整的任务材料
  • RAG:适合按需检索、降低冗余输入
  • 记忆系统:适合跨会话长期存储用户状态
  • Compaction API:适合长任务运行中的状态压缩和续航

一句话概括:RAG 负责“拿什么进来”,长上下文负责“能装多少”,compact 负责“怎么持续跑下去”。

怎么判断这是不是噱头?给你一套实测框架

如果你真想判断这波更新值不值,不要只看参数表,建议直接按下面 6 个指标测:

1. 长文档召回率

能否在几十万字资料里准确找出关键细节,而不是只抓开头和结尾。

2. 跨轮一致性

第 20 轮时,是否还记得第 3 轮确认过的约束。

3. 任务完成稳定性

同样的长流程任务,多跑几次结果是否稳定,是否中途跑偏。

4. compact 后信息损失率

压缩之后,关键目标、规则、结论丢了多少。

5. 成本变化

不只是 API 账单,还包括缓存、重试、编排和人力调试成本。

6. 响应时延

上下文越长,请求等待越明显,实际产品体验会不会被拖垮。

结论可以先说在前面:这是一次非常重要的能力升级,但它改变的是 Agent 的上限,不会自动替你解决工程实现。

两段最值得开发者先跑的代码

1. 基础长上下文调用示例

import requests

url = "https://api.884819.xyz/v1/chat/completions"

headers = {

"Authorization": "Bearer YOUR_API_KEY",

"Content-Type": "application/json"

}

long_context = open("materials.txt", "r", encoding="utf-8").read()

payload = {

"model": "Claude",

"messages": [

{"role": "system", "content": "你是一个研究助手,请严格保持研究目标一致。"},

{"role": "user", "content": f"以下是完整资料,请先建立事实表,再输出结论:\n{long_context}"}

]

}

resp = requests.post(url, headers=headers, json=payload, timeout=300)

print(resp.json())

适合什么时候用?

当你的任务确实依赖大块原始材料,而且拆碎会明显损失上下文关系时。

2. Compaction API 流程示意

# 伪代码示意:长会话 -> 达阈值 -> compact -> 继续推理

messages = load_chat_history()

if token_count(messages) > 800000:

compacted_state = call_compaction_api({

"messages": messages,

"instruction": "保留任务目标、已确认约束、关键事实、未完成待办"

})

messages = [

{"role": "system", "content": "你继续执行任务,必须遵守压缩状态中的约束。"},

{"role": "user", "content": compacted_state}

]

response = call_model(messages)

save(response)

工程上最关键的不是“压一次”,而是定义清楚什么时候压、压完保留什么、后续消息结构怎么接。

最后的判断:这次更新重要,但别把它当银弹

如果只看 headline,这次更新像是在比谁的上下文更长;但真正值得行业认真看的,是它把长上下文、无溢价定价、Compaction API、Agent 上下文腐烂这四件事连成了一套。

这意味着长任务 AI 正从“偶尔能跑出来”走向“更可持续地跑”。但它到底能不能转化成生产力,还取决于你会不会组合使用长上下文、RAG、记忆系统和 compact,而不是无脑把所有东西都塞进去。

如果你想自己试试 100 万 Token 长上下文、对比 compact 前后的效果,可以直接通过 api.884819.xyz 接入相关模型,先跑一个真实任务,比看参数表更有感觉。平台支持用户名+密码即可注册,不需要邮箱验证;注册后内置 AI 对话功能可直接使用。国产模型如 Deepseek R1/V3、通义千问 Qwen3、Kimi K2.5、GLM-5 也都可免费体验;平台没有月租、没有订阅,按量付费。新用户注册即送体验token。

而我更建议开发者别只围观新闻,直接拿自己的文档、代码仓库、Agent 工作流去压测。因为这次真正值得研究的,不只是 Claude 变长了,而是Agent 的上下文管理范式正在变。

下一篇我们就继续拆:100 万 Token 会不会杀死 RAG?长上下文、RAG、记忆系统,到底该怎么搭配,才不会既浪费钱又把系统做复杂。 本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#Claude #Agent #长上下文 #CompactionAPI #AI工程 #8848AI #人工智能 #AI教程