长上下文不是谁更准：我用 10 万字文档看懂 Gemini 2.5 Pro 和 Claude 3.7 Sonnet 的真正差距

你把一份年报、合同，或者一整本公开报告扔给模型，心里想的往往只有一件事：“帮我把答案找出来。”

但真实工作里，最折磨人的从来不只是“找没找到”，而是这两个瞬间：

1. 模型盯着 10 万字文档思考了半天，你在屏幕前干等；

2. 它终于开口了，语气还特别像那么回事，但你回头一查，发现原文根本没有这条。

前者消耗时间，后者消耗信任。

而长上下文评测里，很多文章只盯着“准不准”，却很少认真看这两件更像日常体验的事：响应速度和失败时的行为模式。

这篇文章就围绕这个问题展开：

我建议你把测试对象换成一份公开可查、可全文搜索的 10 万字长文档，比如法规汇编、公开年报、学术报告这类文本，再用三类问题去测：

精确事实检索
跨段落推理
“文中根本没有这个信息”的陷阱题

如果你也在纠结 Gemini 2.5 Pro 和 Claude 3.7 Sonnet 到底怎么选，那结论很可能不在“谁更准”上，而在谁更快、谁更稳、谁更不爱编。

为什么准确率只是故事的开头

先说结论：准确率当然重要，但它只决定模型“能不能答对”，不决定它“会不会耽误你”。

我见过太多实际场景是这样的：

你让模型查一条条款，它答对了，但等了很久；
你让模型判断一个跨段落矛盾，它答得很顺，但细看逻辑链断了；
你问它文中有没有某个数字，它明明没找到，却给了一个听起来合理的推断。

如果你的工作是做法务、研究、咨询、投研、产品调研，这些问题比“总分高几分”更接近真实痛点。因为你不是在做一次考试，而是在做一个连续工作流：

查资料 → 判断可信度 → 继续追问 → 再核验。

所以本文不把“准确率”当唯一标准，而是把它当基础分，然后继续往下看两件更关键的事：

等答案要等多久
答错的时候，它是承认不知道，还是继续编

先把基础分说清楚：准确率对比

为了避免单题偶然性带偏结论，建议你自己复现时按三类题型各做至少 20 题。下面这个表格就是最适合直接落地的测试框架。

说明：由于不同文档、不同提示词、不同轮次都会影响结果，下表更适合写成“观察结论表”，而不是追求一个看起来很权威的总分。

如果只看这一层，两者通常都会表现得像“够用的长文档助手”。

真正拉开工作体验差距的，不是“能不能答”，而是下面这句话：

一个模型答对但慢，另一个模型答得稍快但偶尔会自信地猜错。后者在真实工作里往往更危险。

也正因为这样，接下来两章才是重点。

第一个隐藏差距：响应速度

长上下文场景里，速度不是锦上添花，而是生产力本身。

因为你不是只问一次。你会连续问很多次：

“把第 3 章里和成本相关的段落找出来”
“这条条款前后有没有冲突”
“把这几个地方的引用原文贴给我”

如果每次都要等很久，工作流会被切得七零八落。你看着像是在“使用 AI”，实际体验却像是在“排队等一个会说话的搜索引擎”。

怎么测才公平

建议把速度拆成两个指标：

1. 首 token 时延：你问完到它开始输出的时间

2. 完整响应时间：从开始输出到整段回答结束的时间

并且每个问题都测 5 次，取均值。这样能尽量排除偶发网络波动和后台负载干扰。

为什么这个指标很值钱

别小看几秒钟。

如果你一天要做 30 次长文档检索，哪怕每次只多等 2 秒，一天下来就是 1 分钟；如果多等 5 秒，就是 2 分多钟。

这还只是单人、单日、单任务。真实工作里你往往会在多个模型、多个问题之间来回切换，等待感会被放大得更明显。

速度这件事的本质不是“快一点爽一点”，而是会不会打断你的思路。

思路一断，后面就要重新进入上下文，真正损失的往往比“表面等待时间”更大。

第二个隐藏差距：找不到答案时，它怎么行动

这部分才是全文最关键的地方。

因为在长文档场景里，最危险的不是“没找到”，而是“没找到但装作找到了”。

你可以把陷阱题设计成这种类型：

文档里压根没有某个日期
文档里没出现某个条款编号
文档里没提到某个人名或项目名
文档里有类似概念，但没有你问的那一条

然后观察两个模型的回答姿势。

组 1：没有这个日期

【图1：陷阱题对比截图，问题是“文中是否提到 X 月 X 日的某项安排”】

你要重点看两件事：

它是直接说“未找到”；
还是把附近信息拼接一下，给出一个看起来合理的日期。

很多时候，后者比前者更危险。

因为它不是“不会”，而是“太会猜了”。

组 2：没有这个条款编号

【图2：陷阱题对比截图，问题是“是否存在第 17.3 条”】

这类题最能测出模型的边界感：

更稳的模型通常会明确提示：文档中未见该条款，可能需要核对版本；
更激进的模型则可能从上下文中推一个“类似条款”，语气还很肯定。

在法务、合规、研究这些场景里，会承认不确定其实是一种能力，而且是很值钱的能力。

组 3：没有这个人名或项目名

【图3：陷阱题对比截图，问题是“某项目是否由某团队负责”】

这类问题容易出现“看起来很完整”的错误回答。

模型可能把相邻段落里提到的团队、部门、项目名串起来，最后给你一个逻辑上顺滑、事实层面却站不住的答案。

这就是长上下文里最容易被忽视的一点：

模型不是不会总结，而是有时会把“总结”过度延伸成“推断事实”。

这对工作意味着什么

如果你的工作对答案可靠性要求很高，比如合同审查、政策研究、尽调材料梳理，那么“宁可说不知道，也不要乱猜”就不是一句漂亮话，而是决定你要不要花二次核验时间的分水岭。

换句话说：

更爱猜的模型：前台效率高，后台核验成本高；
更保守的模型：前台看起来没那么“会说”，但能显著减少你回头翻原文的次数。

场景化选型：别问谁更强，先问你要什么

如果把这两款模型放到同一张选择表里，我会这样看：

如果你想自己复现测试，我建议直接用 API 跑，而不是靠网页界面点来点去。原因很简单：

API 更容易批量化、可复现，也更容易对比多个模型。

下面这段 Python 脚本是最小可用版本，你可以把题目列表批量发出去，再把返回结果落盘，方便后面人工核验。

import os
import json
import requests

BASE_URL = "https://api.884819.xyz"
API_KEY = os.getenv("API_KEY")

questions = [
"问题1：……",
"问题2：……",
"问题3：……",
]

def ask_model(model_name, question):
url = f"{BASE_URL}/v1/chat/completions"
payload = {
"model": model_name,
"messages": [
{"role": "system", "content": "你是一个严格基于文档回答的助手。找不到就明确说找不到，不要猜。"},
{"role": "user", "content": question}
],
"temperature": 0
}
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
r = requests.post(url, headers=headers, data=json.dumps(payload), timeout=120)
r.raise_for_status()
return r.json()

for q in questions:
print("QUESTION:", q)
print(ask_model("gemini-2.5-pro", q))
print(ask_model("claude-3.7-sonnet", q))

如果你还想省一点接入成本，可以直接去 api.884819.xyz 试。注册很快，新用户注册即送体验token。

对经常要做模型对比的人来说，这种方式最适合拿来跑长文档测试：成本可控、切换方便、也更适合做批量实验。国产模型也能直接免费用，没有月租、没有订阅，按量付费这件事会更清晰。

结尾：别只看分数，要看你每天会不会被打断

如果你只是偶尔问一句，准确率可能就是全部。

但如果你每天都要和长文档打交道，那么真正决定体验的，往往是：

它开口有多快；
它答错时会不会装懂；
它会不会把你的核验成本偷偷转嫁回来。

所以我的建议很简单：

高频快速检索：优先试更快的那一个；
深度推理：两者都测，不要只看一轮；
对可靠性极敏感：优先选更保守、边界感更强的那个；
最终决策：别看营销话术，看你自己的文档和自己的问题。

如果你愿意，这套方法完全可以在你手里的年报、合同、研究报告上再跑一遍。你会发现，模型之间真正拉开差距的地方，往往不是“答得像不像”，而是出了错之后，它到底会不会把你带沟里。

这次测的是长文档检索，下一个我想测的是：同样这两个模型，在处理多文件交叉引用时表现如何——当你同时扔进去 5 份文档让它找矛盾点，谁更容易混淆来源、谁的引用更可信。如果你也遇到过类似场景，欢迎在评论区留下你的测试需求，我优先写高频场景。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI教程 #Gemini #Claude #长上下文 #人工智能 #8848AI #Prompt技巧