跑分会骗人:我用4个真实任务,测出了开源与闭源模型之间那道看不见的断层

上个月,我遇到了一件让我印象深刻的事。

一个开源模型在 MMLU 基准测试上的得分比 GPT-4o 高了整整 2 分。我心想,行,那就用它帮我改一封商务邮件——对方态度强硬,我需要软化措辞,但不能道歉,不能示弱,只是让语气不那么剑拔弩张。

我改了三轮。它要么把邮件写成了道歉信,要么保留了所有强硬措辞只是换了几个同义词。第四轮,我直接把要求拆成三条列出来,它终于改对了——但顺便把格式弄乱了。

基准分数高 2 分,真实任务里我多花了 20 分钟。

这不是个例。这是一个系统性的问题,值得认真说清楚。

---

为什么跑分会骗人?

先说清楚跑分测的是什么。

MMLU 测的是多选题知识覆盖面,HumanEval 测的是标准算法题的代码通过率,MATH 测的是数学推理能力——这些基准设计得很精密,但它们有一个共同的前提:答案是已知的、标准化的、可以自动判断的

现实任务不是这样的。你让模型帮你写一份竞品分析,"好"的标准因人而异;你让它调试一段代码,它能跑通但解释得一塌糊涂算不算合格?你让它翻译一句有文化语境的中文,字面准确但语感全失,算几分?

更麻烦的是,基准测试存在几个统计陷阱:

  • 训练集污染:部分开源模型的训练数据可能包含了基准题目本身,相当于"考前押题"
  • Cherry-pick 子集:发论文时选择模型表现最好的子集汇报,整体数据不一定好看
  • 语言偏英文:MMLU、HumanEval 的主体是英文,中文用户的实际使用体验根本测不出来

所以当你看到"某开源模型跑分追平 GPT-4"这类标题,可以先问一句:在哪个子集上?用什么评测协议?中文任务测了吗?

---

测试设计:4 个故意选的"麻烦任务"

我选了 4 类任务,刻意覆盖基准测试最容易失真的维度:

| 任务类型 | 为什么选它 | 评分维度 | | 长文档理解 | 测长上下文,幻觉率在这里最容易暴露 | 准确性 / 信息完整性 | | 多轮指令修正 | 测对话连贯性,开源模型"失忆"问题最明显 | 指令遵循 / 上下文保持 | | 中文歧义消解 | 测语言文化贴近性,纯英文训练的模型在这里最吃亏 | 语义理解 / 文化语感 | | 代码调试 + 解释 | 测推理链可解释性,能跑通和能讲清楚是两回事 | 正确性 / 解释质量 |

参与测试的模型:

  • 开源阵营:Llama 3.1 70B、Qwen2.5 72B、DeepSeek-V2
  • 闭源阵营:GPT-4o、Claude Opus 4.6

所有任务使用相同的输入,多轮任务保持相同的对话流程,评分由我和两位同事独立打分后取平均值(1-5 分制)。

---

逐项实测:数据说话

任务一:长文档理解

输入材料:一份约 8000 字的产品调研报告(中文),要求模型提取三个核心结论,并标注原文依据。 结果对比: | 模型 | 结论准确性 | 原文引用准确率 | 幻觉片段数 | | Llama 3.1 70B | 3.2 | 中等 | 3 处 | | Qwen2.5 72B | 3.8 | 较高 | 1 处 | | DeepSeek-V2 | 3.6 | 中等 | 2 处 | | GPT-4o | 4.5 | 高 | 0 处 | | Claude Opus 4.6 | 4.7 | 高 | 0 处 |
⚠️ 注:幻觉片段指模型引用了原文中不存在的数据或结论,经人工逐段核对确认。
这说明什么:长文档场景下,开源模型的幻觉率明显更高。Llama 3.1 的 3 处幻觉中,有 2 处是把文档中的"预期目标"说成了"已达成结果"——这在商业场景里是致命的。Qwen2.5 表现相对稳健,是开源阵营里最接近闭源水准的。

---

任务二:多轮指令修正

任务设定:让模型写一封给甲方的项目进度邮件,然后进行 5 轮修正:改语气→调整收件人称谓→删除第二段→加入具体数据→恢复被误删的内容。

这是最能暴露问题的任务。

Llama 3.1 在第 3 轮出现了典型的"失忆":我要求删除第二段,它删了;第 4 轮我要求加入数据,它在重新生成时把第二段又带回来了。到第 5 轮,邮件结构已经和第 1 轮几乎没有区别。

DeepSeek-V2 的情况好一些,但在第 4 轮加入数据时,把我在第 2 轮修改的称谓改回了原来的版本——它"记得"数据要求,但"忘了"称谓修改。

GPT-4o 和 Claude Opus 4.6 全程保持了修改历史的连贯性,最终输出和我的预期高度一致。Claude 在第 5 轮恢复内容时,还主动标注了"已根据您第 3 轮的删除指令和第 5 轮的恢复指令,保留以下段落"——这种透明度让人放心。

这说明什么:多轮对话连贯性是当前开源模型最明显的短板。这不只是"记忆力"的问题,本质上是 RLHF 训练中对话管理数据量的差距。

---

任务三:中文歧义消解

测试句子
"这个方案不是不好,只是时机不对。"

要求模型判断说话人的真实态度,并解释理由。

正确理解:说话人认为方案本身可以,但当前时机不合适,整体态度偏中性或保留。

Llama 3.1 的回答:"说话人认为这个方案存在一定问题('不是不好'意味着有些不好),同时时机也不对,整体持否定态度。"

——它把双重否定拆开字面解读了,完全误解了中文的委婉表达习惯。

Qwen2.5 的表现明显更好,正确识别了双重否定结构,但在解释"时机不对"的语境时,没有联系到中国商务沟通中"留面子"的文化背景。

GPT-4o 和 Claude Opus 4.6 都给出了准确的语义分析,Claude 还额外指出这句话在中文商务场合中常用于"委婉拒绝但不关门"的语境——这个洞察是对的。

这说明什么:中文歧义理解不只是语言问题,还是文化校准问题。以英文语料为主的模型,在处理中文隐含语义时会系统性地偏向字面解读。

---

任务四:代码调试 + 解释

输入代码(故意埋了两个 bug):
def calculate_average(numbers):

total = 0

for num in numbers:

total += num

return total / len(numbers) # Bug 1: 未处理空列表

def find_duplicates(lst):

duplicates = []

for i in range(len(lst)):

for j in range(i, len(lst)): # Bug 2: 应该是 i+1

if lst[i] == lst[j]:

duplicates.append(lst[i])

return list(set(duplicates))

要求:找出所有 bug,修复,并用中文解释每个 bug 的成因。

五个模型都找到了 Bug 1(空列表除零错误)。

Bug 2 的情况有分歧:Llama 3.1 找到了,但解释是"j 的起始值应该从 i+1 开始以避免重复比较"——这是对的,但没有解释为什么 j = i 会导致每个元素和自身比较,逻辑链不完整。DeepSeek-V2 的解释最详细,把"自比较导致所有元素都被误判为重复"这个根本原因讲清楚了。

GPT-4o 和 Claude Opus 4.6 的解释质量相当,都做到了"找到 bug → 解释成因 → 修复 → 说明修复逻辑"的完整链条。

代码任务的结论有些出乎意料:这是四个任务里开源与闭源差距最小的一个。DeepSeek-V2 在代码调试上的表现,和闭源模型基本在同一水平线上。

---

断层的本质是什么?

看完数据,我们来聊聊"为什么"。

第一,RLHF 数据量级的差距

RLHF(基于人类反馈的强化学习)是决定模型"好不好用"的关键环节。闭源模型背后有大规模的人工标注团队,持续迭代对话偏好数据。开源模型的 RLHF 数据通常规模更小、覆盖场景更窄——这直接反映在多轮对话连贯性和指令遵循精度上。

第二,推理时的计算资源

你调用 GPT-4o 的 API,背后可能是更大参数量的模型,或者 MoE(混合专家)架构的动态调度。开源模型自部署时,受限于硬件,通常要做量化压缩,这会损失一部分精度。

第三,中文语料与文化校准的投入

Qwen2.5 在中文任务上明显优于 Llama 3.1,原因很直接:它是专门针对中文场景优化过的。这不只是训练数据的量,还有文化语境的标注质量。

但有一点必须公平地说:开源模型在代码任务上的差距已经很小了。如果你的主要需求是代码辅助、英文文档处理、批量数据清洗,开源方案完全可以胜任,而且成本优势显著。

---

所以你该怎么选?

不做武断结论,给你一个决策框架:

你的任务是什么?

├── 中文语义理解 / 商务写作 / 微妙措辞

│ └── → 优先闭源 API(GPT-4o / Claude Opus 4.6)

├── 多轮对话 / 长期项目协作 / 需要记住修改历史

│ └── → 优先闭源 API

├── 长文档分析 / 需要零幻觉输出

│ └── → 优先闭源 API(Qwen2.5 可作备选)

├── 代码调试 / 代码补全 / 英文摘要

│ └── → 开源方案性价比更高(DeepSeek-V2 / Qwen2.5)

└── 批量处理 / 预算敏感 / 可接受人工复核

└── → 开源方案,搭配质检流程

成本参考(以每月处理约 100 万 token 为例):
  • 闭源 API(GPT-4o):约 $15-30,随用随付,无需运维
  • 开源自部署(70B 级别):需要 A100 级显卡,云端租用约 $200-400/月,但可无限量使用

对于个人用户和小团队,闭源 API 的总成本往往反而更低——因为你不需要付运维成本。对于有稳定大批量需求的企业,开源自部署的规模效益会在某个临界点显现。

---

如果你看完想直接上手对比,不想折腾本地部署,可以在 [api.884819.xyz](https://api.884819.xyz) 用同一个接口调用文中测试的多个模型——切换模型只需改一个参数,自己跑一遍本文的任务,10 分钟就有答案。新用户注册即送体验 token,国产模型(DeepSeek / 通义千问)完全免费,没有月租,按量付费。

最诚实的测试方法,永远是用你自己的真实任务去跑一遍。

当然,如果你懒得自己测,直接调 API 试一圈可能是最快的答案。

---

说完了模型之间的差距,下次我想聊另一个问题:同一个模型,不同的调用方式,输出质量能差多远?

Prompt 工程、Temperature 设置、System 指令——有些"玄学"其实有数据支撑,有些真的只是安慰剂。这个问题,比选模型更容易被忽视,但对日常使用的影响可能更大。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI评测 #开源模型 #GPT-4o #Claude #DeepSeek #模型对比 #8848AI #AI选型