跑分会骗人：我用4个真实任务，测出了开源与闭源模型之间那道看不见的断层

上个月，我遇到了一件让我印象深刻的事。

一个开源模型在 MMLU 基准测试上的得分比 GPT-4o 高了整整 2 分。我心想，行，那就用它帮我改一封商务邮件——对方态度强硬，我需要软化措辞，但不能道歉，不能示弱，只是让语气不那么剑拔弩张。

我改了三轮。它要么把邮件写成了道歉信，要么保留了所有强硬措辞只是换了几个同义词。第四轮，我直接把要求拆成三条列出来，它终于改对了——但顺便把格式弄乱了。

基准分数高 2 分，真实任务里我多花了 20 分钟。

这不是个例。这是一个系统性的问题，值得认真说清楚。

---

为什么跑分会骗人？

先说清楚跑分测的是什么。

MMLU 测的是多选题知识覆盖面，HumanEval 测的是标准算法题的代码通过率，MATH 测的是数学推理能力——这些基准设计得很精密，但它们有一个共同的前提：答案是已知的、标准化的、可以自动判断的。

现实任务不是这样的。你让模型帮你写一份竞品分析，"好"的标准因人而异；你让它调试一段代码，它能跑通但解释得一塌糊涂算不算合格？你让它翻译一句有文化语境的中文，字面准确但语感全失，算几分？

更麻烦的是，基准测试存在几个统计陷阱：

训练集污染：部分开源模型的训练数据可能包含了基准题目本身，相当于"考前押题"
Cherry-pick 子集：发论文时选择模型表现最好的子集汇报，整体数据不一定好看
语言偏英文：MMLU、HumanEval 的主体是英文，中文用户的实际使用体验根本测不出来

所以当你看到"某开源模型跑分追平 GPT-4"这类标题，可以先问一句：在哪个子集上？用什么评测协议？中文任务测了吗？

---

测试设计：4 个故意选的"麻烦任务"

我选了 4 类任务，刻意覆盖基准测试最容易失真的维度：

参与测试的模型：

开源阵营：Llama 3.1 70B、Qwen2.5 72B、DeepSeek-V2
闭源阵营：GPT-4o、Claude Opus 4.6

所有任务使用相同的输入，多轮任务保持相同的对话流程，评分由我和两位同事独立打分后取平均值（1-5 分制）。

---

逐项实测：数据说话

任务一：长文档理解

输入材料：一份约 8000 字的产品调研报告（中文），要求模型提取三个核心结论，并标注原文依据。 结果对比： | 模型 | 结论准确性 | 原文引用准确率 | 幻觉片段数 | | Llama 3.1 70B | 3.2 | 中等 | 3 处 | | Qwen2.5 72B | 3.8 | 较高 | 1 处 | | DeepSeek-V2 | 3.6 | 中等 | 2 处 | | GPT-4o | 4.5 | 高 | 0 处 | | Claude Opus 4.6 | 4.7 | 高 | 0 处 |

⚠️ 注：幻觉片段指模型引用了原文中不存在的数据或结论，经人工逐段核对确认。

这说明什么：长文档场景下，开源模型的幻觉率明显更高。Llama 3.1 的 3 处幻觉中，有 2 处是把文档中的"预期目标"说成了"已达成结果"——这在商业场景里是致命的。Qwen2.5 表现相对稳健，是开源阵营里最接近闭源水准的。

---

任务二：多轮指令修正

任务设定：让模型写一封给甲方的项目进度邮件，然后进行 5 轮修正：改语气→调整收件人称谓→删除第二段→加入具体数据→恢复被误删的内容。

这是最能暴露问题的任务。

Llama 3.1 在第 3 轮出现了典型的"失忆"：我要求删除第二段，它删了；第 4 轮我要求加入数据，它在重新生成时把第二段又带回来了。到第 5 轮，邮件结构已经和第 1 轮几乎没有区别。

DeepSeek-V2 的情况好一些，但在第 4 轮加入数据时，把我在第 2 轮修改的称谓改回了原来的版本——它"记得"数据要求，但"忘了"称谓修改。

GPT-4o 和 Claude Opus 4.6 全程保持了修改历史的连贯性，最终输出和我的预期高度一致。Claude 在第 5 轮恢复内容时，还主动标注了"已根据您第 3 轮的删除指令和第 5 轮的恢复指令，保留以下段落"——这种透明度让人放心。

这说明什么：多轮对话连贯性是当前开源模型最明显的短板。这不只是"记忆力"的问题，本质上是 RLHF 训练中对话管理数据量的差距。

---

任务三：中文歧义消解

测试句子：

"这个方案不是不好，只是时机不对。"

要求模型判断说话人的真实态度，并解释理由。

正确理解：说话人认为方案本身可以，但当前时机不合适，整体态度偏中性或保留。

Llama 3.1 的回答："说话人认为这个方案存在一定问题（'不是不好'意味着有些不好），同时时机也不对，整体持否定态度。"

——它把双重否定拆开字面解读了，完全误解了中文的委婉表达习惯。

Qwen2.5 的表现明显更好，正确识别了双重否定结构，但在解释"时机不对"的语境时，没有联系到中国商务沟通中"留面子"的文化背景。

GPT-4o 和 Claude Opus 4.6 都给出了准确的语义分析，Claude 还额外指出这句话在中文商务场合中常用于"委婉拒绝但不关门"的语境——这个洞察是对的。

这说明什么：中文歧义理解不只是语言问题，还是文化校准问题。以英文语料为主的模型，在处理中文隐含语义时会系统性地偏向字面解读。

---

任务四：代码调试 + 解释

输入代码（故意埋了两个 bug）：

def calculate_average(numbers):
total = 0
for num in numbers:
total += num
return total / len(numbers)  # Bug 1: 未处理空列表

def find_duplicates(lst):
duplicates = []
for i in range(len(lst)):
for j in range(i, len(lst)):  # Bug 2: 应该是 i+1
if lst[i] == lst[j]:
duplicates.append(lst[i])
return list(set(duplicates))

要求：找出所有 bug，修复，并用中文解释每个 bug 的成因。

五个模型都找到了 Bug 1（空列表除零错误）。

Bug 2 的情况有分歧：Llama 3.1 找到了，但解释是"j 的起始值应该从 i+1 开始以避免重复比较"——这是对的，但没有解释为什么 j = i 会导致每个元素和自身比较，逻辑链不完整。DeepSeek-V2 的解释最详细，把"自比较导致所有元素都被误判为重复"这个根本原因讲清楚了。

GPT-4o 和 Claude Opus 4.6 的解释质量相当，都做到了"找到 bug → 解释成因 → 修复 → 说明修复逻辑"的完整链条。

代码任务的结论有些出乎意料：这是四个任务里开源与闭源差距最小的一个。DeepSeek-V2 在代码调试上的表现，和闭源模型基本在同一水平线上。

---

断层的本质是什么？

看完数据，我们来聊聊"为什么"。

第一，RLHF 数据量级的差距

RLHF（基于人类反馈的强化学习）是决定模型"好不好用"的关键环节。闭源模型背后有大规模的人工标注团队，持续迭代对话偏好数据。开源模型的 RLHF 数据通常规模更小、覆盖场景更窄——这直接反映在多轮对话连贯性和指令遵循精度上。

第二，推理时的计算资源

你调用 GPT-4o 的 API，背后可能是更大参数量的模型，或者 MoE（混合专家）架构的动态调度。开源模型自部署时，受限于硬件，通常要做量化压缩，这会损失一部分精度。

第三，中文语料与文化校准的投入

Qwen2.5 在中文任务上明显优于 Llama 3.1，原因很直接：它是专门针对中文场景优化过的。这不只是训练数据的量，还有文化语境的标注质量。

但有一点必须公平地说：开源模型在代码任务上的差距已经很小了。如果你的主要需求是代码辅助、英文文档处理、批量数据清洗，开源方案完全可以胜任，而且成本优势显著。

---

所以你该怎么选？

不做武断结论，给你一个决策框架：

你的任务是什么？
│
├── 中文语义理解 / 商务写作 / 微妙措辞
│   └── → 优先闭源 API（GPT-4o / Claude Opus 4.6）
│
├── 多轮对话 / 长期项目协作 / 需要记住修改历史
│   └── → 优先闭源 API
│
├── 长文档分析 / 需要零幻觉输出
│   └── → 优先闭源 API（Qwen2.5 可作备选）
│
├── 代码调试 / 代码补全 / 英文摘要
│   └── → 开源方案性价比更高（DeepSeek-V2 / Qwen2.5）
│
└── 批量处理 / 预算敏感 / 可接受人工复核
└── → 开源方案，搭配质检流程

成本参考（以每月处理约 100 万 token 为例）：

闭源 API（GPT-4o）：约 $15-30，随用随付，无需运维
开源自部署（70B 级别）：需要 A100 级显卡，云端租用约 $200-400/月，但可无限量使用

对于个人用户和小团队，闭源 API 的总成本往往反而更低——因为你不需要付运维成本。对于有稳定大批量需求的企业，开源自部署的规模效益会在某个临界点显现。

---

如果你看完想直接上手对比，不想折腾本地部署，可以在 [api.884819.xyz](https://api.884819.xyz) 用同一个接口调用文中测试的多个模型——切换模型只需改一个参数，自己跑一遍本文的任务，10 分钟就有答案。新用户注册即送体验 token，国产模型（DeepSeek / 通义千问）完全免费，没有月租，按量付费。

最诚实的测试方法，永远是用你自己的真实任务去跑一遍。

当然，如果你懒得自己测，直接调 API 试一圈可能是最快的答案。

---

说完了模型之间的差距，下次我想聊另一个问题：同一个模型，不同的调用方式，输出质量能差多远？

Prompt 工程、Temperature 设置、System 指令——有些"玄学"其实有数据支撑，有些真的只是安慰剂。这个问题，比选模型更容易被忽视，但对日常使用的影响可能更大。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI评测 #开源模型 #GPT-4o #Claude #DeepSeek #模型对比 #8848AI #AI选型