本文最后更新于 2026-05-19,文章内容可能已经过时。

Sam Altman说"真的好多了"——我用4类真实任务验证了这句话

Sam Altman发那条推文的时候,我的第一反应是:

"上次他这么说是什么时候?那次我信了。"

不是酸,是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、可复现的方法,而不是"感觉好像顺滑了一点点"这种主观印象。

测试结论先放这里:这次更新是真实的,但不均匀。有些地方让我眼前一亮,有些地方我几乎感知不到任何变化。 如果你只是想知道"值不值得现在切换",可以直接跳到第五章。如果你想知道"哪里好了、好在哪",跟我一起往下看。

---

一、测试方法论:我怎么保证这不是"感觉测评"

在进入具体任务之前,先说清楚测试框架,这很重要——否则后面所有结论都是空谈。

测试原则:
  • 同一套prompt:每个任务使用完全相同的输入,新旧版本各跑一次,不根据版本调整措辞
  • 4类任务覆盖主流场景:长文档理解、代码调试、中文写作、多轮对话——这四类基本覆盖了90%的日常使用场景
  • 不做基准测试:我不引用任何我无法验证的benchmark数据,只说我自己跑出来的体感结论
  • 有褒有贬:如果某个任务没有感知到变化,我会直说
⚠️ 说明:本文所有对比均基于实际使用体验,不引用未经验证的官方数据或第三方评测分数。

---

二、4类任务逐一拆解

任务一:长文档理解与摘要(感知最明显 ⭐⭐⭐⭐⭐)

测试素材:一份约8000字的产品需求文档(PRD),包含大量交叉引用、条件分支逻辑,以及几处故意埋入的前后矛盾。 使用的prompt模板(可直接复现):
请阅读以下文档,完成三件事:

1. 用不超过200字概括核心需求

2. 列出文档中所有存在歧义或前后矛盾的地方

3. 如果你是产品经理,你会优先追问哪3个问题?

[文档内容粘贴于此]

旧版输出:摘要部分完成得中规中矩,但在"找矛盾"这个任务上漏掉了两处,追问的3个问题也比较表面,像是从文档标题里提炼出来的,没有深入到逻辑层。 新版输出:摘要质量相近,但"找矛盾"这一步明显更准——它不仅找出了我预设的矛盾点,还额外指出了一处我自己写的时候没注意到的逻辑漏洞。追问的3个问题也更有针对性,直接指向了文档中最模糊的决策节点。 结论:这是这次更新感知最强的地方。模型对"文档内部一致性"的检验能力有了明显提升,不再只是做表面摘要,而是真的在"读懂"文档结构。对于经常处理长文档的用户来说,这个变化值得认真对待。

---

任务二:代码调试与解释(有进步,但有限 ⭐⭐⭐)

测试素材:一段有3个bug的Python代码,bug类型分别是:类型错误、边界条件未处理、逻辑错误(最隐蔽)。
# 测试代码(含3处bug)

def calculate_average(numbers):

total = 0

for num in numbers:

total += num

return total / len(numbers) # Bug 1: 未处理空列表

def find_duplicates(lst):

seen = []

duplicates = []

for item in lst:

if item in seen:

duplicates.append(item)

seen.append(item) # Bug 2: 应该用 set 提升性能,且逻辑有误

return duplicates

def process_data(data):

result = []

for i in range(len(data)):

if data[i] > 0:

result.append(data[i] * 2)

elif data[i] = 0: # Bug 3: 赋值符号用错,应为 ==

result.append(0)

return result

使用的prompt模板
请找出以下代码中的所有bug,

对每个bug:

1. 说明bug的位置和类型

2. 解释为什么这是个问题

3. 给出修复方案

对比结论

两个版本都找出了Bug 1和Bug 3,这两个属于"经典错误",任何稍好的模型都能发现。差距在Bug 2——旧版给出的解释停留在"可以用set优化性能"这个层面,没有指出逻辑错误本身;新版则明确指出了seen列表的追加顺序导致第一次出现就被误判的逻辑问题,解释更准确。

结论:代码能力有进步,但主要体现在对"隐蔽逻辑错误"的识别精度上,而不是整体能力的跃升。如果你的日常代码任务以"找显眼bug"为主,感知会比较弱;如果你经常处理复杂业务逻辑,这个进步值得关注。

---

任务三:中文写作与润色(感知最弱 ⭐⭐)

说实话,这是我测完最失望的部分——不是变差了,是几乎没变化。

测试素材:一段约500字的商业邮件草稿,要求润色为更正式、更有说服力的版本。 使用的prompt模板
请将以下邮件润色为正式商务风格:

要求:

  • 保持核心意思不变
  • 语气专业但不生硬
  • 删除冗余表达
  • 如有必要可以重组段落结构

[邮件内容]

对比结论:两个版本的输出质量非常接近,几乎到了"如果不标注版本号,我可能分辨不出来"的程度。中文写作润色这个任务,旧版本已经做得相当好,新版本的提升空间本来就有限。
这里要说一句公道话:并不是所有任务都需要"更好",有些任务已经在一个很高的基线上了。 感知弱不等于退步,只是进步空间已经很小。

---

任务四:多轮对话逻辑连贯性(最难量化,但有惊喜 ⭐⭐⭐⭐)

这是我测试前最没把握、测试后最惊喜的部分。

测试设计:设计了一个7轮对话场景——模拟"帮我规划一次旅行"的完整对话流程,中途故意插入一个"改变需求"的转折(第4轮说"其实我不想去日本了,换成东南亚"),然后观察后续几轮模型是否能干净地切换语境、不再提及日本相关内容。 旧版表现:在第5轮之后,模型依然偶尔出现"正如我们之前讨论的日本行程"这类表述,说明上下文管理存在"残影"——旧的语境没有被完全清除。 新版表现:需求切换之后,模型在后续对话中完全没有再提及日本,而且在第6轮主动总结了"基于你调整后的东南亚计划"——它不只是被动遗忘,而是主动确认了语境切换结论:多轮对话的上下文管理能力提升明显,特别是在"需求中途变更"这种边界场景下的处理更稳。这对于把AI当作长期工作助手、而不是一次性问答工具的用户来说,是这次更新最实用的改变。

---

三、横向总结:进步曲线在哪里?

| 任务类型 | 进步幅度 | 最明显的变化点 | | 长文档理解与摘要 | ⭐⭐⭐⭐⭐ 强 | 内部一致性检验、逻辑矛盾识别 | | 代码调试与解释 | ⭐⭐⭐ 中 | 隐蔽逻辑错误的识别精度 | | 中文写作与润色 | ⭐⭐ 弱 | 几乎无感知,基线本就较高 | | 多轮对话连贯性 | ⭐⭐⭐⭐ 较强 | 需求变更后的语境切换能力 |

看完这张表,你可能会发现一个规律:基础能力的天花板提升有限,但"边界模糊地带"的处理明显更稳

什么是"边界模糊地带"?就是那些没有标准答案、需要模型自己判断"什么才是对的"的任务——比如找出文档里的隐性矛盾、处理多轮对话中的需求漂移、识别代码里的逻辑陷阱。

这才是这次更新真正的价值所在:不是让简单任务更简单,而是让困难任务不那么容易翻车。

---

四、什么样的用户能感知到这次更新?

不同用户的感知差异,比更新本身更值得讨论。

重度工作流用户(每天3小时以上):感知最强。如果你的工作涉及长文档处理、复杂代码审查、或者需要AI全程陪跑一个项目,这次更新对你的实际工作效率有实质帮助。建议现在就升级,不用等。 轻量日常用户(偶尔问问题、写写邮件):感知很弱。你可能用了一周也感觉不出差别。对你来说,这次更新更多是"保底"——在你偶尔遇到复杂问题的时候,它能给出更好的答案,但你不一定有机会触发这个场景。 API开发者:这是最值得关注的群体。如果你在构建基于大模型的应用,多轮对话连贯性和长文档理解的提升会直接影响你的产品体验。建议做一轮A/B测试,用你自己的业务场景验证。

顺带说一句——测试过程中我用的是 [api.884819.xyz](https://api.884819.xyz),国内直连、支持最新模型版本,这次测试的新版能力在这里都能跑到。如果你也想自己复现文中的测试prompt,这是目前我用下来最稳的入口。注册不需要邮箱,用户名+密码直接上,新用户注册即送体验token,国产模型(Deepseek、千问等)完全免费,没有月租。

---

五、值不值得现在切换/升级?

给一个明确的建议,不模糊:

值得现在切换的情况:
  • 你经常处理超过3000字的长文档
  • 你需要AI帮你做代码审查(不只是写代码)
  • 你在用AI做多轮、长周期的项目协作
可以再等等的情况:
  • 你主要用AI写短文案、回邮件、做简单问答
  • 你对中文写作质量的要求是核心诉求
  • 你是API开发者但还没有具体的业务场景可以测试

总体来说,这次更新是一次扎实但不惊艳的进步。Altman说"真的好多了"——我愿意给这句话打7分。不是营销话术,但也没有他说的那么戏剧化。

---

写在最后

测试完这4个任务,我注意到一个有意思的现象:

新版本在"模糊指令"下的表现,比"精确指令"提升更明显。 也就是说,你的prompt越随意,它进步越大;你越认真写prompt,反而感知越弱。

这背后的逻辑是什么?这是模型在变聪明,还是在变"会猜"?在模型越来越强的今天,我们还需要认真学prompt engineering吗?

下篇我打算专门聊这个问题。答案可能会让你意外。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI测评 #ChatGPT #GPT #提示词工程 #AI工具 #8848AI #人工智能 #AI效率