Sam Altman说"真的好多了"——我用4类真实任务验证了这句话
本文最后更新于 2026-05-19,文章内容可能已经过时。
Sam Altman说"真的好多了"——我用4类真实任务验证了这句话
Sam Altman发那条推文的时候,我的第一反应是:
"上次他这么说是什么时候?那次我信了。"
不是酸,是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、可复现的方法,而不是"感觉好像顺滑了一点点"这种主观印象。
测试结论先放这里:这次更新是真实的,但不均匀。有些地方让我眼前一亮,有些地方我几乎感知不到任何变化。 如果你只是想知道"值不值得现在切换",可以直接跳到第五章。如果你想知道"哪里好了、好在哪",跟我一起往下看。
---
一、测试方法论:我怎么保证这不是"感觉测评"
在进入具体任务之前,先说清楚测试框架,这很重要——否则后面所有结论都是空谈。
测试原则:- 同一套prompt:每个任务使用完全相同的输入,新旧版本各跑一次,不根据版本调整措辞
- 4类任务覆盖主流场景:长文档理解、代码调试、中文写作、多轮对话——这四类基本覆盖了90%的日常使用场景
- 不做基准测试:我不引用任何我无法验证的benchmark数据,只说我自己跑出来的体感结论
- 有褒有贬:如果某个任务没有感知到变化,我会直说
⚠️ 说明:本文所有对比均基于实际使用体验,不引用未经验证的官方数据或第三方评测分数。
---
二、4类任务逐一拆解
任务一:长文档理解与摘要(感知最明显 ⭐⭐⭐⭐⭐)
测试素材:一份约8000字的产品需求文档(PRD),包含大量交叉引用、条件分支逻辑,以及几处故意埋入的前后矛盾。 使用的prompt模板(可直接复现):请阅读以下文档,完成三件事:
1. 用不超过200字概括核心需求
2. 列出文档中所有存在歧义或前后矛盾的地方
3. 如果你是产品经理,你会优先追问哪3个问题?
[文档内容粘贴于此]
旧版输出:摘要部分完成得中规中矩,但在"找矛盾"这个任务上漏掉了两处,追问的3个问题也比较表面,像是从文档标题里提炼出来的,没有深入到逻辑层。
新版输出:摘要质量相近,但"找矛盾"这一步明显更准——它不仅找出了我预设的矛盾点,还额外指出了一处我自己写的时候没注意到的逻辑漏洞。追问的3个问题也更有针对性,直接指向了文档中最模糊的决策节点。
结论:这是这次更新感知最强的地方。模型对"文档内部一致性"的检验能力有了明显提升,不再只是做表面摘要,而是真的在"读懂"文档结构。对于经常处理长文档的用户来说,这个变化值得认真对待。
---
任务二:代码调试与解释(有进步,但有限 ⭐⭐⭐)
测试素材:一段有3个bug的Python代码,bug类型分别是:类型错误、边界条件未处理、逻辑错误(最隐蔽)。# 测试代码(含3处bug)
def calculate_average(numbers):
total = 0
for num in numbers:
total += num
return total / len(numbers) # Bug 1: 未处理空列表
def find_duplicates(lst):
seen = []
duplicates = []
for item in lst:
if item in seen:
duplicates.append(item)
seen.append(item) # Bug 2: 应该用 set 提升性能,且逻辑有误
return duplicates
def process_data(data):
result = []
for i in range(len(data)):
if data[i] > 0:
result.append(data[i] * 2)
elif data[i] = 0: # Bug 3: 赋值符号用错,应为 ==
result.append(0)
return result
使用的prompt模板:
请找出以下代码中的所有bug,
对每个bug:
1. 说明bug的位置和类型
2. 解释为什么这是个问题
3. 给出修复方案
对比结论:
两个版本都找出了Bug 1和Bug 3,这两个属于"经典错误",任何稍好的模型都能发现。差距在Bug 2——旧版给出的解释停留在"可以用set优化性能"这个层面,没有指出逻辑错误本身;新版则明确指出了seen列表的追加顺序导致第一次出现就被误判的逻辑问题,解释更准确。
---
任务三:中文写作与润色(感知最弱 ⭐⭐)
说实话,这是我测完最失望的部分——不是变差了,是几乎没变化。
测试素材:一段约500字的商业邮件草稿,要求润色为更正式、更有说服力的版本。 使用的prompt模板:请将以下邮件润色为正式商务风格:
要求:
- 保持核心意思不变
- 语气专业但不生硬
- 删除冗余表达
- 如有必要可以重组段落结构
[邮件内容]
对比结论:两个版本的输出质量非常接近,几乎到了"如果不标注版本号,我可能分辨不出来"的程度。中文写作润色这个任务,旧版本已经做得相当好,新版本的提升空间本来就有限。
这里要说一句公道话:并不是所有任务都需要"更好",有些任务已经在一个很高的基线上了。 感知弱不等于退步,只是进步空间已经很小。
---
任务四:多轮对话逻辑连贯性(最难量化,但有惊喜 ⭐⭐⭐⭐)
这是我测试前最没把握、测试后最惊喜的部分。
测试设计:设计了一个7轮对话场景——模拟"帮我规划一次旅行"的完整对话流程,中途故意插入一个"改变需求"的转折(第4轮说"其实我不想去日本了,换成东南亚"),然后观察后续几轮模型是否能干净地切换语境、不再提及日本相关内容。 旧版表现:在第5轮之后,模型依然偶尔出现"正如我们之前讨论的日本行程"这类表述,说明上下文管理存在"残影"——旧的语境没有被完全清除。 新版表现:需求切换之后,模型在后续对话中完全没有再提及日本,而且在第6轮主动总结了"基于你调整后的东南亚计划"——它不只是被动遗忘,而是主动确认了语境切换。 结论:多轮对话的上下文管理能力提升明显,特别是在"需求中途变更"这种边界场景下的处理更稳。这对于把AI当作长期工作助手、而不是一次性问答工具的用户来说,是这次更新最实用的改变。---
三、横向总结:进步曲线在哪里?
| 任务类型 | 进步幅度 | 最明显的变化点 | | 长文档理解与摘要 | ⭐⭐⭐⭐⭐ 强 | 内部一致性检验、逻辑矛盾识别 | | 代码调试与解释 | ⭐⭐⭐ 中 | 隐蔽逻辑错误的识别精度 | | 中文写作与润色 | ⭐⭐ 弱 | 几乎无感知,基线本就较高 | | 多轮对话连贯性 | ⭐⭐⭐⭐ 较强 | 需求变更后的语境切换能力 |看完这张表,你可能会发现一个规律:基础能力的天花板提升有限,但"边界模糊地带"的处理明显更稳。
什么是"边界模糊地带"?就是那些没有标准答案、需要模型自己判断"什么才是对的"的任务——比如找出文档里的隐性矛盾、处理多轮对话中的需求漂移、识别代码里的逻辑陷阱。
这才是这次更新真正的价值所在:不是让简单任务更简单,而是让困难任务不那么容易翻车。
---
四、什么样的用户能感知到这次更新?
不同用户的感知差异,比更新本身更值得讨论。
重度工作流用户(每天3小时以上):感知最强。如果你的工作涉及长文档处理、复杂代码审查、或者需要AI全程陪跑一个项目,这次更新对你的实际工作效率有实质帮助。建议现在就升级,不用等。 轻量日常用户(偶尔问问题、写写邮件):感知很弱。你可能用了一周也感觉不出差别。对你来说,这次更新更多是"保底"——在你偶尔遇到复杂问题的时候,它能给出更好的答案,但你不一定有机会触发这个场景。 API开发者:这是最值得关注的群体。如果你在构建基于大模型的应用,多轮对话连贯性和长文档理解的提升会直接影响你的产品体验。建议做一轮A/B测试,用你自己的业务场景验证。顺带说一句——测试过程中我用的是 [api.884819.xyz](https://api.884819.xyz),国内直连、支持最新模型版本,这次测试的新版能力在这里都能跑到。如果你也想自己复现文中的测试prompt,这是目前我用下来最稳的入口。注册不需要邮箱,用户名+密码直接上,新用户注册即送体验token,国产模型(Deepseek、千问等)完全免费,没有月租。
---
五、值不值得现在切换/升级?
给一个明确的建议,不模糊:
值得现在切换的情况:- 你经常处理超过3000字的长文档
- 你需要AI帮你做代码审查(不只是写代码)
- 你在用AI做多轮、长周期的项目协作
- 你主要用AI写短文案、回邮件、做简单问答
- 你对中文写作质量的要求是核心诉求
- 你是API开发者但还没有具体的业务场景可以测试
总体来说,这次更新是一次扎实但不惊艳的进步。Altman说"真的好多了"——我愿意给这句话打7分。不是营销话术,但也没有他说的那么戏剧化。
---
写在最后
测试完这4个任务,我注意到一个有意思的现象:
新版本在"模糊指令"下的表现,比"精确指令"提升更明显。 也就是说,你的prompt越随意,它进步越大;你越认真写prompt,反而感知越弱。这背后的逻辑是什么?这是模型在变聪明,还是在变"会猜"?在模型越来越强的今天,我们还需要认真学prompt engineering吗?
下篇我打算专门聊这个问题。答案可能会让你意外。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI测评 #ChatGPT #GPT #提示词工程 #AI工具 #8848AI #人工智能 #AI效率