本文最后更新于 2026-05-19，文章内容可能已经过时。

Sam Altman说"真的好多了"——我用4类真实任务验证了这句话

Sam Altman发那条推文的时候，我的第一反应是：

"上次他这么说是什么时候？那次我信了。"

不是酸，是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、可复现的方法，而不是"感觉好像顺滑了一点点"这种主观印象。

测试结论先放这里：这次更新是真实的，但不均匀。有些地方让我眼前一亮，有些地方我几乎感知不到任何变化。 如果你只是想知道"值不值得现在切换"，可以直接跳到第五章。如果你想知道"哪里好了、好在哪"，跟我一起往下看。

---

一、测试方法论：我怎么保证这不是"感觉测评"

在进入具体任务之前，先说清楚测试框架，这很重要——否则后面所有结论都是空谈。

测试原则：

同一套prompt：每个任务使用完全相同的输入，新旧版本各跑一次，不根据版本调整措辞
4类任务覆盖主流场景：长文档理解、代码调试、中文写作、多轮对话——这四类基本覆盖了90%的日常使用场景
不做基准测试：我不引用任何我无法验证的benchmark数据，只说我自己跑出来的体感结论
有褒有贬：如果某个任务没有感知到变化，我会直说

⚠️ 说明：本文所有对比均基于实际使用体验，不引用未经验证的官方数据或第三方评测分数。

---

二、4类任务逐一拆解

任务一：长文档理解与摘要（感知最明显 ⭐⭐⭐⭐⭐）

测试素材：一份约8000字的产品需求文档（PRD），包含大量交叉引用、条件分支逻辑，以及几处故意埋入的前后矛盾。 使用的prompt模板（可直接复现）：

请阅读以下文档，完成三件事：
1. 用不超过200字概括核心需求
2. 列出文档中所有存在歧义或前后矛盾的地方
3. 如果你是产品经理，你会优先追问哪3个问题？

[文档内容粘贴于此]

旧版输出：摘要部分完成得中规中矩，但在"找矛盾"这个任务上漏掉了两处，追问的3个问题也比较表面，像是从文档标题里提炼出来的，没有深入到逻辑层。 新版输出：摘要质量相近，但"找矛盾"这一步明显更准——它不仅找出了我预设的矛盾点，还额外指出了一处我自己写的时候没注意到的逻辑漏洞。追问的3个问题也更有针对性，直接指向了文档中最模糊的决策节点。结论：这是这次更新感知最强的地方。模型对"文档内部一致性"的检验能力有了明显提升，不再只是做表面摘要，而是真的在"读懂"文档结构。对于经常处理长文档的用户来说，这个变化值得认真对待。

---

任务二：代码调试与解释（有进步，但有限 ⭐⭐⭐）

测试素材：一段有3个bug的Python代码，bug类型分别是：类型错误、边界条件未处理、逻辑错误（最隐蔽）。

# 测试代码（含3处bug）
def calculate_average(numbers):
total = 0
for num in numbers:
total += num
return total / len(numbers)  # Bug 1: 未处理空列表

def find_duplicates(lst):
seen = []
duplicates = []
for item in lst:
if item in seen:
duplicates.append(item)
seen.append(item)  # Bug 2: 应该用 set 提升性能，且逻辑有误
return duplicates

def process_data(data):
result = []
for i in range(len(data)):
if data[i] > 0:
result.append(data[i] * 2)
elif data[i] = 0:  # Bug 3: 赋值符号用错，应为 ==
result.append(0)
return result

使用的prompt模板：

请找出以下代码中的所有bug，
对每个bug：
1. 说明bug的位置和类型
2. 解释为什么这是个问题
3. 给出修复方案

对比结论：

两个版本都找出了Bug 1和Bug 3，这两个属于"经典错误"，任何稍好的模型都能发现。差距在Bug 2——旧版给出的解释停留在"可以用set优化性能"这个层面，没有指出逻辑错误本身；新版则明确指出了seen列表的追加顺序导致第一次出现就被误判的逻辑问题，解释更准确。

结论：代码能力有进步，但主要体现在对"隐蔽逻辑错误"的识别精度上，而不是整体能力的跃升。如果你的日常代码任务以"找显眼bug"为主，感知会比较弱；如果你经常处理复杂业务逻辑，这个进步值得关注。

---

任务三：中文写作与润色（感知最弱 ⭐⭐）

说实话，这是我测完最失望的部分——不是变差了，是几乎没变化。

测试素材：一段约500字的商业邮件草稿，要求润色为更正式、更有说服力的版本。 使用的prompt模板：

请将以下邮件润色为正式商务风格：
要求：
保持核心意思不变
语气专业但不生硬
删除冗余表达
如有必要可以重组段落结构

[邮件内容]

对比结论：两个版本的输出质量非常接近，几乎到了"如果不标注版本号，我可能分辨不出来"的程度。中文写作润色这个任务，旧版本已经做得相当好，新版本的提升空间本来就有限。

这里要说一句公道话：并不是所有任务都需要"更好"，有些任务已经在一个很高的基线上了。 感知弱不等于退步，只是进步空间已经很小。

---

任务四：多轮对话逻辑连贯性（最难量化，但有惊喜 ⭐⭐⭐⭐）

这是我测试前最没把握、测试后最惊喜的部分。

测试设计：设计了一个7轮对话场景——模拟"帮我规划一次旅行"的完整对话流程，中途故意插入一个"改变需求"的转折（第4轮说"其实我不想去日本了，换成东南亚"），然后观察后续几轮模型是否能干净地切换语境、不再提及日本相关内容。 旧版表现：在第5轮之后，模型依然偶尔出现"正如我们之前讨论的日本行程"这类表述，说明上下文管理存在"残影"——旧的语境没有被完全清除。 新版表现：需求切换之后，模型在后续对话中完全没有再提及日本，而且在第6轮主动总结了"基于你调整后的东南亚计划"——它不只是被动遗忘，而是主动确认了语境切换。结论：多轮对话的上下文管理能力提升明显，特别是在"需求中途变更"这种边界场景下的处理更稳。这对于把AI当作长期工作助手、而不是一次性问答工具的用户来说，是这次更新最实用的改变。

---

三、横向总结：进步曲线在哪里？

看完这张表，你可能会发现一个规律：基础能力的天花板提升有限，但"边界模糊地带"的处理明显更稳。

什么是"边界模糊地带"？就是那些没有标准答案、需要模型自己判断"什么才是对的"的任务——比如找出文档里的隐性矛盾、处理多轮对话中的需求漂移、识别代码里的逻辑陷阱。

这才是这次更新真正的价值所在：不是让简单任务更简单，而是让困难任务不那么容易翻车。

---

四、什么样的用户能感知到这次更新？

不同用户的感知差异，比更新本身更值得讨论。

重度工作流用户（每天3小时以上）：感知最强。如果你的工作涉及长文档处理、复杂代码审查、或者需要AI全程陪跑一个项目，这次更新对你的实际工作效率有实质帮助。建议现在就升级，不用等。 轻量日常用户（偶尔问问题、写写邮件）：感知很弱。你可能用了一周也感觉不出差别。对你来说，这次更新更多是"保底"——在你偶尔遇到复杂问题的时候，它能给出更好的答案，但你不一定有机会触发这个场景。 API开发者：这是最值得关注的群体。如果你在构建基于大模型的应用，多轮对话连贯性和长文档理解的提升会直接影响你的产品体验。建议做一轮A/B测试，用你自己的业务场景验证。

顺带说一句——测试过程中我用的是 [api.884819.xyz](https://api.884819.xyz)，国内直连、支持最新模型版本，这次测试的新版能力在这里都能跑到。如果你也想自己复现文中的测试prompt，这是目前我用下来最稳的入口。注册不需要邮箱，用户名+密码直接上，新用户注册即送体验token，国产模型（Deepseek、千问等）完全免费，没有月租。

---

五、值不值得现在切换/升级？

给一个明确的建议，不模糊：

值得现在切换的情况：

你经常处理超过3000字的长文档
你需要AI帮你做代码审查（不只是写代码）
你在用AI做多轮、长周期的项目协作

可以再等等的情况：

你主要用AI写短文案、回邮件、做简单问答
你对中文写作质量的要求是核心诉求
你是API开发者但还没有具体的业务场景可以测试

总体来说，这次更新是一次扎实但不惊艳的进步。Altman说"真的好多了"——我愿意给这句话打7分。不是营销话术，但也没有他说的那么戏剧化。

---

写在最后

测试完这4个任务，我注意到一个有意思的现象：

新版本在"模糊指令"下的表现，比"精确指令"提升更明显。 也就是说，你的prompt越随意，它进步越大；你越认真写prompt，反而感知越弱。

这背后的逻辑是什么？这是模型在变聪明，还是在变"会猜"？在模型越来越强的今天，我们还需要认真学prompt engineering吗？

下篇我打算专门聊这个问题。答案可能会让你意外。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI测评 #ChatGPT #GPT #提示词工程 #AI工具 #8848AI #人工智能 #AI效率