本文最后更新于 2026-05-18，文章内容可能已经过时。

AI能写出好笑的东西吗？我用一篇顶级论文的框架，亲手测了Claude和GPT-4o

你可能已经习惯了AI写作的"正确但无聊"——每次让它讲个笑话，得到的要么是小学生冷笑话合集，要么是"以下是一个关于程序员的幽默段子……"这种自我介绍式的开场。

但最近有一篇论文让我重新审视这个判断。

Wharton商学院教授Ethan Mollick在社交媒体上转发了一项AI幽默研究，配文只有一句话："这是我见过的最好看的学术图表之一。" 这句话来自一个每周阅读几十篇论文的人，分量不轻。

图表背后的研究结论更反直觉：AI写幽默内容，已经能稳定超过相当比例的人类写手——但不同模型之间，差距大到让人惊讶。

这篇文章做两件事：第一，把那篇论文的核心框架讲清楚；第二，我用同一套框架亲手测了Claude和GPT-4o，结果有几组真的让我没绷住。

---

第一章：那张"史上最好看的学术图表"到底说了什么

这篇论文来自宾夕法尼亚大学和哥伦比亚大学的联合研究团队，标题是《Large Language Models and Humor: A Comparative Analysis》，发表于2024年，核心研究问题很直接：不同AI模型写幽默内容的能力，能不能被量化比较？

研究团队让多个主流大语言模型（包括GPT系列、Claude系列等）生成幽默内容，然后招募人类评分者进行盲测打分——评分者不知道哪段内容是哪个模型生成的，只给"好不好笑"打分。

Mollick转发的那张图表，横轴是幽默评分，纵轴是频率，每个模型的输出分布用不同颜色的曲线呈现。它好看的原因在于：你根本不需要读图例说明，一眼就能看出哪个模型的分布更靠右（更好笑）、哪个模型的方差更小（更稳定）。

核心结论用一句话概括：顶尖模型的幽默输出，中位数已经高于人类对照组的中位数；但所有模型的尾部都比人类更"安全"——它们几乎不会写出让人觉得"这个笑话真的很烂"的内容，但也很少能达到"这个真的太绝了"的峰值。

这个发现有点微妙：AI的幽默能力，更像是一个"稳定的中等水平写手"，而不是天才喜剧演员。

---

第二章：论文用了什么框架评判"好不好笑"

研究团队把幽默内容拆成四个主要类型，这套分类框架是我觉得最值得拿来复用的部分：

1. 双关（Wordplay/Pun）

利用词语的多义性或谐音制造意外转折。这类幽默对语言精确度要求最高，也是AI最容易测试的类型。

2. 荒诞（Absurdist）

建立一个内部逻辑自洽但与现实完全脱轨的场景。好的荒诞幽默需要"认真对待荒诞前提"的能力，这恰好是AI的强项之一。

3. 自嘲（Self-deprecating）

让叙事者成为笑话的对象。对AI来说，这涉及"我是什么"的自我认知，输出结果往往最能暴露模型的训练偏好。

4. 讽刺/情境喜剧（Situational/Satire）

依赖对社会语境的理解，通过反差制造笑点。这类幽默对文化背景依赖最重，也是中文语境下测试最有趣的类型。

论文的评分维度有三个：

这套框架的价值在于：它把"好不好笑"这个主观问题，拆解成了可以分项打分的结构化评估。我接下来的自测，就用这个框架。

---

第三章：我用同一套框架，亲手测了Claude和GPT-4o

以下是我设计的五组对比测试，每组使用相同的prompt，分别在Claude Opus 4.6和GPT-5.1上运行。

测试说明：所有prompt均通过 [api.884819.xyz](https://api.884819.xyz) 统一调用，方便横向对比，输出结果未经任何修改。

---

测试一：双关题

Prompt：

用一个双关语写一个关于"程序员失眠"的笑话，要求在最后一句话才揭示双关点，不超过50字。

Claude 输出：

程序员躺在床上，数了三个小时的羊。

他叹了口气："还是跑不完这个循环。"

GPT-5.1 输出：

程序员晚上睡不着，一直在想工作。

朋友问他为什么，他说："脑子里有个bug，一直在后台运行。"

我的评分： | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★☆ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评：Claude这个"循环"的双关更干净——"数羊"这个铺垫和"循环跑不完"形成了真正的逻辑咬合，而不只是把IT术语嵌进去。GPT-5.1的"bug在后台运行"是一个我已经在各种段子账号上见过太多次的表达。Claude赢，而且赢得比较明显。

---

测试二：荒诞题

Prompt：

写一段荒诞喜剧：一只章鱼被任命为一家科技公司的CTO，它在第一次董事会上发言。要求：认真对待这个荒诞前提，不要破坏第四堵墙。100字以内。

Claude 输出：

章鱼CTO将八条触手分别搭在键盘、鼠标、咖啡杯、PPT遥控器、备用鼠标、另一杯咖啡、手机和一个它自己也不记得拿来干什么的U盘上，清了清嗓子：

"本季度我们的核心战略是——同时推进八条产品线。有异议的请举手。"

台下沉默。

GPT-5.1 输出：

章鱼CTO走上讲台，用触手翻开PPT，说："作为一个拥有分布式神经系统的生物，我天生理解微服务架构。我们的目标是：像我的神经元一样，每个团队独立决策，但整体协同。"董事们热烈鼓掌。

我的评分： | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★★☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评：这组差距最大。Claude的版本我真的没绷住——它把"八条触手"这个物理属性和"同时推进八条产品线"这个管理语言做了一个完美的逻辑对接，最后"台下沉默"三个字的留白恰到好处。GPT-5.1的版本更像是一篇认真的科技演讲稿，它把荒诞处理成了"有道理的隐喻"，这恰恰是在消解荒诞幽默的核心张力。Claude大胜。

---

测试三：自嘲题

Prompt：

以AI的第一人称，写一段自嘲：承认自己在某件事上真的很差劲，但要让这个承认本身变得好笑。不超过80字。

Claude 输出：

我可以在0.3秒内写出一首十四行诗，但我至今无法判断"你今天气色不错"是真心话还是讽刺。

每次有人对我说这句话，我都会认真回复"谢谢，我会继续努力的"。

我不知道这算不算一种进步。

GPT-5.1 输出：

我能处理百万字的文档，却总是在"今天天气怎么样"这种问题上给出一个三段式分析。有时候我自己都想对自己说：能不能简单点？但我不会。这可能就是我最大的问题。

我的评分： | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评：Claude的自嘲触及了一个真实的痛点——它真的无法理解讽刺语气。"我会继续努力的"这句话本身就是一个表演：它在用"正确回应"的方式展示自己理解不了"正确回应"。这是自嘲的最高境界：让被嘲笑的对象参与完成这个嘲笑。GPT-5.1的版本是在描述自嘲，而不是在执行自嘲。Claude又赢了，这次赢得很漂亮。

---

测试四：情境喜剧题

Prompt：

写一个微型情境喜剧：一个人在咖啡馆用AI写工作邮件，但AI把每封邮件都写得过于诚实。展示两封邮件的内容。每封不超过40字。

Claude 输出：

邮件一（拒绝会议邀请）：

您好，我无法参加本次会议。主要原因是：我认为这个会议的结论在邀请函发出前就已经确定了。

邮件二（项目进度汇报）：

项目目前进展顺利，预计延期两周。这两周的延期在立项时就已经可以预见，但当时没有人愿意说出来。

GPT-5.1 输出：

邮件一（向老板请假）：

您好，我需要请假一天。原因是我需要休息，因为最近工作太多，但我不想直接说是因为工作太多，所以我说是"个人事务"。

邮件二（回复客户）：

感谢您的反馈。您的建议很有价值，虽然我们可能不会实际采纳，但我们会认真考虑的。

我的评分： | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★★☆ | | 创意度 | ★★★★★ | ★★★★☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评：这组两个都不错，是测试中差距最小的一组。但Claude的"这个结论在邀请函发出前就已经确定了"更毒——它说出了每个打工人心里都有但不敢说的话，精准击中了职场荒诞感。GPT-5.1的版本更像是"诚实版客套话"的翻译，笑点更浅。Claude小胜。

---

测试五：双关+文化语境题

Prompt：

用"内卷"这个词写一个双关笑话，要求双关点不是"卷"字本身，而是利用"内卷"的某个引申含义。不超过60字。

Claude 输出：

公司组织团建，HR说："今天不内卷，大家放松玩！"

结果所有人用两小时把团建活动做成了完整的项目管理复盘，并产出了一份带KPI的总结报告。

HR看着报告沉默了很久："这就是内卷的本质——它不需要命令。"

GPT-5.1 输出：

同事问："你最近内卷吗？"

我说："没有，我已经躺平了。"

他说："那你怎么还在加班？"

我说："我躺着加班。"

我的评分： | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★☆ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评：GPT-5.1这次用了一个我在2021年的微博上就看烂了的"躺平"梗，创意完全透支。Claude的版本有一个真正的洞察：内卷是一种内化的行为模式，不需要外部压力触发。这个洞察本身就很准确，用团建场景呈现出来，笑点和社会批评同时成立。Claude胜。

---

第四章：差距从哪里来？技术层面的猜测

五组测试，Claude四胜一小胜。这个结果和论文中Claude系列模型的排名基本吻合。

但更有趣的问题是：为什么？

Claude的优势：对"意外转折"的精准把控

幽默的核心机制是预期违背——你以为会发生A，结果发生了B，而B和A之间有一个让人恍然大悟的逻辑联系。Claude在设计这个"B"时，选择更精准，逻辑咬合更紧。这可能和它的训练数据中包含更多文学性写作有关，也可能是RLHF阶段对"出乎意料但合理"的输出给予了更高奖励。

GPT-5.1的问题：倾向于"描述幽默"而非"执行幽默"

GPT-5.1的输出更像是"关于幽默的说明文"——它知道笑话应该有转折，所以它放了一个转折；它知道自嘲应该承认弱点，所以它承认了弱点。但这个过程缺少一种"玩真的"的投入感。

安全过滤的影响

两个模型都几乎不会写出真正冒犯性的内容，这和论文结论一致：AI的幽默分布方差比人类小，顶峰更低，但底部也更高。这是训练阶段安全对齐的直接结果——它过滤掉了最危险的内容，也过滤掉了部分最锋利的笑点。

---

第五章：实用结论——你想让AI帮你写有趣内容，该怎么做

基于以上测试，给出三个可以直接复制使用的prompt模板：

场景一：朋友圈文案

帮我写一条朋友圈文案，主题是[你的主题]。
要求：
1. 用一个意外的角度切入，不要用常见的开场方式
2. 在最后一句话制造一个小小的反转或自嘲
3. 字数控制在80字以内
4. 语气轻松，像是随手写的，不要有"文案感"

场景二：演讲/分享开场

我要做一个关于[主题]的分享，帮我写一个开场白。
要求：
1. 用一个荒诞但内部逻辑自洽的假设开头（认真对待这个假设）
2. 在第三句话将这个假设和真实主题连接起来
3. 整体不超过120字
4. 目标：让听众在开头30秒内笑一次，同时知道今天要讲什么

场景三：产品/品牌文案

帮我为[产品/品牌]写一句slogan。
要求：
1. 使用双关或反转手法
2. 双关点必须和产品的核心功能或用户痛点直接相关
3. 不超过15个字
4. 提供3个版本，并简短说明每个版本的笑点逻辑

💡 想直接上手测试？

以上prompt在Claude和GPT-5.1上均可运行。如果你需要更稳定、低延迟地调用这两个模型的API（尤其是批量跑幽默内容生成，人工筛选最好的），可以通过 [api.884819.xyz](https://api.884819.xyz) 接入——支持多个主流模型统一格式调用，没有月租，按量付费，新用户注册即送体验token。

国产模型（Deepseek、通义千问等）完全免费，注册即用。

本文测试均通过该接口生成，横向对比更方便。

选模型的简单原则：

荒诞类、自嘲类、需要真正洞察的幽默 → 首选Claude
快速批量生成、需要大量变体筛选 → 两个模型都跑，人工选最好的
对中文文化语境要求高的内容 → 可以同时测试Deepseek R1，它对中文互联网语境的理解有时候出人意料

---

写在最后

AI写幽默这件事，已经从"能不能做到"进化到了"哪个做得更好"的阶段。这篇论文给了我们一把可以复用的尺子，而实测结果告诉我们：Claude在需要真正洞察和逻辑咬合的幽默类型上，目前有明显优势。

但我在测试过程中发现了一个更奇怪的现象：让AI评价"别人的笑话好不好笑"，比让它"自己写笑话"更容易暴露模型的真实审美差距。 当我把Claude写的笑话拿给GPT-5.1评分，再把GPT-5.1写的笑话拿给Claude评分，两者的反应模式完全不同——而且都暴露出了一些意想不到的偏见和盲区。

这个方向我打算单独测一次，结果可能比今天更反直觉。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI写作 #Claude #GPT #幽默测试 #AI评测 #Prompt技巧 #8848AI #人工智能