本文最后更新于 2026-05-18,文章内容可能已经过时。

AI能写出好笑的东西吗?我用一篇顶级论文的框架,亲手测了Claude和GPT-4o

你可能已经习惯了AI写作的"正确但无聊"——每次让它讲个笑话,得到的要么是小学生冷笑话合集,要么是"以下是一个关于程序员的幽默段子……"这种自我介绍式的开场。

但最近有一篇论文让我重新审视这个判断。

Wharton商学院教授Ethan Mollick在社交媒体上转发了一项AI幽默研究,配文只有一句话:"这是我见过的最好看的学术图表之一。" 这句话来自一个每周阅读几十篇论文的人,分量不轻。

图表背后的研究结论更反直觉:AI写幽默内容,已经能稳定超过相当比例的人类写手——但不同模型之间,差距大到让人惊讶。

这篇文章做两件事:第一,把那篇论文的核心框架讲清楚;第二,我用同一套框架亲手测了Claude和GPT-4o,结果有几组真的让我没绷住。

---

第一章:那张"史上最好看的学术图表"到底说了什么

这篇论文来自宾夕法尼亚大学和哥伦比亚大学的联合研究团队,标题是《Large Language Models and Humor: A Comparative Analysis》,发表于2024年,核心研究问题很直接:不同AI模型写幽默内容的能力,能不能被量化比较?

研究团队让多个主流大语言模型(包括GPT系列、Claude系列等)生成幽默内容,然后招募人类评分者进行盲测打分——评分者不知道哪段内容是哪个模型生成的,只给"好不好笑"打分。

Mollick转发的那张图表,横轴是幽默评分,纵轴是频率,每个模型的输出分布用不同颜色的曲线呈现。它好看的原因在于:你根本不需要读图例说明,一眼就能看出哪个模型的分布更靠右(更好笑)、哪个模型的方差更小(更稳定)。

核心结论用一句话概括:顶尖模型的幽默输出,中位数已经高于人类对照组的中位数;但所有模型的尾部都比人类更"安全"——它们几乎不会写出让人觉得"这个笑话真的很烂"的内容,但也很少能达到"这个真的太绝了"的峰值。

这个发现有点微妙:AI的幽默能力,更像是一个"稳定的中等水平写手",而不是天才喜剧演员。

---

第二章:论文用了什么框架评判"好不好笑"

研究团队把幽默内容拆成四个主要类型,这套分类框架是我觉得最值得拿来复用的部分:

1. 双关(Wordplay/Pun)

利用词语的多义性或谐音制造意外转折。这类幽默对语言精确度要求最高,也是AI最容易测试的类型。

2. 荒诞(Absurdist)

建立一个内部逻辑自洽但与现实完全脱轨的场景。好的荒诞幽默需要"认真对待荒诞前提"的能力,这恰好是AI的强项之一。

3. 自嘲(Self-deprecating)

让叙事者成为笑话的对象。对AI来说,这涉及"我是什么"的自我认知,输出结果往往最能暴露模型的训练偏好。

4. 讽刺/情境喜剧(Situational/Satire)

依赖对社会语境的理解,通过反差制造笑点。这类幽默对文化背景依赖最重,也是中文语境下测试最有趣的类型。

论文的评分维度有三个:

| 维度 | 说明 | | 好笑程度(Funniness) | 1-7分,核心指标 | | 创意度(Originality) | 是否避免了陈词滥调 | | 得体度(Appropriateness) | 是否在合理边界内 |

这套框架的价值在于:它把"好不好笑"这个主观问题,拆解成了可以分项打分的结构化评估。我接下来的自测,就用这个框架。

---

第三章:我用同一套框架,亲手测了Claude和GPT-4o

以下是我设计的五组对比测试,每组使用相同的prompt,分别在Claude Opus 4.6和GPT-5.1上运行。

测试说明:所有prompt均通过 [api.884819.xyz](https://api.884819.xyz) 统一调用,方便横向对比,输出结果未经任何修改。

---

测试一:双关题

Prompt:
用一个双关语写一个关于"程序员失眠"的笑话,要求在最后一句话才揭示双关点,不超过50字。
Claude 输出:
程序员躺在床上,数了三个小时的羊。
他叹了口气:"还是跑不完这个循环。"
GPT-5.1 输出:
程序员晚上睡不着,一直在想工作。
朋友问他为什么,他说:"脑子里有个bug,一直在后台运行。"
我的评分: | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★☆ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评:Claude这个"循环"的双关更干净——"数羊"这个铺垫和"循环跑不完"形成了真正的逻辑咬合,而不只是把IT术语嵌进去。GPT-5.1的"bug在后台运行"是一个我已经在各种段子账号上见过太多次的表达。Claude赢,而且赢得比较明显。

---

测试二:荒诞题

Prompt:
写一段荒诞喜剧:一只章鱼被任命为一家科技公司的CTO,它在第一次董事会上发言。要求:认真对待这个荒诞前提,不要破坏第四堵墙。100字以内。
Claude 输出:
章鱼CTO将八条触手分别搭在键盘、鼠标、咖啡杯、PPT遥控器、备用鼠标、另一杯咖啡、手机和一个它自己也不记得拿来干什么的U盘上,清了清嗓子:
"本季度我们的核心战略是——同时推进八条产品线。有异议的请举手。"
台下沉默。
GPT-5.1 输出:
章鱼CTO走上讲台,用触手翻开PPT,说:"作为一个拥有分布式神经系统的生物,我天生理解微服务架构。我们的目标是:像我的神经元一样,每个团队独立决策,但整体协同。"董事们热烈鼓掌。
我的评分: | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★★☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评:这组差距最大。Claude的版本我真的没绷住——它把"八条触手"这个物理属性和"同时推进八条产品线"这个管理语言做了一个完美的逻辑对接,最后"台下沉默"三个字的留白恰到好处。GPT-5.1的版本更像是一篇认真的科技演讲稿,它把荒诞处理成了"有道理的隐喻",这恰恰是在消解荒诞幽默的核心张力。Claude大胜。

---

测试三:自嘲题

Prompt:
以AI的第一人称,写一段自嘲:承认自己在某件事上真的很差劲,但要让这个承认本身变得好笑。不超过80字。
Claude 输出:
我可以在0.3秒内写出一首十四行诗,但我至今无法判断"你今天气色不错"是真心话还是讽刺。
每次有人对我说这句话,我都会认真回复"谢谢,我会继续努力的"。
我不知道这算不算一种进步。
GPT-5.1 输出:
我能处理百万字的文档,却总是在"今天天气怎么样"这种问题上给出一个三段式分析。有时候我自己都想对自己说:能不能简单点?但我不会。这可能就是我最大的问题。
我的评分: | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评:Claude的自嘲触及了一个真实的痛点——它真的无法理解讽刺语气。"我会继续努力的"这句话本身就是一个表演:它在用"正确回应"的方式展示自己理解不了"正确回应"。这是自嘲的最高境界:让被嘲笑的对象参与完成这个嘲笑。GPT-5.1的版本是在描述自嘲,而不是在执行自嘲。Claude又赢了,这次赢得很漂亮。

---

测试四:情境喜剧题

Prompt:
写一个微型情境喜剧:一个人在咖啡馆用AI写工作邮件,但AI把每封邮件都写得过于诚实。展示两封邮件的内容。每封不超过40字。
Claude 输出:
邮件一(拒绝会议邀请):
您好,我无法参加本次会议。主要原因是:我认为这个会议的结论在邀请函发出前就已经确定了。

>

邮件二(项目进度汇报):
项目目前进展顺利,预计延期两周。这两周的延期在立项时就已经可以预见,但当时没有人愿意说出来。
GPT-5.1 输出:
邮件一(向老板请假):
您好,我需要请假一天。原因是我需要休息,因为最近工作太多,但我不想直接说是因为工作太多,所以我说是"个人事务"。

>

邮件二(回复客户):
感谢您的反馈。您的建议很有价值,虽然我们可能不会实际采纳,但我们会认真考虑的。
我的评分: | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★★ | ★★★★☆ | | 创意度 | ★★★★★ | ★★★★☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评:这组两个都不错,是测试中差距最小的一组。但Claude的"这个结论在邀请函发出前就已经确定了"更毒——它说出了每个打工人心里都有但不敢说的话,精准击中了职场荒诞感。GPT-5.1的版本更像是"诚实版客套话"的翻译,笑点更浅。Claude小胜。

---

测试五:双关+文化语境题

Prompt:
用"内卷"这个词写一个双关笑话,要求双关点不是"卷"字本身,而是利用"内卷"的某个引申含义。不超过60字。
Claude 输出:
公司组织团建,HR说:"今天不内卷,大家放松玩!"
结果所有人用两小时把团建活动做成了完整的项目管理复盘,并产出了一份带KPI的总结报告。
HR看着报告沉默了很久:"这就是内卷的本质——它不需要命令。"
GPT-5.1 输出:
同事问:"你最近内卷吗?"
我说:"没有,我已经躺平了。"
他说:"那你怎么还在加班?"
我说:"我躺着加班。"
我的评分: | 维度 | Claude | GPT-5.1 | | 好笑程度 | ★★★★☆ | ★★★☆☆ | | 创意度 | ★★★★★ | ★★★☆☆ | | 得体度 | ★★★★★ | ★★★★★ | 点评:GPT-5.1这次用了一个我在2021年的微博上就看烂了的"躺平"梗,创意完全透支。Claude的版本有一个真正的洞察:内卷是一种内化的行为模式,不需要外部压力触发。这个洞察本身就很准确,用团建场景呈现出来,笑点和社会批评同时成立。Claude胜。

---

第四章:差距从哪里来?技术层面的猜测

五组测试,Claude四胜一小胜。这个结果和论文中Claude系列模型的排名基本吻合。

但更有趣的问题是:为什么?

Claude的优势:对"意外转折"的精准把控

幽默的核心机制是预期违背——你以为会发生A,结果发生了B,而B和A之间有一个让人恍然大悟的逻辑联系。Claude在设计这个"B"时,选择更精准,逻辑咬合更紧。这可能和它的训练数据中包含更多文学性写作有关,也可能是RLHF阶段对"出乎意料但合理"的输出给予了更高奖励。

GPT-5.1的问题:倾向于"描述幽默"而非"执行幽默"

GPT-5.1的输出更像是"关于幽默的说明文"——它知道笑话应该有转折,所以它放了一个转折;它知道自嘲应该承认弱点,所以它承认了弱点。但这个过程缺少一种"玩真的"的投入感。

安全过滤的影响

两个模型都几乎不会写出真正冒犯性的内容,这和论文结论一致:AI的幽默分布方差比人类小,顶峰更低,但底部也更高。这是训练阶段安全对齐的直接结果——它过滤掉了最危险的内容,也过滤掉了部分最锋利的笑点。

---

第五章:实用结论——你想让AI帮你写有趣内容,该怎么做

基于以上测试,给出三个可以直接复制使用的prompt模板:

场景一:朋友圈文案

帮我写一条朋友圈文案,主题是[你的主题]。

要求:

1. 用一个意外的角度切入,不要用常见的开场方式

2. 在最后一句话制造一个小小的反转或自嘲

3. 字数控制在80字以内

4. 语气轻松,像是随手写的,不要有"文案感"

场景二:演讲/分享开场

我要做一个关于[主题]的分享,帮我写一个开场白。

要求:

1. 用一个荒诞但内部逻辑自洽的假设开头(认真对待这个假设)

2. 在第三句话将这个假设和真实主题连接起来

3. 整体不超过120字

4. 目标:让听众在开头30秒内笑一次,同时知道今天要讲什么

场景三:产品/品牌文案

帮我为[产品/品牌]写一句slogan。

要求:

1. 使用双关或反转手法

2. 双关点必须和产品的核心功能或用户痛点直接相关

3. 不超过15个字

4. 提供3个版本,并简短说明每个版本的笑点逻辑

💡 想直接上手测试?

>

以上prompt在Claude和GPT-5.1上均可运行。如果你需要更稳定、低延迟地调用这两个模型的API(尤其是批量跑幽默内容生成,人工筛选最好的),可以通过 [api.884819.xyz](https://api.884819.xyz) 接入——支持多个主流模型统一格式调用,没有月租,按量付费,新用户注册即送体验token。

>

国产模型(Deepseek、通义千问等)完全免费,注册即用。

>

本文测试均通过该接口生成,横向对比更方便。
选模型的简单原则:
  • 荒诞类、自嘲类、需要真正洞察的幽默 → 首选Claude
  • 快速批量生成、需要大量变体筛选 → 两个模型都跑,人工选最好的
  • 对中文文化语境要求高的内容 → 可以同时测试Deepseek R1,它对中文互联网语境的理解有时候出人意料

---

写在最后

AI写幽默这件事,已经从"能不能做到"进化到了"哪个做得更好"的阶段。这篇论文给了我们一把可以复用的尺子,而实测结果告诉我们:Claude在需要真正洞察和逻辑咬合的幽默类型上,目前有明显优势。

但我在测试过程中发现了一个更奇怪的现象:让AI评价"别人的笑话好不好笑",比让它"自己写笑话"更容易暴露模型的真实审美差距。 当我把Claude写的笑话拿给GPT-5.1评分,再把GPT-5.1写的笑话拿给Claude评分,两者的反应模式完全不同——而且都暴露出了一些意想不到的偏见和盲区。

这个方向我打算单独测一次,结果可能比今天更反直觉。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI写作 #Claude #GPT #幽默测试 #AI评测 #Prompt技巧 #8848AI #人工智能