分类: AI工具测评

AI工具测评未读

把Sama的话当提示词，我用GPT-5.5做了一个反向测试 Sama在X上发了一条推文，大意是："我想找那些用GPT-5.5做到了以前不可能做到的事的人。" 你可能刷到过，然后划走了。但我盯着这句话想了一会儿，突然意识到——这句话本身就是一个绝佳的测试框架。与其等别人晒截图，不如把"以前不可能的事

30天前

AI工具测评未读

旗舰模型横评：GPT-5.1 vs Claude Opus 4.6，我替你把坑踩完了

旗舰模型横评：GPT-5.1 vs Claude Opus 4.6，我替你把坑踩完了发布会PPT上的话，我都信过。 "最快的推理速度""最强的编码能力""上下文窗口行业第一"——每次新模型发布，这些标签就像节日彩灯一样挂满了科技媒体的头条。我也不例外，每次都会被吸引进来，然后花上几天时间自己测一遍

30天前

AI工具测评未读

GPT-5.5 Instant 中文高准确性任务实测：这2类放心用，这3类千万别全信

GPT-5.5 Instant 中文高准确性任务实测：这2类放心用，这3类千万别全信我差点因为它犯一个大错。那是一份劳动合同的摘要任务，我把合同原文贴进去，让它提炼违约金条款和赔偿责任。它给出了一段措辞严谨、逻辑清晰的摘要——语气比律师还笃定。但当我对照原文逐条核查时，发现其中一条违约金上限金

30天前

AI工具测评未读

GPT-5.5 真正打开了什么？三个亲测场景告诉你值不值得升级

GPT-5.5 真正打开了什么？三个亲测场景告诉你值不值得升级 Sam Altman 最近发了一条推文，大意是： "我想找到那些用 GPT-5.5 做到了之前根本做不到的事的人——不是'更快更好'，是'以前不可能，现在可以'。" 我第一反应是：这是在收集用户案例做营销素材。但仔细想想，不对。一个

30天前

AI工具测评未读

GPT-5.5 Instant 中文事实准确性实测：10道刁钻题，它答对了几道？

GPT-5.5 Instant 中文事实准确性实测：10道刁钻题，它答对了几道？ "GPT 的幻觉问题已经大幅改善了。" 这句话，我们已经听了不止三次。每次大版本更新，OpenAI 的发布文章里都会出现类似的表述。用户点头，转发，然后过了两天，有人在评论区贴出截图：AI 信誓旦旦地说鲁迅写过"我家

30天前

AI工具测评未读

Grok 4.3 vs GPT-5.5 Instant

Grok 4.3 vs GPT-5.5 Instant：我用15道真实编码题，测出了"最快最聪明"值多少钱 xAI说Grok 4.3是目前最快、推理能力最强的模型。我信了。然后花了两天时间跑完15道题。跑完之后，我想聊聊"最快最聪明"这四个字，在你真实的编码工作流里，到底值多少钱。 --- 第一

30天前

AI工具测评未读

GPT-5.5 Instant 深度测评：我找到了3个明显更好的证据，另外2个让我意外

GPT-5.5 Instant 深度测评：我找到了3个明显更好的证据，另外2个让我意外 4o上线的时候我也写过测评，结论是"够用"。这次我不想再写"够用"了——我想找到"明显更好"的证据。找到了3个，另外2个让我有点意外。 --- ⚠️ 测评说明：本文基于GPT-5.5 Instant正式上线后

30天前

AI工具测评未读

GPT-5.5 Instant 实测：我专门拿 4o 的翻车场景去测，结果出乎意料

GPT-5.5 Instant 实测：我专门拿 4o 的翻车场景去测，结果出乎意料上周我让 GPT-4o 帮我从一份 38 页的合同里提取所有违约条款。它给了我一份看起来很完整的清单——格式整洁，条款编号清晰，我当时还夸了它一句。直到对方律师发来邮件，指出第 27 条的自动续约违约金条款完全没有

30天前

AI工具测评未读

跑分骗了你：我用三个真实场景，测出了开源与闭源模型的真实断层

跑分骗了你：我用三个真实场景，测出了开源与闭源模型的真实断层 "它在榜上排第三，但它把我的 Agent 搞崩了三次。" 这句话是我上个月在一个 AI 工程师群里看到的。发帖的人刚把公司的 AI 工作流从 GPT-4o 切换到某个跑分接近的开源模型——为了省成本。结果上线第一周，Agent 任务失败率

2026-05-05