AI工具测评
未读
把Sama的话当提示词,我用GPT-5.5做了一个反向测试
把Sama的话当提示词,我用GPT-5.5做了一个反向测试 Sama在X上发了一条推文,大意是:"我想找那些用GPT-5.5做到了以前不可能做到的事的人。" 你可能刷到过,然后划走了。 但我盯着这句话想了一会儿,突然意识到——这句话本身就是一个绝佳的测试框架。与其等别人晒截图,不如把"以前不可能的事
AI工具测评
未读
旗舰模型横评:GPT-5.1 vs Claude Opus 4.6,我替你把坑踩完了
旗舰模型横评:GPT-5.1 vs Claude Opus 4.6,我替你把坑踩完了 发布会PPT上的话,我都信过。 "最快的推理速度""最强的编码能力""上下文窗口行业第一"——每次新模型发布,这些标签就像节日彩灯一样挂满了科技媒体的头条。我也不例外,每次都会被吸引进来,然后花上几天时间自己测一遍
AI工具测评
未读
GPT-5.5 Instant 中文高准确性任务实测:这2类放心用,这3类千万别全信
GPT-5.5 Instant 中文高准确性任务实测:这2类放心用,这3类千万别全信 我差点因为它犯一个大错。 那是一份劳动合同的摘要任务,我把合同原文贴进去,让它提炼违约金条款和赔偿责任。它给出了一段措辞严谨、逻辑清晰的摘要——语气比律师还笃定。 但当我对照原文逐条核查时,发现其中一条违约金上限金
AI工具测评
未读
GPT-5.5 真正打开了什么?三个亲测场景告诉你值不值得升级
GPT-5.5 真正打开了什么?三个亲测场景告诉你值不值得升级 Sam Altman 最近发了一条推文,大意是: "我想找到那些用 GPT-5.5 做到了之前根本做不到的事的人——不是'更快更好',是'以前不可能,现在可以'。" 我第一反应是:这是在收集用户案例做营销素材。 但仔细想想,不对。一个
AI工具测评
未读
GPT-5.5 Instant 中文事实准确性实测:10道刁钻题,它答对了几道?
GPT-5.5 Instant 中文事实准确性实测:10道刁钻题,它答对了几道? "GPT 的幻觉问题已经大幅改善了。" 这句话,我们已经听了不止三次。 每次大版本更新,OpenAI 的发布文章里都会出现类似的表述。用户点头,转发,然后过了两天,有人在评论区贴出截图:AI 信誓旦旦地说鲁迅写过"我家
AI工具测评
未读
Grok 4.3 vs GPT-5.5 Instant
Grok 4.3 vs GPT-5.5 Instant:我用15道真实编码题,测出了"最快最聪明"值多少钱 xAI说Grok 4.3是目前最快、推理能力最强的模型。 我信了。然后花了两天时间跑完15道题。 跑完之后,我想聊聊"最快最聪明"这四个字,在你真实的编码工作流里,到底值多少钱。 --- 第一
AI工具测评
未读
GPT-5.5 Instant 深度测评:我找到了3个明显更好的证据,另外2个让我意外
GPT-5.5 Instant 深度测评:我找到了3个明显更好的证据,另外2个让我意外 4o上线的时候我也写过测评,结论是"够用"。 这次我不想再写"够用"了——我想找到"明显更好"的证据。 找到了3个,另外2个让我有点意外。 --- ⚠️ 测评说明:本文基于GPT-5.5 Instant正式上线后
AI工具测评
未读
GPT-5.5 Instant 实测:我专门拿 4o 的翻车场景去测,结果出乎意料
GPT-5.5 Instant 实测:我专门拿 4o 的翻车场景去测,结果出乎意料 上周我让 GPT-4o 帮我从一份 38 页的合同里提取所有违约条款。 它给了我一份看起来很完整的清单——格式整洁,条款编号清晰,我当时还夸了它一句。直到对方律师发来邮件,指出第 27 条的自动续约违约金条款完全没有
AI工具测评
未读
跑分骗了你:我用三个真实场景,测出了开源与闭源模型的真实断层
跑分骗了你:我用三个真实场景,测出了开源与闭源模型的真实断层 "它在榜上排第三,但它把我的 Agent 搞崩了三次。" 这句话是我上个月在一个 AI 工程师群里看到的。发帖的人刚把公司的 AI 工作流从 GPT-4o 切换到某个跑分接近的开源模型——为了省成本。结果上线第一周,Agent 任务失败率
AI工具测评
未读
连专家都测不准Agent,普通人该怎么选?
连专家都测不准Agent,普通人该怎么选? 你有没有这种体验:看完一篇Agent评测文章,觉得某个产品无敌了,买单用上之后,发现它在你的真实任务上频繁翻车? 这不是你的问题。这是整个评测体系的问题。 --- 一、连Ethan Mollick都承认:Agent根本测不准 先说说这个人是谁。Ethan