分类: AI工具测评

AI工具测评未读

我用 Claude Opus 4.6 + Figma 建了一个网站，2小时跑通了——

我用 Claude Opus 4.6 + Figma 建了一个网站，2小时跑通了——但有一个环节卡了40分钟 2小时能跑通，但有一个环节我卡了40分钟，而且几乎所有人都会卡在同一个地方。先把结论放在最前面：这套流程是真实可行的，不是"AI一键建站"那种标题党。但"可行"和"顺畅"之间，隔着三个非常

2026-04-27

AI工具测评未读

Grok vs Gemini 中文能力实测：我做了20道题，结论比你想的复杂

Grok vs Gemini 中文能力实测：我做了20道题，结论比你想的复杂你刷到过那条推文吗？截图里，Grok用极其地道的网络用语回答问题，连"绷不住了""emo到极点"这类词都用得丝滑，评论区一片"Gemini可以退休了""谷歌中文组该裁员了"。我当时也心动了——毕竟Gemini的中文表现一

2026-04-26

AI工具测评未读

GPT-5.5 的「earnest 风格」：当 AI 开始拒绝讨好你

GPT-5.5 的「earnest 风格」：当 AI 开始拒绝讨好你上周我把同一个问题发给了两个版本的 GPT。问题很普通：「我打算用微服务架构重构这个项目，你觉得怎么样？」 GPT-5.4 的回答大概是这样的：「这是个很好的想法！微服务架构确实有很多优势，比如独立部署、技术栈灵活……当然，也需

2026-04-26

AI工具测评未读

AI Agent 能独立完成学术研究吗？我用 3 篇真实论文测了一遍

AI Agent 能独立完成学术研究吗？我用 3 篇真实论文测了一遍两周前，我在 X 上看到 Ethan Mollick 的一条推文，大意是：AI Agent 已经能够端到端重建学术论文的核心研究流程——从数据处理、分析到结论复现，基本上能跑通一整套科研管线。这条推文在学术圈和 AI 圈都炸了锅

2026-04-26

AI工具测评未读

Grok 在中文场景真的比 Gemini 更强吗？我用同一套测试复核后，答案只对了一半

Grok 在中文场景真的比 Gemini 更强吗？我用同一套测试复核后，答案只对了一半那条说 Grok 在非英语场景，尤其是中文里更自然、更讨喜的热推，我第一眼看完其实是点头的。但如果把它直接理解成“Grok 全面碾压 Gemini”，那就太快下结论了。我把同一批中文样题重新跑了一遍，感受很

2026-04-26

AI工具测评未读

GPT-5.5 实测一周：3个场景让我说「嗯，不一样」，4个场景我测不出差距

GPT-5.5 实测一周：3个场景让我说「嗯，不一样」，4个场景我测不出差距 Sam Altman 发布 GPT-5.5 的时候，没有用「game changer」，没有用「revolutionary」，他用的是「little engine that could」——那个童话里那辆不断说「我想我能，

2026-04-26