AI工具测评
未读
我用 Claude Opus 4.6 + Figma 建了一个网站,2小时跑通了——
我用 Claude Opus 4.6 + Figma 建了一个网站,2小时跑通了——但有一个环节卡了40分钟 2小时能跑通,但有一个环节我卡了40分钟,而且几乎所有人都会卡在同一个地方。 先把结论放在最前面:这套流程是真实可行的,不是"AI一键建站"那种标题党。但"可行"和"顺畅"之间,隔着三个非常
AI工具测评
未读
Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂
Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂 你刷到过那条推文吗? 截图里,Grok用极其地道的网络用语回答问题,连"绷不住了""emo到极点"这类词都用得丝滑,评论区一片"Gemini可以退休了""谷歌中文组该裁员了"。我当时也心动了——毕竟Gemini的中文表现一
AI工具测评
未读
GPT-5.5 的「earnest 风格」:当 AI 开始拒绝讨好你
GPT-5.5 的「earnest 风格」:当 AI 开始拒绝讨好你 上周我把同一个问题发给了两个版本的 GPT。 问题很普通:「我打算用微服务架构重构这个项目,你觉得怎么样?」 GPT-5.4 的回答大概是这样的:「这是个很好的想法!微服务架构确实有很多优势,比如独立部署、技术栈灵活……当然,也需
AI工具测评
未读
AI Agent 能独立完成学术研究吗?我用 3 篇真实论文测了一遍
AI Agent 能独立完成学术研究吗?我用 3 篇真实论文测了一遍 两周前,我在 X 上看到 Ethan Mollick 的一条推文,大意是:AI Agent 已经能够端到端重建学术论文的核心研究流程——从数据处理、分析到结论复现,基本上能跑通一整套科研管线。 这条推文在学术圈和 AI 圈都炸了锅
AI工具测评
未读
Grok 在中文场景真的比 Gemini 更强吗?我用同一套测试复核后,答案只对了一半
Grok 在中文场景真的比 Gemini 更强吗?我用同一套测试复核后,答案只对了一半 那条说 Grok 在非英语场景,尤其是中文里更自然、更讨喜 的热推,我第一眼看完其实是点头的。 但如果把它直接理解成“Grok 全面碾压 Gemini”,那就太快下结论了。 我把同一批中文样题重新跑了一遍,感受很
AI工具测评
未读
GPT-5.5 实测一周:3个场景让我说「嗯,不一样」,4个场景我测不出差距
GPT-5.5 实测一周:3个场景让我说「嗯,不一样」,4个场景我测不出差距 Sam Altman 发布 GPT-5.5 的时候,没有用「game changer」,没有用「revolutionary」,他用的是「little engine that could」——那个童话里那辆不断说「我想我能,
AI工具测评
未读
GPT-5.5 真实使用一周:3个场景变顺了,3个场景没什么感觉
GPT-5.5 真实使用一周:3个场景变顺了,3个场景没什么感觉 上周三下午,我第七次让 GPT-5.4 帮我找一份需求文档里的逻辑矛盾。 它第七次给了我一份漂亮的要点摘要——条理清晰,格式整齐,完全没有回答我的问题。 我问的是"这份文档里哪些需求互相打架",它给我的是"这份文档主要包含以下几个模块
AI工具测评
未读
GPT-5.5 进入 Cursor 之后,我用四连任务把它逼到了翻车现场
GPT-5.5 进入 Cursor 之后,我用四连任务把它逼到了翻车现场 周四下午,我把同一段有三处隐性 Bug 的 Python 代码,分别喂给了 Cursor 里的 GPT-5.4 和 GPT-5.5。 5.4 修复了最明显的那处,另外两处没动,还在注释里写了句"代码逻辑清晰,无明显问题"。 5
AI工具测评
未读
同样是 GPT-5.5,Cursor 给你的和 API 给你的根本不是同一个东西
同样是 GPT-5.5,Cursor 给你的和 API 给你的根本不是同一个东西 我以为 Cursor 里的 GPT-5.5 更聪明。 跑完这次对比测试之后,我改变了这个判断——它聪明的地方,根本不是模型本身。 这个发现让我有点不舒服,因为它意味着我之前对 Cursor 的很多赞美,其实都打错了靶子
AI工具测评
未读
Cursor vs 直调 API:我用同一个 Bug 测了两遍,数据让我沉默了三秒
Cursor vs 直调 API:我用同一个 Bug 测了两遍,数据让我沉默了三秒 我以为 Cursor 会赢。 毕竟它有文件树感知、光标上下文、一键 Apply——这些工程封装理论上应该让模型"更聪明"。但当我把两边的 Token 消耗数据摆在一起,沉默了大概三秒。 不是因为 Cursor 输了,