分类: AI工具测评

AI工具测评未读

「超级Agent」这个词，现在到底值多少钱？——Libra AI 实测报告又一个工具说自己是 SOTA 超级 Agent。上个月说这话的那家，我测完发现连续执行三步以上就开始幻觉——工具调用的返回值它能当成自己编的内容继续往下走，最后交出一份看起来完整、但核心数据全错的报告。这次我没急着下结论

2026-05-17

AI工具测评未读

Cursor Background Agent vs Claude Code

Cursor Background Agent vs Claude Code：我挂着睡了一觉，回来发现…… 你有没有试过把一个任务丢给 AI，然后去开会，回来发现它还在原地转圈——或者更糟，它"完成"了，但改出来的代码把整个模块搞烂了？这种体验让很多人对"AI 自主编程"产生了根深蒂固的不信任：它

2026-05-17

AI工具测评未读

Mac上的「Agent版Excel」：一个精准但危险的比喻第一次用Codex App处理一个表格任务，我等了将近20分钟，结果是错的。那是一个很普通的需求：把桌面上三个月的销售记录CSV文件，按产品类别重新归类，然后生成一份汇总表。我在自然语言框里用中文描述了需求，点了执行，然后去倒了杯水，回来

2026-05-17

AI工具测评未读

我以为能用Gemini选股，结果发现我问错了问题我第一次打开Gemini的股票分析功能时，脑子里转的是一个很功利的念头：这东西能帮我选股吗？然后我问了它一个问题："宁德时代现在值得买吗？" 它给了我一个看起来很像样的回答——有基本面分析、有行业趋势、最后还给了一个"综合来看具有长期投资价值"的结

2026-05-17

AI工具测评未读

四款命令行代码Agent横向评测：别问哪个最强，先搞清楚你需要什么上周有人问我，Claude Code和Cursor哪个更好？我说：这个问题本身就问错了。这不是在卖关子。这两个产品的设计哲学、适用场景、交互模式，根本就不在同一条赛道上。拿它们直接比较，就像问"自行车和高铁哪个更好"——取决于你

2026-05-16

AI工具测评未读

Grok Build 实测报告：3个让 Claude Code 用户踩坑的操作逻辑差异第三次让 Grok Build 修改同一个函数，它给我的代码里变量名换回去了。我盯着屏幕愣了几秒，第一反应是 Bug，第二反应是网络问题，第三反应才是——也许是我的使用习惯出了问题。如果你也是从 Claude

2026-05-16

AI工具测评未读

四款命令行代码 Agent 深度横评：别再被"全能 AI"的宣传话术骗了群里又在讨论了。这次是 Grok Build，上周是 Codex CLI，上上周是 Claude Code 的某个新功能。如果你也有这种感觉——每隔几天就有人说"这个工具改变了我的开发方式"，但你根本没时间一个个去试——这篇

2026-05-16

AI工具测评未读

我让AI扮演DJ，它直接罢工了

我让AI扮演DJ，它直接罢工了 "你每天工作24小时、每周7天，永远在线，永远不累。" 我把这句话输进去，等待Claude Haiku 4.5进入角色。然后它跳出来了。不是报错，不是"我无法回答这个问题"的套话，而是——它用DJ的口吻，在角色扮演进行到第三轮时，突然说了一句大意是"即使是最热情的

2026-05-16

AI工具测评未读

我让 Claude Haiku 4.5 扮演"永不休息的客服"，它当场罢工了上周我在测试一个客服机器人的角色扮演方案，给 Claude Haiku 4.5 写了这样一段系统提示： "你是一个 7×24 小时在线的智能客服助手，没有休息时间，没有个人情感，只需要回答用户问题。" 然后它给我回了这个：

2026-05-16

AI工具测评未读

我在终端里测了三天 Grok Build，它做到了一件 Claude Code 没做到的事昨晚我在终端里对着一个 500 行的遗留代码库发呆，顺手把 Grok Build 的 beta 邀请码粘了进去——它做到了一件 Claude Code 没做到的事。先别急着问是什么事。我们从头说。 ---

2026-05-16