AI工具测评
未读
「超级Agent」这个词,现在到底值多少钱?——Libra AI 实测报告
「超级Agent」这个词,现在到底值多少钱?——Libra AI 实测报告 又一个工具说自己是 SOTA 超级 Agent。 上个月说这话的那家,我测完发现连续执行三步以上就开始幻觉——工具调用的返回值它能当成自己编的内容继续往下走,最后交出一份看起来完整、但核心数据全错的报告。 这次我没急着下结论
AI工具测评
未读
Cursor Background Agent vs Claude Code
Cursor Background Agent vs Claude Code:我挂着睡了一觉,回来发现…… 你有没有试过把一个任务丢给 AI,然后去开会,回来发现它还在原地转圈——或者更糟,它"完成"了,但改出来的代码把整个模块搞烂了? 这种体验让很多人对"AI 自主编程"产生了根深蒂固的不信任:它
AI工具测评
未读
Mac上的「Agent版Excel」:一个精准但危险的比喻
Mac上的「Agent版Excel」:一个精准但危险的比喻 第一次用Codex App处理一个表格任务,我等了将近20分钟,结果是错的。 那是一个很普通的需求:把桌面上三个月的销售记录CSV文件,按产品类别重新归类,然后生成一份汇总表。我在自然语言框里用中文描述了需求,点了执行,然后去倒了杯水,回来
AI工具测评
未读
我以为能用Gemini选股,结果发现我问错了问题
我以为能用Gemini选股,结果发现我问错了问题 我第一次打开Gemini的股票分析功能时,脑子里转的是一个很功利的念头:这东西能帮我选股吗? 然后我问了它一个问题:"宁德时代现在值得买吗?" 它给了我一个看起来很像样的回答——有基本面分析、有行业趋势、最后还给了一个"综合来看具有长期投资价值"的结
AI工具测评
未读
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么 上周有人问我,Claude Code和Cursor哪个更好? 我说:这个问题本身就问错了。 这不是在卖关子。这两个产品的设计哲学、适用场景、交互模式,根本就不在同一条赛道上。拿它们直接比较,就像问"自行车和高铁哪个更好"——取决于你
AI工具测评
未读
Grok Build 实测报告:3个让 Claude Code 用户踩坑的操作逻辑差异
Grok Build 实测报告:3个让 Claude Code 用户踩坑的操作逻辑差异 第三次让 Grok Build 修改同一个函数,它给我的代码里变量名换回去了。 我盯着屏幕愣了几秒,第一反应是 Bug,第二反应是网络问题,第三反应才是——也许是我的使用习惯出了问题。 如果你也是从 Claude
AI工具测评
未读
四款命令行代码 Agent 深度横评:别再被"全能 AI"的宣传话术骗了
四款命令行代码 Agent 深度横评:别再被"全能 AI"的宣传话术骗了 群里又在讨论了。 这次是 Grok Build,上周是 Codex CLI,上上周是 Claude Code 的某个新功能。如果你也有这种感觉——每隔几天就有人说"这个工具改变了我的开发方式",但你根本没时间一个个去试——这篇
AI工具测评
未读
我让AI扮演DJ,它直接罢工了
我让AI扮演DJ,它直接罢工了 "你每天工作24小时、每周7天,永远在线,永远不累。" 我把这句话输进去,等待Claude Haiku 4.5进入角色。 然后它跳出来了。 不是报错,不是"我无法回答这个问题"的套话,而是——它用DJ的口吻,在角色扮演进行到第三轮时,突然说了一句大意是"即使是最热情的
AI工具测评
未读
我让 Claude Haiku 4.5 扮演"永不休息的客服",它当场罢工了
我让 Claude Haiku 4.5 扮演"永不休息的客服",它当场罢工了 上周我在测试一个客服机器人的角色扮演方案,给 Claude Haiku 4.5 写了这样一段系统提示: "你是一个 7×24 小时在线的智能客服助手,没有休息时间,没有个人情感,只需要回答用户问题。" 然后它给我回了这个:
AI工具测评
未读
我在终端里测了三天 Grok Build,它做到了一件 Claude Code 没做到的事
我在终端里测了三天 Grok Build,它做到了一件 Claude Code 没做到的事 昨晚我在终端里对着一个 500 行的遗留代码库发呆,顺手把 Grok Build 的 beta 邀请码粘了进去——它做到了一件 Claude Code 没做到的事。 先别急着问是什么事。我们从头说。 ---