AI工具测评
未读
Mac上的「Agent版Excel」:一个精准但危险的比喻
Mac上的「Agent版Excel」:一个精准但危险的比喻 第一次用Codex App处理一个表格任务,我等了将近20分钟,结果是错的。 那是一个很普通的需求:把桌面上三个月的销售记录CSV文件,按产品类别重新归类,然后生成一份汇总表。我在自然语言框里用中文描述了需求,点了执行,然后去倒了杯水,回来
AI应用案例
未读
Extended Thinking 用了两个月,我得出了一个反直觉的结论
Extended Thinking 用了两个月,我得出了一个反直觉的结论 我以为我找到了神器,结果发现我只是找到了一把需要对准靶子才有用的枪。 两个月前,Claude Opus 4.6 的 Extended Thinking 功能刚开始大规模可用,我第一时间接入了 API,迫不及待地把手头所有任务都
AI工具测评
未读
我以为能用Gemini选股,结果发现我问错了问题
我以为能用Gemini选股,结果发现我问错了问题 我第一次打开Gemini的股票分析功能时,脑子里转的是一个很功利的念头:这东西能帮我选股吗? 然后我问了它一个问题:"宁德时代现在值得买吗?" 它给了我一个看起来很像样的回答——有基本面分析、有行业趋势、最后还给了一个"综合来看具有长期投资价值"的结
AI工具测评
未读
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么 上周有人问我,Claude Code和Cursor哪个更好? 我说:这个问题本身就问错了。 这不是在卖关子。这两个产品的设计哲学、适用场景、交互模式,根本就不在同一条赛道上。拿它们直接比较,就像问"自行车和高铁哪个更好"——取决于你
AI应用案例
未读
AI角色扮演"罢工"不是随机的——我系统测了3种触发场景,终于摸清了规律
AI角色扮演"罢工"不是随机的——我系统测了3种触发场景,终于摸清了规律 我以为是网络问题,刷新了三次。 第三次刷新之后,我才意识到:不是网络的问题,是AI自己决定不演了。 那是一个周末下午,我在用 Claude Haiku 4.5 做角色扮演测试。对话进行得很顺畅——一个说话带着点江湖气的地下电台
AI工具测评
未读
Grok Build 实测报告:3个让 Claude Code 用户踩坑的操作逻辑差异
Grok Build 实测报告:3个让 Claude Code 用户踩坑的操作逻辑差异 第三次让 Grok Build 修改同一个函数,它给我的代码里变量名换回去了。 我盯着屏幕愣了几秒,第一反应是 Bug,第二反应是网络问题,第三反应才是——也许是我的使用习惯出了问题。 如果你也是从 Claude
AI资讯
未读
AI协作的“怪”不是bug,而是通往深度生产力的钥匙
AI协作的“怪”不是bug,而是通往深度生产力的钥匙 我曾以为AI就是个超级工具:输入指令,它吐出完美结果,像升级版的搜索引擎或智能助手。可用了一段时间后,我发现事情没那么简单。它有时像个熟悉的同事,懂我的思路、接我的梗;有时又像个外星人,说着人话却总差那么点“人味”。那种“说不清楚哪里不对劲”的感
AI工具测评
未读
四款命令行代码 Agent 深度横评:别再被"全能 AI"的宣传话术骗了
四款命令行代码 Agent 深度横评:别再被"全能 AI"的宣传话术骗了 群里又在讨论了。 这次是 Grok Build,上周是 Codex CLI,上上周是 Claude Code 的某个新功能。如果你也有这种感觉——每隔几天就有人说"这个工具改变了我的开发方式",但你根本没时间一个个去试——这篇
AI应用案例
未读
配置 Pi Agent 三周踩坑实录:这份带注释全量配置帮你跳过最贵的学习成本
配置 Pi Agent 三周踩坑实录:这份带注释全量配置帮你跳过最贵的学习成本 从 Claude Code 迁移过来的第三天,我以为自己已经搞定了。 配置文件跑起来了,任务能提交,工具调用有响应——看起来一切正常。然后第五天,一个需要连续调用六个工具的数据处理任务,在第四步静默消失了。没有报错,没有
AI应用案例
未读
配了两周感觉哪里都对,但就是跑不稳——Pi Agent 的3个反直觉设置
配了两周感觉哪里都对,但就是跑不稳——Pi Agent 的3个反直觉设置 两周前,我在群里发了一句话:"Pi Agent 的配置文件我看了三遍,逻辑上完全没问题,但任务就是会在第二个子步骤卡死。" 发完之后沉默了很久。 后来有人回了一句:"你是从 Claude Code 迁过来的吧?" 我说是。 "