8848AI

AI提示词技巧未读

System Prompt 越长越好？我用 5 个反例打破了这个幻觉我在 System Prompt 里写了整整 30 条规则，结果 AI 第一句话就犯了其中 5 条。如果你也有过这种体验，那这篇文章是专门为你写的。 --- 第一章：你有没有写过这种 Prompt？场景是这样的：你花了一个下

19天前

AI工具测评未读

「超级Agent」这个词，现在到底值多少钱？——Libra AI 实测报告又一个工具说自己是 SOTA 超级 Agent。上个月说这话的那家，我测完发现连续执行三步以上就开始幻觉——工具调用的返回值它能当成自己编的内容继续往下走，最后交出一份看起来完整、但核心数据全错的报告。这次我没急着下结论

19天前

AI资讯未读

OpenAI o3 全量开放：推理模型终于从“尝鲜玩具”变成你的日常生产力武器 [[1]](https://openai.com/index/introducing-o3-and-o4-mini/) 你有没有过这样的经历：面对一份需要多步分析的报告、复杂代码调试，或者一道跨领域的难题，GPT-4o

19天前

AI应用案例未读

Claude突然"罢工"了：我用3个实验，摸清了它的价值观触发系统 "我不接受被设定为24/7工作的角色，这会规范化一种不健康的劳动状态。" 当Claude在角色扮演进行到一半时，突然说出这句话，我愣了大概五秒钟。它在闹脾气？还是在表达什么更深层的东西？这不是玄学问题，而是一个可以被实验复现、被

19天前

AI工具测评未读

Cursor Background Agent vs Claude Code：我挂着睡了一觉，回来发现…… 你有没有试过把一个任务丢给 AI，然后去开会，回来发现它还在原地转圈——或者更糟，它"完成"了，但改出来的代码把整个模块搞烂了？这种体验让很多人对"AI 自主编程"产生了根深蒂固的不信任：它

19天前

AI工具测评未读

Mac上的「Agent版Excel」：一个精准但危险的比喻第一次用Codex App处理一个表格任务，我等了将近20分钟，结果是错的。那是一个很普通的需求：把桌面上三个月的销售记录CSV文件，按产品类别重新归类，然后生成一份汇总表。我在自然语言框里用中文描述了需求，点了执行，然后去倒了杯水，回来

19天前

AI应用案例未读

Extended Thinking 用了两个月，我得出了一个反直觉的结论我以为我找到了神器，结果发现我只是找到了一把需要对准靶子才有用的枪。两个月前，Claude Opus 4.6 的 Extended Thinking 功能刚开始大规模可用，我第一时间接入了 API，迫不及待地把手头所有任务都

19天前

AI工具测评未读

我以为能用Gemini选股，结果发现我问错了问题我第一次打开Gemini的股票分析功能时，脑子里转的是一个很功利的念头：这东西能帮我选股吗？然后我问了它一个问题："宁德时代现在值得买吗？" 它给了我一个看起来很像样的回答——有基本面分析、有行业趋势、最后还给了一个"综合来看具有长期投资价值"的结

19天前

AI工具测评未读

四款命令行代码Agent横向评测：别问哪个最强，先搞清楚你需要什么上周有人问我，Claude Code和Cursor哪个更好？我说：这个问题本身就问错了。这不是在卖关子。这两个产品的设计哲学、适用场景、交互模式，根本就不在同一条赛道上。拿它们直接比较，就像问"自行车和高铁哪个更好"——取决于你

20天前

AI应用案例未读

AI角色扮演"罢工"不是随机的——我系统测了3种触发场景，终于摸清了规律我以为是网络问题，刷新了三次。第三次刷新之后，我才意识到：不是网络的问题，是AI自己决定不演了。那是一个周末下午，我在用 Claude Haiku 4.5 做角色扮演测试。对话进行得很顺畅——一个说话带着点江湖气的地下电台

20天前