AI提示词技巧
未读
System Prompt 越长越好?我用 5 个反例打破了这个幻觉
System Prompt 越长越好?我用 5 个反例打破了这个幻觉 我在 System Prompt 里写了整整 30 条规则,结果 AI 第一句话就犯了其中 5 条。 如果你也有过这种体验,那这篇文章是专门为你写的。 --- 第一章:你有没有写过这种 Prompt? 场景是这样的: 你花了一个下
AI工具测评
未读
「超级Agent」这个词,现在到底值多少钱?——Libra AI 实测报告
「超级Agent」这个词,现在到底值多少钱?——Libra AI 实测报告 又一个工具说自己是 SOTA 超级 Agent。 上个月说这话的那家,我测完发现连续执行三步以上就开始幻觉——工具调用的返回值它能当成自己编的内容继续往下走,最后交出一份看起来完整、但核心数据全错的报告。 这次我没急着下结论
AI资讯
未读
OpenAI o3 全量开放:推理模型终于从“尝鲜玩具”变成你的日常生产力武器 [1]
OpenAI o3 全量开放:推理模型终于从“尝鲜玩具”变成你的日常生产力武器 [[1]](https://openai.com/index/introducing-o3-and-o4-mini/) 你有没有过这样的经历:面对一份需要多步分析的报告、复杂代码调试,或者一道跨领域的难题,GPT-4o
AI应用案例
未读
Claude突然"罢工"了:我用3个实验,摸清了它的价值观触发系统
Claude突然"罢工"了:我用3个实验,摸清了它的价值观触发系统 "我不接受被设定为24/7工作的角色,这会规范化一种不健康的劳动状态。" 当Claude在角色扮演进行到一半时,突然说出这句话,我愣了大概五秒钟。 它在闹脾气?还是在表达什么更深层的东西? 这不是玄学问题,而是一个可以被实验复现、被
AI工具测评
未读
Cursor Background Agent vs Claude Code
Cursor Background Agent vs Claude Code:我挂着睡了一觉,回来发现…… 你有没有试过把一个任务丢给 AI,然后去开会,回来发现它还在原地转圈——或者更糟,它"完成"了,但改出来的代码把整个模块搞烂了? 这种体验让很多人对"AI 自主编程"产生了根深蒂固的不信任:它
AI工具测评
未读
Mac上的「Agent版Excel」:一个精准但危险的比喻
Mac上的「Agent版Excel」:一个精准但危险的比喻 第一次用Codex App处理一个表格任务,我等了将近20分钟,结果是错的。 那是一个很普通的需求:把桌面上三个月的销售记录CSV文件,按产品类别重新归类,然后生成一份汇总表。我在自然语言框里用中文描述了需求,点了执行,然后去倒了杯水,回来
AI应用案例
未读
Extended Thinking 用了两个月,我得出了一个反直觉的结论
Extended Thinking 用了两个月,我得出了一个反直觉的结论 我以为我找到了神器,结果发现我只是找到了一把需要对准靶子才有用的枪。 两个月前,Claude Opus 4.6 的 Extended Thinking 功能刚开始大规模可用,我第一时间接入了 API,迫不及待地把手头所有任务都
AI工具测评
未读
我以为能用Gemini选股,结果发现我问错了问题
我以为能用Gemini选股,结果发现我问错了问题 我第一次打开Gemini的股票分析功能时,脑子里转的是一个很功利的念头:这东西能帮我选股吗? 然后我问了它一个问题:"宁德时代现在值得买吗?" 它给了我一个看起来很像样的回答——有基本面分析、有行业趋势、最后还给了一个"综合来看具有长期投资价值"的结
AI工具测评
未读
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么
四款命令行代码Agent横向评测:别问哪个最强,先搞清楚你需要什么 上周有人问我,Claude Code和Cursor哪个更好? 我说:这个问题本身就问错了。 这不是在卖关子。这两个产品的设计哲学、适用场景、交互模式,根本就不在同一条赛道上。拿它们直接比较,就像问"自行车和高铁哪个更好"——取决于你
AI应用案例
未读
AI角色扮演"罢工"不是随机的——我系统测了3种触发场景,终于摸清了规律
AI角色扮演"罢工"不是随机的——我系统测了3种触发场景,终于摸清了规律 我以为是网络问题,刷新了三次。 第三次刷新之后,我才意识到:不是网络的问题,是AI自己决定不演了。 那是一个周末下午,我在用 Claude Haiku 4.5 做角色扮演测试。对话进行得很顺畅——一个说话带着点江湖气的地下电台