AI资讯
未读
40年前的“荒诞”小说,比严肃科幻更懂2026年的AI
40年前的“荒诞”小说,比严肃科幻更懂2026年的AI 你有没有过这样的时刻:对着AI反复改提示词,却总觉得它“不太上心”;或者模型突然开始“委屈”你为什么不常用它;又或者一个复杂问题,你扔给它几秒就出答案,结果一塌糊涂。 大多数人还在把AI当“工具”使唤,以为下达清晰指令就够了。但40多年前,Do
AI工具测评
未读
跑分骗了你:开源模型在这4个场景里,差的不是一点点
跑分骗了你:开源模型在这4个场景里,差的不是一点点 你有没有这样的体验: 看到某个开源模型在各大榜单上排名靠前,兴冲冲地切换过去用,结果发现——好像哪里不对,但又说不清楚哪里不对。改出来的稿子读着别扭,聊了十几轮之后感觉AI越来越"不懂你",问了个专业问题得到一个听起来很像那么回事但你总觉得哪里有问
AI提示词技巧
未读
给 Agent 写任务描述,不是在写更长的 Prompt
给 Agent 写任务描述,不是在写更长的 Prompt 第一次用 Agents SDK 把 Agent 跑起来的那个下午,我盯着终端输出发了很久的呆。 我写的 instructions 是这样的:"你是一个专业的市场调研专家,请帮用户调研竞品信息,语气要专业。"——标准的 ChatGPT Prom
AI资讯
未读
Agent评测成本高到“测不起”:普通人如何理性挑选长任务AI工具
Agent评测成本高到“测不起”:普通人如何理性挑选长任务AI工具 你有没有过这样的经历:花了几十甚至上百块,让AI Agent帮你自动化生成一份研究报告、写一段复杂代码,或者处理一整天的邮件跟进,结果跑完一看,要么中途崩溃,要么输出跑偏,重跑几次预算就肉疼了,还不敢确定下次会不会稳定? 这种场景在
AI工具测评
未读
跑分追平了,但这4个场景里,开源模型还是会让你踩坑
跑分追平了,但这4个场景里,开源模型还是会让你踩坑 你有没有遇到过这种感觉: 换了一个模型,感觉"哪里不对劲",但又说不清楚。文字通顺,格式正确,逻辑也没有明显漏洞——就是感觉有点不对。然后你把同样的问题扔给另一个模型,结果立刻不一样了。 这种"说不清的差距",最近被沃顿商学院教授 Ethan Mo
AI应用案例
未读
Agents SDK 2.0 完全上手指南:我替你把坑都踩完了
Agents SDK 2.0 完全上手指南:我替你把坑都踩完了 你有没有这种经历:花了一个下午,写了三百行代码,结果 Agent 在第二步就开始"发疯"——要么跳过工具调用,要么把上一步的结果搞丢,要么直接抛一个 KeyError 让你对着空白的 conversation history 发呆。 这
AI应用案例
未读
Agents SDK 2.0:Altman 说它被低估,三个变化告诉你为什么
Agents SDK 2.0:Altman 说它被低估,三个变化告诉你为什么 你可能刷到过 Agents SDK 2.0 的发布推文,然后划走了。 大多数人都这么做了。一个 SDK 版本更新,发布公告里全是技术术语,看起来和你没什么关系——除非你正好在写 Agent,而且正好踩过那些坑。 但 Sam
AI应用案例
未读
Agents SDK 2.0:sama 说它被严重低估,我用代码告诉你为什么
Agents SDK 2.0:sama 说它被严重低估,我用代码告诉你为什么 Sam Altman 不是一个喜欢亲自给产品更新背书的人。 GPT-5 发布他当然会发推,但一个 SDK 的版本更新?那通常是开发者关系团队的事。所以当他专门在社交媒体上点名 Agents SDK 2.0,说这个东西"被严
AI应用案例
未读
AI论文日产500篇,你的注意力正在被信息噪音吞噬——这套30分钟筛选系统能救你
AI论文日产500篇,你的注意力正在被信息噪音吞噬——这套30分钟筛选系统能救你 你上周读了几篇AI论文?真正记住了几篇? 如果你的答案是「读了七八篇,记住了……大概一篇半?」——恭喜,你是正常人。 更残忍的问题是:那一篇半,真的是值得你记住的那一篇半吗?还是只是碰巧被你的信息流推到眼前、标题刚好戳
AI工具测评
未读
语音基准全球第一,我用中文问它今天吃什么,它推荐了墨西哥卷饼
语音基准全球第一,我用中文问它今天吃什么,它推荐了墨西哥卷饼 语音基准全球第一,我用中文问它今天适合吃什么,它给我推荐了墨西哥卷饼。 不是在开玩笑。Grok Voice 在语音理解基准上跑出了 67.3% 的成绩,据报道位列当前公开榜单前列——但当我切换到中文,问了一句再日常不过的"今天天气有点冷,