AI工具测评
未读
Sam Altman说"真的好多了"——我用4类真实任务验证了这句话
Sam Altman说"真的好多了"——我用4类真实任务验证了这句话 Sam Altman发那条推文的时候,我的第一反应是: "上次他这么说是什么时候?那次我信了。" 不是酸,是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、
AI工具测评
未读
Claude Composer 2.5「效率提升10倍」实测:我找到了那个数字成立的边界
Claude Composer 2.5「效率提升10倍」实测:我找到了那个数字成立的边界 "10倍效率提升。" 第一次看到这个数字,我的第一反应不是兴奋,是怀疑。这种措辞在科技营销里太常见了——从手机到SSD,"10倍"已经成了一个几乎不需要负责的修辞。 但这次有点不一样。Anthropic是个在技
AI提示词技巧
未读
别再手调Prompt了——让AI当你的Prompt工程师,三步提升输出质量
别再手调Prompt了——让AI当你的Prompt工程师,三步提升输出质量 你上一次满意地退出对话框,是什么时候? 不是"凑合能用",不是"改改还行",是那种看完输出结果直接拍桌子说"就这个!"的感觉。 如果你想了一会儿,想不起来——那说明我们遇到了同一个问题。 --- 你还在手调Prompt?这件
AI资讯
未读
10倍算力不等于10倍好用:这类模型公告,普通用户真正该看什么
10倍算力不等于10倍好用:这类模型公告,普通用户真正该看什么 你看到一条“更大算力训练新模型”的公告时,第一反应往往是:这次是不是要起飞了? 但大多数时候,答案都没那么戏剧化。 算力变大,通常意味着模型有了更高的上限;可对普通用户来说,真正重要的不是“名气更大”,而是它会不会变得更稳定、更快、更长
AI资讯
未读
Gemini 2.5 Ultra 真有那么强吗?
Gemini 2.5 Ultra 真有那么强吗?我拿 5 个真实工作任务和 Claude 4 过了一遍 如果你每天都要处理会议纪要、需求文档、代码问题、行业资料,应该会很熟悉这种感觉:大模型“会聊天”早就不稀奇了,真正值钱的是它能不能像一个靠谱同事,少废话、少跑偏、少返工。 最近我把 Gemini
AI工具测评
未读
盲松鼠理论:fchollet 一个比喻,终结了你对 Agent 的所有幻觉
盲松鼠理论:fchollet 一个比喻,终结了你对 Agent 的所有幻觉 你有没有遇到过这种情况: 让 Agent 帮你改一个函数的返回值类型,结果它把整个文件重写了一遍。测试全过了,CI 绿了,你盯着屏幕看了三分钟,愣是没看懂它在干什么——但你也不敢说它错了,因为确实跑通了。 然后你把这段代码合
AI工具测评
未读
我同时订了三个AI月卡,用了三个月后终于搞清楚该怎么分工
我同时订了三个AI月卡,用了三个月后终于搞清楚该怎么分工 上个月我的信用卡账单里有三笔扣款,分别来自OpenAI、Anthropic和Perplexity。我老婆看到账单问我:你脑子有问题吗? 我想了三秒,回答说:可能有,但这三笔钱我一分都不想退。 然后她让我解释清楚。 这篇文章就是我的解释——不是
AI资讯
未读
Anthropic 收购 Stainless API,普通开发者最先感受到的不是并购,而是 Claude 变得更好接了
Anthropic 收购 Stainless API,普通开发者最先感受到的不是并购,而是 Claude 变得更好接了 你现在调用一次大模型 API,最怕的其实不是“模型不够强”,而是接入麻烦、文档不一致、SDK 跟不上、升级时又出幺蛾子。 所以当 Anthropic 收购 Stainless AP
AI应用案例
未读
我装了20个MCP工具,只有这5个值得认真用
我装了20个MCP工具,只有这5个值得认真用 第一次装MCP工具,我兴奋地配置了两个小时。 翻文档、改JSON、重启Claude Desktop,一切就绪。然后我让Claude帮我整理下载文件夹——它给了我一段话,告诉我"可以按照日期、类型、项目名称来分类,建议你先建几个子文件夹……" 和没装时一模
AI工具测评
未读
Cursor Composer 2.5实测
Cursor Composer 2.5实测:用20轮长任务逼出"sustained work"的真实边界 第12轮。 旧版本的Cursor Composer正在重新定义一个函数——parseApiResponse()——它自己在第9轮刚写完的那个。 我盯着屏幕,没有愤怒,只有一种见怪不怪的疲惫。这种