AI工具测评
未读
便宜模型到底能不能用?我用6类真实任务测出了答案
便宜模型到底能不能用?我用6类真实任务测出了答案 你上个月的 AI 账单,有多少钱是不必要花的? 这个问题可能让你有点不舒服——但我觉得值得认真想一想。 我见过两种极端用户:一种是"无脑旗舰派",不管什么任务一律上 GPT-4o 或 Gemini 2.5 Pro,觉得用贵的就是用好的;另一种是"极限
AI工具测评
未读
Gemini 的跨学科推理到底强在哪?我用五个日常问题测出了答案
Gemini 的跨学科推理到底强在哪?我用五个日常问题测出了答案 你以为你知道故宫屋顶为什么是那个坡度吗? 大多数人的第一反应是:排水。这个答案没错,但只对了三分之一。我把这个问题丢给了几个主流大模型,得到的回答差距之大,让我盯着屏幕重新想了半小时。 普通模型给的答案听起来很完整:坡度利于雨水排放,
AI工具测评
未读
盲松鼠与快模型:Gemini 2.5 Flash跑Agent,三类任务的真实表现差距
盲松鼠与快模型:Gemini 2.5 Flash跑Agent,三类任务的真实表现差距 "一只盲松鼠偶尔也能找到坚果。" 这句话来自François Chollet——Keras的作者,ARC-AGI基准测试的设计者。他用这个比喻描述当下大多数Agent的工作方式:在没有真实环境反馈的情况下随机碰撞,
AI工具测评
未读
字节Seedance 2.0实测:国产AI视频生成进化到哪个阶段了?
字节Seedance 2.0实测:国产AI视频生成进化到哪个阶段了? 一张截帧放在我面前——夜雨中的上海外滩,镜头从远景缓缓推进,雨滴打在路灯上形成光晕,行人撑伞走过,倒影在积水里轻轻晃动。 如果我告诉你这是某部文艺电影的剧照,你大概不会怀疑。 但它是用一段中文提示词、在国内服务器上、花了不到25秒
AI工具测评
未读
字节Seedance 2.0深度实测:国产AI视频,现在到底能不能用于正式项目?
字节Seedance 2.0深度实测:国产AI视频,现在到底能不能用于正式项目? 我给它的第一条测试prompt非常简单:"一只猫坐在窗台上,窗外下着雨,镜头缓慢推进"。 结果生成的视频让我愣了三秒——不是因为效果差,而是因为那只猫的毛发在雨光下的反射细节,以及窗玻璃上水珠的流动轨迹,比我预期的好太
AI工具测评
未读
Gemini 3.5 Flash vs GPT-4o mini 深度实测:便宜4倍的代价是什么?
Gemini 3.5 Flash vs GPT-4o mini 深度实测:便宜4倍的代价是什么? 我用同一个Prompt提取了一份合同里的20个关键字段。GPT-4o mini花了我$0.0031,Gemini 3.5 Flash花了$0.0008。结果?几乎一样。 但在中文创意写作任务里,情况完全
AI工具测评
未读
Gemini 2.5 Pro 多模态测评:我带着怀疑去测,结果比想象中复杂
Gemini 2.5 Pro 多模态测评:我带着怀疑去测,结果比想象中复杂 我把一张在菜市场拍的照片丢进去,它给我写出了一个还不错的纪录片脚本。 但当我让它帮我改成竖屏短视频版本时,它开始一本正经地胡说八道——给我推荐的BGM是"节奏明快的电子音乐配合市井烟火气",然后洋洋洒洒写了八个分镜,每个分镜
AI工具测评
未读
Sam Altman说"真的好多了"——我用4类真实任务验证了这句话
Sam Altman说"真的好多了"——我用4类真实任务验证了这句话 Sam Altman发那条推文的时候,我的第一反应是: "上次他这么说是什么时候?那次我信了。" 不是酸,是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、
AI工具测评
未读
Claude Composer 2.5「效率提升10倍」实测:我找到了那个数字成立的边界
Claude Composer 2.5「效率提升10倍」实测:我找到了那个数字成立的边界 "10倍效率提升。" 第一次看到这个数字,我的第一反应不是兴奋,是怀疑。这种措辞在科技营销里太常见了——从手机到SSD,"10倍"已经成了一个几乎不需要负责的修辞。 但这次有点不一样。Anthropic是个在技
AI工具测评
未读
盲松鼠理论:fchollet 一个比喻,终结了你对 Agent 的所有幻觉
盲松鼠理论:fchollet 一个比喻,终结了你对 Agent 的所有幻觉 你有没有遇到过这种情况: 让 Agent 帮你改一个函数的返回值类型,结果它把整个文件重写了一遍。测试全过了,CI 绿了,你盯着屏幕看了三分钟,愣是没看懂它在干什么——但你也不敢说它错了,因为确实跑通了。 然后你把这段代码合