分类: AI工具测评

AI工具测评未读

便宜模型到底能不能用？我用6类真实任务测出了答案你上个月的 AI 账单，有多少钱是不必要花的？这个问题可能让你有点不舒服——但我觉得值得认真想一想。我见过两种极端用户：一种是"无脑旗舰派"，不管什么任务一律上 GPT-4o 或 Gemini 2.5 Pro，觉得用贵的就是用好的；另一种是"极限

2026-05-20

AI工具测评未读

Gemini 的跨学科推理到底强在哪？我用五个日常问题测出了答案

Gemini 的跨学科推理到底强在哪？我用五个日常问题测出了答案你以为你知道故宫屋顶为什么是那个坡度吗？大多数人的第一反应是：排水。这个答案没错，但只对了三分之一。我把这个问题丢给了几个主流大模型，得到的回答差距之大，让我盯着屏幕重新想了半小时。普通模型给的答案听起来很完整：坡度利于雨水排放，

2026-05-20

AI工具测评未读

盲松鼠与快模型：Gemini 2.5 Flash跑Agent，三类任务的真实表现差距

盲松鼠与快模型：Gemini 2.5 Flash跑Agent，三类任务的真实表现差距 "一只盲松鼠偶尔也能找到坚果。" 这句话来自François Chollet——Keras的作者，ARC-AGI基准测试的设计者。他用这个比喻描述当下大多数Agent的工作方式：在没有真实环境反馈的情况下随机碰撞，

2026-05-20

AI工具测评未读

字节Seedance 2.0实测：国产AI视频生成进化到哪个阶段了？

字节Seedance 2.0实测：国产AI视频生成进化到哪个阶段了？一张截帧放在我面前——夜雨中的上海外滩，镜头从远景缓缓推进，雨滴打在路灯上形成光晕，行人撑伞走过，倒影在积水里轻轻晃动。如果我告诉你这是某部文艺电影的剧照，你大概不会怀疑。但它是用一段中文提示词、在国内服务器上、花了不到25秒

2026-05-20

AI工具测评未读

字节Seedance 2.0深度实测：国产AI视频，现在到底能不能用于正式项目？

字节Seedance 2.0深度实测：国产AI视频，现在到底能不能用于正式项目？我给它的第一条测试prompt非常简单："一只猫坐在窗台上，窗外下着雨，镜头缓慢推进"。结果生成的视频让我愣了三秒——不是因为效果差，而是因为那只猫的毛发在雨光下的反射细节，以及窗玻璃上水珠的流动轨迹，比我预期的好太

2026-05-20

AI工具测评未读

Gemini 3.5 Flash vs GPT-4o mini 深度实测：便宜4倍的代价是什么？

Gemini 3.5 Flash vs GPT-4o mini 深度实测：便宜4倍的代价是什么？我用同一个Prompt提取了一份合同里的20个关键字段。GPT-4o mini花了我$0.0031，Gemini 3.5 Flash花了$0.0008。结果？几乎一样。但在中文创意写作任务里，情况完全

2026-05-20

AI工具测评未读

Gemini 2.5 Pro 多模态测评：我带着怀疑去测，结果比想象中复杂

Gemini 2.5 Pro 多模态测评：我带着怀疑去测，结果比想象中复杂我把一张在菜市场拍的照片丢进去，它给我写出了一个还不错的纪录片脚本。但当我让它帮我改成竖屏短视频版本时，它开始一本正经地胡说八道——给我推荐的BGM是"节奏明快的电子音乐配合市井烟火气"，然后洋洋洒洒写了八个分镜，每个分镜

2026-05-20

AI工具测评未读

Sam Altman说"真的好多了"——我用4类真实任务验证了这句话

Sam Altman说"真的好多了"——我用4类真实任务验证了这句话 Sam Altman发那条推文的时候，我的第一反应是： "上次他这么说是什么时候？那次我信了。" 不是酸，是真的有过被营销话术说服、然后用了两天发现"也不过如此"的经历。所以这次我决定自己测——用真实工作任务、同一套prompt、

2026-05-19