AI工具测评
未读
Grok进了opencode,我测了60组任务后的真实结论
Grok进了opencode,我测了60组任务后的真实结论 我原本以为Grok只是Claude的平替——便宜一点、速度差不多、将就能用。 测完之后发现这个判断是错的。在某些场景,它不是平替,是降维打击。但也有场景,我宁愿多花钱用Claude,因为Grok"发挥过度"把我代码改坏了两次。 这篇文章不是
AI工具测评
未读
这周AI圈最重要的更新,不是某个模型变聪明了
这周AI圈最重要的更新,不是某个模型变聪明了 这周AI圈最重要的更新,不是某个模型变聪明了——而是AI开始知道自己花了你多少钱。 你可能没注意到,过去七天里,三件看起来毫不相关的事同时发生了: Claude Code在终端里上线了 /usage 命令 xAI把Grok推进了命令行工具(CLI)环境
AI工具测评
未读
我把同一段代码扔给两个顶级 AI,更贵的那个差点让我的服务器崩掉
我把同一段代码扔给两个顶级 AI,更贵的那个差点让我的服务器崩掉 那是一个周三下午,我在赶一个数据处理脚本的 deadline。 我把一段有 bug 的 Python 函数扔给了当时订阅的"旗舰模型",它给了我一个看起来无懈可击的修复方案——注释清晰、逻辑严密、格式漂亮。我没多想就跑进了测试环境。
AI工具测评
未读
Claude Code vs Grok via opencode:我用8个真实任务测出了差距在哪里
Claude Code vs Grok via opencode:我用8个真实任务测出了差距在哪里 我以为切换模型只是换个名字,直到我让它帮我重构一个有八个文件依赖的模块。 那天下午,我在 opencode 里把底层模型从 Claude 切到 Grok,发了同一条指令:"帮我把 userServic
AI工具测评
未读
Google 同周发了两个 Gemini,你用的是对的那个吗?
Google 同周发了两个 Gemini,你用的是对的那个吗? 上周,Google 在同一个发布周期内推出了 Gemini 2.5 Pro(带 Omni 多模态能力)和 Gemini 2.5 Flash 两款模型。朋友圈里刷到的评价几乎是清一色的"Pro 好厉害"——但我想说一句可能让你不舒服的话:
AI工具测评
未读
111B 参数说自己"轻量":Cohere Command A 低硬件卖点,我帮你验了一遍
111B 参数说自己"轻量":Cohere Command A 低硬件卖点,我帮你验了一遍 一个 111B 的模型说自己"低硬件需求",就像一辆 SUV 说自己省油——得看你拿它跟谁比,也得看你开的是什么路。 这不是在踩 Cohere,也不是帮它打广告。我只是发现,每隔一段时间就会有一个新模型声称"
AI工具测评
未读
我用10个日常问题测了Gemini 3.5 Flash搜索,只有3个场景真的让我惊艳
我用10个日常问题测了Gemini 3.5 Flash搜索,只有3个场景真的让我惊艳 我以为会惊艳,结果前7个问题让我有点失望——但第8个问题让我明白了它真正适合干什么。 这句话不是噱头。在花了大半天时间把10个真实问题扔进Google AI Mode之后,我得出的结论比"它改变了搜索"或者"它不过
AI工具测评
未读
Gemini 3.5 Flash进入Google Search AI Mode
Gemini 3.5 Flash进入Google Search AI Mode:我测了10个问题,只有3个场景真的变了 我以为Flash进来之后,Google搜索会变得像ChatGPT一样好用。 测完10个问题之后,我改变了这个判断——但不是因为它变差了。 --- 先说清楚这次改了什么 很多人把这次
AI工具测评
未读
Gemini Omni 深度实测:图生视频、文生3D、跨模态改写,哪个现在就能用?
Gemini Omni 深度实测:图生视频、文生3D、跨模态改写,哪个现在就能用? 我把一张西湖龙井的包装图扔进去,让它生成一条茶叶广告视频。 30秒后,画面里出现了一个拿着茶杯的白人男性。 这不是我想要的失望感——这是我做完三轮实测后,觉得最能代表"Gemini Omni当前状态"的一个缩影:它真
AI工具测评
未读
Google把Gemini塞进搜索框:3个地方赢了ChatGPT,1个地方输得很明显
Google把Gemini塞进搜索框:3个地方赢了ChatGPT,1个地方输得很明显 上周我在Google搜索框里打了一句话:"帮我分析一下最近新能源汽车降价潮背后的供应链逻辑。" 以前这种问题,我会直接打开ChatGPT。但这次我想试试Google的新东西——AI Mode。 结果让我有点意外。不