分类: AI工具测评

AI工具测评未读

Grok进了opencode，我测了60组任务后的真实结论我原本以为Grok只是Claude的平替——便宜一点、速度差不多、将就能用。测完之后发现这个判断是错的。在某些场景，它不是平替，是降维打击。但也有场景，我宁愿多花钱用Claude，因为Grok"发挥过度"把我代码改坏了两次。这篇文章不是

2026-05-22

AI工具测评未读

这周AI圈最重要的更新，不是某个模型变聪明了这周AI圈最重要的更新，不是某个模型变聪明了——而是AI开始知道自己花了你多少钱。你可能没注意到，过去七天里，三件看起来毫不相关的事同时发生了： Claude Code在终端里上线了 /usage 命令 xAI把Grok推进了命令行工具（CLI）环境

2026-05-22

AI工具测评未读

我把同一段代码扔给两个顶级 AI，更贵的那个差点让我的服务器崩掉那是一个周三下午，我在赶一个数据处理脚本的 deadline。我把一段有 bug 的 Python 函数扔给了当时订阅的"旗舰模型"，它给了我一个看起来无懈可击的修复方案——注释清晰、逻辑严密、格式漂亮。我没多想就跑进了测试环境。

2026-05-22

AI工具测评未读

Claude Code vs Grok via opencode：我用8个真实任务测出了差距在哪里我以为切换模型只是换个名字，直到我让它帮我重构一个有八个文件依赖的模块。那天下午，我在 opencode 里把底层模型从 Claude 切到 Grok，发了同一条指令："帮我把 userServic

2026-05-22

AI工具测评未读

Google 同周发了两个 Gemini，你用的是对的那个吗？上周，Google 在同一个发布周期内推出了 Gemini 2.5 Pro（带 Omni 多模态能力）和 Gemini 2.5 Flash 两款模型。朋友圈里刷到的评价几乎是清一色的"Pro 好厉害"——但我想说一句可能让你不舒服的话：

2026-05-21

AI工具测评未读

111B 参数说自己"轻量"：Cohere Command A 低硬件卖点，我帮你验了一遍一个 111B 的模型说自己"低硬件需求"，就像一辆 SUV 说自己省油——得看你拿它跟谁比，也得看你开的是什么路。这不是在踩 Cohere，也不是帮它打广告。我只是发现，每隔一段时间就会有一个新模型声称"

2026-05-21

AI工具测评未读

我用10个日常问题测了Gemini 3.5 Flash搜索，只有3个场景真的让我惊艳我以为会惊艳，结果前7个问题让我有点失望——但第8个问题让我明白了它真正适合干什么。这句话不是噱头。在花了大半天时间把10个真实问题扔进Google AI Mode之后，我得出的结论比"它改变了搜索"或者"它不过

2026-05-21

AI工具测评未读

Gemini 3.5 Flash进入Google Search AI Mode：我测了10个问题，只有3个场景真的变了我以为Flash进来之后，Google搜索会变得像ChatGPT一样好用。测完10个问题之后，我改变了这个判断——但不是因为它变差了。 --- 先说清楚这次改了什么很多人把这次

2026-05-21

AI工具测评未读

Gemini Omni 深度实测：图生视频、文生3D、跨模态改写，哪个现在就能用？我把一张西湖龙井的包装图扔进去，让它生成一条茶叶广告视频。 30秒后，画面里出现了一个拿着茶杯的白人男性。这不是我想要的失望感——这是我做完三轮实测后，觉得最能代表"Gemini Omni当前状态"的一个缩影：它真

2026-05-21

AI工具测评未读

Google把Gemini塞进搜索框：3个地方赢了ChatGPT，1个地方输得很明显上周我在Google搜索框里打了一句话："帮我分析一下最近新能源汽车降价潮背后的供应链逻辑。" 以前这种问题，我会直接打开ChatGPT。但这次我想试试Google的新东西——AI Mode。结果让我有点意外。不

2026-05-21