分类: AI工具测评

AI工具测评未读

Grok Voice 登顶语音榜单，但我用中文测了一圈之后，有话要说 Grok Voice 刚刚在语音基准测试上把 Gemini 和 GPT-4o 都压住了。我的第一反应不是兴奋，而是一个问题：这个榜单，是用中文测的吗？不是故意泼冷水。语音 AI 的基准进步是真实的，xAI 的技术能力也值得尊重

2026-05-03

AI工具测评未读

榜单第一的 Grok Voice，在中文日常对话里能打几折？ "那个，你帮我查查看，上海今天堵不堵？" 我用这句最普通的中文口语问了榜单第一的 Grok Voice。它愣了大概两秒，然后给了我一个关于"上海交通拥堵指数历史数据分析"的长段落回复——准确，但完全不是我想要的那种对话感。我没有截图发出

2026-05-03

AI工具测评未读

Flue 深度拆解：第一个专为 AI Agent 设计的"测试线束"框架你有没有想过一个问题：你能测试你的 Agent 吗？不是"跑一跑看看有没有报错"，而是真正意义上的测试——在边界条件下，在工具调用失败时，在上下文超长时，你的 Agent 会做什么？大多数人的答案是：不知道。这不是因为开

2026-05-03

AI工具测评未读

Codex vs Claude Code：我用四个真实任务测出了它们的能力边界上周我同时开着两个终端，左边跑 Codex，右边跑 Claude Code，把同一个 Bug 喂给两边——左边给了我一个自信满满的错误答案，右边找到了根因，但解释了整整三段话才说到重点。这个画面让我意识到：市面上那些"

2026-05-02

AI工具测评未读

Codex 和 Claude Code 到底怎么选？别先问谁更强，先问你要它干什么同样是让 AI 写代码，有时它像一个已经读过仓库、顺手还能帮你补测试的同事；有时它又像一个很会写代码、但总想先问清楚边界的搭子。问题不是“谁绝对更强”，而是你现在手里的活，适合哪种协作方式。如果你把 Codex

2026-05-02

AI工具测评未读

Gemini 直接生成可下载文件：我测了三天，说说真实感受我当时愣了大概三秒。对话框里，我刚输入完一段提纲需求，Gemini 的回复末尾出现了一个下载按钮——不是「复制全文」，不是「导出为 Markdown」，是一个实实在在的 .docx 文件下载入口。我的第一反应是：又是个噱头吧，点开大概是

2026-05-01

AI工具测评未读

Cursor Agent 为什么有时聪明有时蠢？答案藏在这个你从没注意过的机制里你有没有遇到过这种情况：让 Cursor Agent 帮你重构一个模块，前几步走得行云流水，突然它开始反复读同一个文件，或者莫名其妙跑去修改一个完全不相关的配置项——然后你看了眼 token 计数，已经烧掉了你预期的

2026-05-01

AI工具测评未读

Gemini 直接生成 Word/Excel/PPT：我测完了，结论比你想的复杂上周我用 AI 写完一份季度报告，然后花了将近20分钟把内容一段一段粘进 Word——调字体、对齐段落、删多余空行、手动加页眉……这20分钟比写报告本身还烦。更讽刺的是，我全程都在想：这种重复劳动，AI 不应该替我做掉

2026-05-01

AI工具测评未读

Gemini 文件直出功能深度测评：哪些摩擦消失了，哪些坑还在你有没有经历过这种事：AI 帮你把报告内容写得头头是道，你满心欢喜，结果接下来还要花 20 分钟——手动新建 Word 文档、一级一级调标题样式、把数据贴进 Excel 再对齐格式、存文件、压缩、发邮件——然后对方回一句："能不能给我

2026-05-01

AI工具测评未读

Mistral Medium 3.5 vs Cursor SDK：

Mistral Medium 3.5 vs Cursor SDK：我差点写了一篇假的"云端Agent对比" 上周我准备写一篇对比评测，起因很简单：同一周内，Mistral 发布了 Medium 3.5，Cursor 发布了 Agent SDK，媒体标题清一色都在说"云端Agent新选择"。我以为这

2026-04-30