AI工具测评
未读
Grok Voice 登顶语音榜单,但我用中文测了一圈之后,有话要说
Grok Voice 登顶语音榜单,但我用中文测了一圈之后,有话要说 Grok Voice 刚刚在语音基准测试上把 Gemini 和 GPT-4o 都压住了。 我的第一反应不是兴奋,而是一个问题:这个榜单,是用中文测的吗? 不是故意泼冷水。语音 AI 的基准进步是真实的,xAI 的技术能力也值得尊重
AI工具测评
未读
榜单第一的 Grok Voice,在中文日常对话里能打几折?
榜单第一的 Grok Voice,在中文日常对话里能打几折? "那个,你帮我查查看,上海今天堵不堵?" 我用这句最普通的中文口语问了榜单第一的 Grok Voice。它愣了大概两秒,然后给了我一个关于"上海交通拥堵指数历史数据分析"的长段落回复——准确,但完全不是我想要的那种对话感。 我没有截图发出
AI工具测评
未读
Flue 深度拆解:第一个专为 AI Agent 设计的"测试线束"框架
Flue 深度拆解:第一个专为 AI Agent 设计的"测试线束"框架 你有没有想过一个问题:你能测试你的 Agent 吗? 不是"跑一跑看看有没有报错",而是真正意义上的测试——在边界条件下,在工具调用失败时,在上下文超长时,你的 Agent 会做什么? 大多数人的答案是:不知道。 这不是因为开
AI工具测评
未读
Codex vs Claude Code:我用四个真实任务测出了它们的能力边界
Codex vs Claude Code:我用四个真实任务测出了它们的能力边界 上周我同时开着两个终端,左边跑 Codex,右边跑 Claude Code,把同一个 Bug 喂给两边——左边给了我一个自信满满的错误答案,右边找到了根因,但解释了整整三段话才说到重点。 这个画面让我意识到:市面上那些"
AI工具测评
未读
Codex 和 Claude Code 到底怎么选?别先问谁更强,先问你要它干什么
Codex 和 Claude Code 到底怎么选?别先问谁更强,先问你要它干什么 同样是让 AI 写代码,有时它像一个已经读过仓库、顺手还能帮你补测试的同事;有时它又像一个很会写代码、但总想先问清楚边界的搭子。 问题不是“谁绝对更强”,而是你现在手里的活,适合哪种协作方式。 如果你把 Codex
AI工具测评
未读
Gemini 直接生成可下载文件:我测了三天,说说真实感受
Gemini 直接生成可下载文件:我测了三天,说说真实感受 我当时愣了大概三秒。 对话框里,我刚输入完一段提纲需求,Gemini 的回复末尾出现了一个下载按钮——不是「复制全文」,不是「导出为 Markdown」,是一个实实在在的 .docx 文件下载入口。 我的第一反应是:又是个噱头吧,点开大概是
AI工具测评
未读
Cursor Agent 为什么有时聪明有时蠢?答案藏在这个你从没注意过的机制里
Cursor Agent 为什么有时聪明有时蠢?答案藏在这个你从没注意过的机制里 你有没有遇到过这种情况: 让 Cursor Agent 帮你重构一个模块,前几步走得行云流水,突然它开始反复读同一个文件,或者莫名其妙跑去修改一个完全不相关的配置项——然后你看了眼 token 计数,已经烧掉了你预期的
AI工具测评
未读
Gemini 直接生成 Word/Excel/PPT:我测完了,结论比你想的复杂
Gemini 直接生成 Word/Excel/PPT:我测完了,结论比你想的复杂 上周我用 AI 写完一份季度报告,然后花了将近20分钟把内容一段一段粘进 Word——调字体、对齐段落、删多余空行、手动加页眉……这20分钟比写报告本身还烦。更讽刺的是,我全程都在想:这种重复劳动,AI 不应该替我做掉
AI工具测评
未读
Gemini 文件直出功能深度测评:哪些摩擦消失了,哪些坑还在
Gemini 文件直出功能深度测评:哪些摩擦消失了,哪些坑还在 你有没有经历过这种事:AI 帮你把报告内容写得头头是道,你满心欢喜,结果接下来还要花 20 分钟——手动新建 Word 文档、一级一级调标题样式、把数据贴进 Excel 再对齐格式、存文件、压缩、发邮件——然后对方回一句:"能不能给我
AI工具测评
未读
Mistral Medium 3.5 vs Cursor SDK:
Mistral Medium 3.5 vs Cursor SDK:我差点写了一篇假的"云端Agent对比" 上周我准备写一篇对比评测,起因很简单:同一周内,Mistral 发布了 Medium 3.5,Cursor 发布了 Agent SDK,媒体标题清一色都在说"云端Agent新选择"。 我以为这