分类: 工具评测

工具评测未读

我把 Cursor Automations 接进 Sentry 测了 7 天：自动修 Bug 很酷，但真正省时间的是“别让它乱修” “Sentry 刚报错，Cursor 就开始写补丁”——这句话听起来很像 AI 编程的下一阶段。但真正写过线上服务的人都知道，报错出现的第一秒，最怕的不是没人修，而是

2天前

工具评测未读

Claude 开放 100 万 Token 还不加价，真正改变的不是“能塞更多”，而是 Agent 终于没那么容易聊崩了你有没有发现，AI 一旦聊久了就开始变笨？最典型的场景是：你让它连续做研究、整理十几份资料、改一整个项目的代码，前几轮还挺聪明，后面就开始失忆、跑偏、重复自己，甚至一本正经胡说

3天前

工具评测未读

Claude 100万 Token 正式开放：这次不是“参数变大”，而是长文档与代码仓终于能真落地了以前开发者处理超长文档，基本都绕不开一套熟悉但麻烦的流程：切块、做检索、拼上下文、担心漏信息、再反复调 Prompt。你明明只是想让模型“把这堆材料看完再回答”，最后却先做了一轮信息工程。现在，C

3天前

工具评测未读

2026代码模型实测：Claude Opus 4.6 对上另一家旗舰，谁更适合中国开发者？同一个需求，有的模型首轮就能生成可运行页面，有的模型却在读懂大项目、少改坏原代码这件事上明显更稳。问题是，很多人每天在模型之间来回切，却从没认真做过一次统一标准的对比。这也是为什么，2026年的“代码王”值

3天前

工具评测未读

我把一段 90 分钟行业峰会录像丢给 Qwen，结果它帮我省下了 1 小时，也暴露了 2 个很隐蔽的坑我把一部 90 分钟、信息密度极高的行业峰会录像丢给通义千问的视频理解能力，本来只是想验证一件事：它到底能不能帮我少看 1 小时视频。结果比我预期复杂得多。它确实让我连续惊喜了 3 次：能抓

4天前

工具评测未读

给 AI Agent 加记忆层，我把 Mem0、Zep、Redis 放在同一套流程里测了一遍你大概也遇到过这种瞬间：昨天你刚告诉 Agent，“我不吃香菜，周末喜欢短途出游”，今天它又一本正经地给你推荐香菜拌面，还问你“平时有什么兴趣爱好”。这不是模型不聪明，而是你的 Agent 根本没有“记住

4天前

工具评测未读

90分钟英文纪录片，3分钟出中文字幕：通义千问 Qwen3 视频翻译实测，快得离谱，但别忽略这2个坑我原本以为，90 分钟英文纪录片的字幕转写和翻译，怎么也得跑上十几分钟。结果这次把素材丢进去后，不到 3 分钟，系统就吐出了一版带时间轴的中文字幕初稿。如果你平时要做这些事—— 看 YouTube

4天前

工具评测未读

我把一部 2 小时纪录片扔给 AI，睡了个午觉，醒来桌上多了一份 8000 字笔记周日下午两点，我把 BBC《人类星球》第一季的完整视频链接丢给 Qwen 3.5，然后去睡了个午觉。醒来时，桌上多了一份结构完整、带时间轴标注的 8000 字笔记。我盯着屏幕看了大概三秒，然后想：这他妈也行？不

4天前

工具评测未读

用 AI 审查自己的代码一周后，我发现最大的问题不是代码，是我自己你有没有过这种经历：自己写的代码，自己 Review 三遍，上线第二天发现一个蠢到想打自己的 Bug？我有。而且不止一次。上个月，我在一个个人项目里犯了一个让我想消失的错误——一个分页逻辑写反了，offset 和 limit 的

4天前

工具评测未读

Kimi K2.5 深度实测：用它一键复盘 200 页行业白皮书，这 2 个细节太关键了周五下午四点，老板发来一份 217 页的 IDC 行业白皮书，要求周一早上给出 10 分钟汇报。你会怎么办？我的第一反应是打开 Kimi，把 PDF 直接扔进去，然后问："帮我总结这份报告的核心内容。" 2

8天前