分类: 工具评测

工具评测未读

DeepSeek V4 vs Gemini 3.1 Pro：12组真实任务实测，开源模型天花板在哪里

DeepSeek V4 vs Gemini 3.1 Pro：12组真实任务实测，开源模型天花板在哪里我让两个模型写同一封客户道歉邮件。一个写出来像真人写的，语气拿捏得刚好，道歉不卑不亢，还顺带给出了补偿方案；另一个写出来像从模板库里复制的，每一句话都正确，但每一句话都没有温度。赢的那个，不是你

2026-03-12

工具评测未读

Kimi K2.5 vs MiniMax M2.5：国产性价比模型横评，选错比选贵更亏

Kimi K2.5 vs MiniMax M2.5：国产性价比模型横评，选错比选贵更亏上周帮一个朋友的小团队选主力模型，他们的处境很典型：每月 API 预算 500 块，同时要处理客服摘要、代码辅助和周报生成三类任务。 GPT-4o 用不起，免费模型又三天两头抽风。他们卡在"够用但不贵"这个区间里

2026-03-12

工具评测未读

Claude Sonnet 4.6，接近 Opus 水准的半价选手

Claude Sonnet 4.6，接近 Opus 水准的半价选手用 Opus 写了三个月代码之后，我做了一件"叛逆"的事——把主力模型切换到了 Sonnet 4.6。结果呢？账单砍了将近一半，代码质量没有肉眼可见的下降，甚至因为响应速度更快，整体开发效率还提升了。那一刻我的第一反应不是"赚到

2026-03-11

工具评测未读

DeepSeek V4 深度测评：开源万亿参数多模态大模型，能打赢 Gemini 3.1 Pro 吗

2026-03-11

工具评测未读

DeepSeek V4 vs Gemini 2.5 Pro 深度测评：20项实测告诉你，国产开源模型真的能打了

DeepSeek V4 vs Gemini 2.5 Pro 深度测评：20项实测告诉你，国产开源模型真的能打了我让 DeepSeek V4 和 Gemini 2.5 Pro 同时分析一张全中文的季度财务报表截图——DeepSeek 不仅准确提取了所有数字，还主动指出了"应收账款周转天数环比上升17

2026-03-11

工具评测未读

Claude Sonnet 4.6 为什么这么香：接近 Opus 水准的半价选手

Claude Sonnet 4.6 为什么这么香：接近 Opus 水准的半价选手上个月我还在为 Opus 的账单肉疼，这个月我已经把它降级成"偶尔请出来的大杀器"了。这不是因为 Opus 变差了，而是 Claude Sonnet 4.6 太能打。说实话，我最开始对 Sonnet 系列的印象停留

2026-03-11

工具评测未读

DeepSeek V4深度实测：用20项任务告诉你，它有没有资格挑战Gemini 3.1 Pro

DeepSeek V4深度实测：用20项任务告诉你，它有没有资格挑战Gemini 3.1 Pro 当DeepSeek宣布V4参数量突破万亿的那一刻，我的第一反应不是兴奋，而是怀疑——开源模型真能打赢谷歌花了数十亿美元训练的Gemini？带着这个问题，我花了整整一周，跑完了20项测试。结果，让我重新理

2026-03-11