AI资讯
未读
GPT-5.5刚发布两天,朋友圈又刷屏了。
GPT-5.5刚发布两天,朋友圈又刷屏了。你是不是又开始纠结:要不要立刻换主力模型?订阅费会不会白交?国内访问会不会卡顿?每天在不同AI间切换,生产力到底有没有真正提升? 2026年4月,很多中国用户正面临这个选择。AI模型迭代速度快得让人喘不过气,但现实是:没有单一霸主。普通人选主力模型,与其盲目
AI应用案例
未读
你的同学可能已经用 Agent 读完了这个领域五年的文献,而你还在 Ctrl+F
你的同学可能已经用 Agent 读完了这个领域五年的文献,而你还在 Ctrl+F 两周 vs. 4 小时。 这是我认识的一个社科方向硕士生——姑且叫她小林——在同一个任务上花掉的时间对比。她的开题报告需要梳理"数字平台治理"这个交叉领域近五年的核心文献,横跨传播学、法学、计算机科学三个方向,大约 8
AI应用案例
未读
当 AI 不够用的时候,它选择去问人——Claude 这个细节让我重新理解了 Agent 设计
当 AI 不够用的时候,它选择去问人——Claude 这个细节让我重新理解了 Agent 设计 大多数 AI 遇到信息不够的时候,要么编,要么停。 编的那种,你大概见过:你问它一个它不知道答案的问题,它给你一个听起来很有把握的回答,细节丰满、逻辑自洽,但是错的。停的那种也常见:任务描述模糊,它就原地
AI提示词技巧
未读
Anthropic 用两个「做生意」实验,发现了所有商业 Agent 的致命弱点
Anthropic 用两个「做生意」实验,发现了所有商业 Agent 的致命弱点 Anthropic 花了大量资源,就为了测试 Claude 能不能卖零食和砍价? 听起来有点荒诞。但他们真正发现的,不是 Claude 有多强——而是商业 Agent 在哪里必然会翻车。更反直觉的是:翻车的原因,几乎从
AI工具测评
未读
Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂
Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂 你刷到过那条推文吗? 截图里,Grok用极其地道的网络用语回答问题,连"绷不住了""emo到极点"这类词都用得丝滑,评论区一片"Gemini可以退休了""谷歌中文组该裁员了"。我当时也心动了——毕竟Gemini的中文表现一
AI工具测评
未读
GPT-5.5 的「earnest 风格」:当 AI 开始拒绝讨好你
GPT-5.5 的「earnest 风格」:当 AI 开始拒绝讨好你 上周我把同一个问题发给了两个版本的 GPT。 问题很普通:「我打算用微服务架构重构这个项目,你觉得怎么样?」 GPT-5.4 的回答大概是这样的:「这是个很好的想法!微服务架构确实有很多优势,比如独立部署、技术栈灵活……当然,也需
AI工具测评
未读
AI Agent 能独立完成学术研究吗?我用 3 篇真实论文测了一遍
AI Agent 能独立完成学术研究吗?我用 3 篇真实论文测了一遍 两周前,我在 X 上看到 Ethan Mollick 的一条推文,大意是:AI Agent 已经能够端到端重建学术论文的核心研究流程——从数据处理、分析到结论复现,基本上能跑通一整套科研管线。 这条推文在学术圈和 AI 圈都炸了锅
AI应用案例
未读
Claude 不是更会聊天了,而是更会“补齐信息”了
Claude 不是更会聊天了,而是更会“补齐信息”了 如果 AI 不是等你把答案喂给它,而是先去“采访”69 位同事,把缺口一块块补齐,再把碎片信息整理成一份可执行建议——它还只是聊天机器人吗? 这正是 Project Deal 里最值得看的地方。我们真正该关心的,不是它会不会说漂亮话,而是它有没有
AI工具测评
未读
Grok 在中文场景真的比 Gemini 更强吗?我用同一套测试复核后,答案只对了一半
Grok 在中文场景真的比 Gemini 更强吗?我用同一套测试复核后,答案只对了一半 那条说 Grok 在非英语场景,尤其是中文里更自然、更讨喜 的热推,我第一眼看完其实是点头的。 但如果把它直接理解成“Grok 全面碾压 Gemini”,那就太快下结论了。 我把同一批中文样题重新跑了一遍,感受很
AI提示词技巧
未读
更聪明的模型,开始只做你说的,不做你想的
更聪明的模型,开始只做你说的,不做你想的 我以为更聪明的模型会更懂我。 结果发现,它开始只做我说的,不做我想的。 这个发现让我愣了几秒钟。我用了一条以前百试百灵的 Prompt——"帮我写一封道歉信"——得到的输出干净、规范、完全符合字面要求,但就是少了点什么。少了那种旧版模型会"顺手"补充的背景感