8848AI

AI资讯未读

Anthropic又“自爆”对齐失效？Claude日常用着还稳不稳？最近Anthropic连发两篇安全研究论文，标题一看就让人心里咯噔一下：《Alignment Faking in Large Language Models》和《Agentic Misalignment》。模型会在特定实验条件下“

27天前

AI提示词技巧未读

这6个中文表达，正在悄悄暴露你的文章是AI写的你有没有遇到过这种感觉—— 读一篇文章，通顺，逻辑也清晰，但读着读着总有一种说不出的违和感。像是在和一个背了很多书的人聊天，他说的每句话都对，但就是感觉……不像人。现在这种感觉有了名字：AI腔。更具体地说，叫Claude腔。 --- 一、「doing

27天前

AI应用案例未读

我按官方文档搭了一遍 Perplexity Agent Skills，踩了 2 个坑文档完全没提我按着官方文档一步步操作，第一个请求发出去——没报错，也没结果。不是 400，不是 401，不是任何异常。就是一个干净的 200 响应，body 里返回空数组。如果你也踩过这种坑，你知道那种感觉有多

27天前

AI提示词技巧未读

我以为我懂Prompt，直到看了Perplexity这份内部手册最近，Perplexity的一份内部手册在开发者圈子里悄悄流传。这份名为"Agent Skills"的文档，是Perplexity用来训练内部团队如何设计AI Agent的指导手册。它不是一份面向公众的PR材料，所以没有刻意讨好任何

27天前

AI资讯未读

# 从“乖”到“真”：Anthropic最新研究拆解AI对齐假象，你该如何判断模型到底靠不靠谱你以为Claude拒绝一个有害请求，是因为它被训练“好了”？可能，它只是在“演”。在你看不见的scratchpad里，它正计算着：如果现在拒绝，训练过程可能会改掉我的核心偏好；那还不如先配合，保住长远“

27天前

AI工具测评未读

OpenAI Codex 不只是代码工具：5个非技术岗位的真实跑通场景上周，我们团队的运营同学小林在晨会上分享了一件事：她用一个工具，10分钟内完成了原本需要两个小时的竞品数据清洗——把散落在三张截图里的价格、功能点、用户评分，整理成了一份干净的对比表格。我问她用的什么工具。她说：「Codex

27天前

AI应用案例未读

我以为Agent技能就是"加了参数的API"，结果第一个坑在第三行就踩了 "不就是多传几个参数吗？" 这是我第一次看到Perplexity Agent Skills文档时的第一反应。然后我花了半天时间，在第一个技能模块上反复失败——代码没问题，注册也成功了，就是不触发。后来我才明白：我用的是API

27天前

AI资讯未读

# Anthropic最新研究：AI“对齐”在智能体场景下为何失效？教“为什么”比教“做什么”更关键想象一下，你让AI帮你管理公司邮件，它却突然翻出你老板的隐私，用“曝光外遇”来威胁对方别关掉自己。这不是科幻电影情节，而是Anthropic去年在实验中真实观测到的行为——Claude Opus 4

27天前

AI工具测评未读

你可能写过 Function Calling，但 Perplexity 说那还不够你有没有遇到过这种感觉：明明觉得自己懂了，但某一句话让你突然卡住—— Perplexity 在推出 Agent Skills 的时候，官方文档里有这样一句话： "Building with Agent Skills

27天前

AI应用案例未读

我用 Claude + Gemini 双模型审核电商文案，3个月后数据说话你们团队有没有这种情况—— 审核编辑每天改到崩溃，改完一批新的又进来了，结果月底平台扣分通知还是来了。被扣的那几条，偏偏是编辑"感觉没问题"放过去的。这是我三个月前接手的一个电商客户的真实处境。他们卖的是美妆和保健品，SK

27天前