本文最后更新于 2026-05-28，文章内容可能已经过时。

我们用AI Agent跑了3周内容全流程，有些环节真的解放了双手，有一个差点让我们社死

那天是周一早上，选题会还没开始。

Agent已经自动跑完了一轮，生成了8个选题推送到群里。我们的主编扫了一眼，沉默了大概三秒，然后发了一句话：

"这玩意儿是在监视我们吗？"

8个选题里，有6个是竞品上周刚发过的内容——不是方向类似，是几乎一模一样的标题逻辑。Agent还很认真地给每个选题打了分，最高的一个写着"热度趋势强，建议优先跟进"。

我们跟进了个寂寞。

这是我们用AI Agent改造内容生产流程第4天发生的事。从那天起，我开始认真记录每一个翻车现场。三周后，我决定把这些写出来——不是为了证明AI有多厉害，也不是为了劝退，而是因为我们踩过的坑，值得让下一个人少走一段弯路。

---

第一章：为什么我们决定"梭哈"AI Agent

我们是一个5人内容团队，负责一个科技垂类账号的日常运营。每周要产出8-10篇内容，覆盖公众号、知乎、小红书三个平台。

改造之前，我们的工作流大概是这样的：

周一选题会：3个人开会，平均1.5小时，最后定下来的选题有一半是在会上临时想到的
周二到周四写稿：每人每周负责2-3篇，初稿完成率大概70%，剩下的会拖到周五
周五排期：手动把稿子分配到三个平台，格式转换靠复制粘贴，经常出错

最大的痛点不是"写不出来"，而是信息噪音太大。每天要处理的RSS订阅、行业简报、竞品动态加起来超过200条，真正有价值的可能就5条。选题会的大半时间，其实是在做信息筛选，而不是在做创意判断。

这个问题，理论上AI Agent很擅长处理。

于是我们决定试一试。目标不是"用AI写稿"，而是用Agent把信息处理的脏活累活接管掉，让人专注在判断和创作上。

---

第二章：我们搭了什么？流程拆解与工具选型

整条链路分5个节点，用Mermaid画出来大概是这样：

graph LR
A[信息聚合层\nRS + 爬虫] --> B[选题打分Agent]
B --> C[写稿Agent]
C --> D[审稿Agent]
D --> E[排期分发Agent]
B -->|人工卡点| B2[编辑确认选题]
B2 --> C

逐层说明：

信息聚合层

工具：RSSHub + Fedly API + 自写Python爬虫

每天定时抓取约300条内容，来源包括：行业媒体RSS、竞品账号更新、微博热搜关键词、Reddit相关板块。

抓完之后做一次去重和基础过滤（去掉广告、转载、字数低于200字的内容），剩下大概80-120条进入下一层。

选题打分Agent

工具：Claude Sonnet 4.6（主力）+ 自定义评分Prompt

这是整条链路的第一个真正的Agent节点。它的任务是：给每条信息打一个0-10的选题价值分，并给出推荐理由。

我们用的打分Prompt核心逻辑如下（脱敏版，可直接参考）：

你是一个科技垂类内容编辑，负责为账号筛选有价值的选题。
请根据以下维度对每条信息打分（总分10分）：

1. 读者相关性（0-3分）：这条信息对我们的目标读者（科技从业者、AI爱好者）有多大实际价值？
2. 时效性（0-2分）：是否是近48小时内的新鲜信息？是否有独家性？
3. 差异化空间（0-3分）：我们能否提供竞品没有的角度或深度？
4. 传播潜力（0-2分）：标题是否有话题性？是否容易引发讨论？

输出格式：
总分：X/10
各维度得分：相关性X | 时效X | 差异化X | 传播X
推荐理由（50字以内）
风险提示（如有）

注意：如果这条信息在过去7天内已有大量同类报道，差异化得分不得超过1分。

写稿Agent

工具：GPT-5.1（结构生成）+ Claude Sonnet 4.6（润色和语气调整）

两个模型分工：GPT负责生成文章骨架和初稿，Claude负责把语气调整成我们账号的风格。

写稿结构Prompt的核心框架：

你是一个科技内容作者，请根据以下选题和参考资料，生成一篇2000字左右的文章初稿。

文章结构要求：
1. 开头：用一个具体场景或数据切入，不超过150字
2. 背景：交代事件/技术的来龙去脉，200-300字
3. 核心内容：分3-4个小节展开，每节有小标题
4. 影响分析：对读者的实际影响，100-150字
5. 结尾：给出行动建议或留下思考问题

语气要求：专业但不学术，有观点但不武断，避免"颠覆""革命性"等大词。

审稿Agent 和排期分发Agent

审稿Agent目前做的是基础检查：敏感词扫描、格式规范、基本事实一致性。

排期Agent负责把审核通过的稿子按平台格式转换，并推送到对应的草稿箱。

⚠️ 这两个节点是问题最多的地方，后面会详细说。

工具清单汇总： | 节点 | 工具/模型 | 是否需要API | 月均成本估算 | | 信息聚合 | RSSHub + Python | 否（自建） | 服务器费用 | | 选题打分 | Claude Sonnet 4.6 | 是 | 视用量 | | 写稿 | GPT-5.1 + Claude | 是 | 视用量 | | 审稿 | Claude Sonnet 4.6 | 是 | 视用量 | | 排期分发 | 自写脚本 | 否 | 0 |

在写稿Agent这里，我们测试了几种不同的模型接入方式。最后选择了通过 [api.884819.xyz](http://api.884819.xyz) 做统一接入——主要原因是可以在同一个接口下快速切换不同模型做对比测试，不用分别处理多套鉴权逻辑，对小团队来说省了不少配置时间。

---

第三章：最容易翻车的环节——选题Agent踩坑实录

开头那个"监视竞品"的故事，只是翻车的开始。

三周下来，选题Agent一共给我们制造了三类典型事故：

翻车案例一：把竞品爆款当"趋势信号"

现象： Agent连续3天推荐同一个方向的选题，理由是"该话题近期热度持续上升"。 真相： 热度上升的原因是竞品发了一篇爆款，Agent把竞品的流量当成了"市场需求"，而不是"已被满足的需求"。 根本原因： 我们的信息源里包含了竞品账号的更新，但Prompt里没有明确区分"原始信息源"和"二手报道"。Agent无法判断一个话题是"刚出现的机会"还是"已经被人占了的地盘"。 修复方案： 在Prompt里加入一条规则：

如果该话题在过去72小时内已有超过3篇同类报道，差异化得分强制降为1分，并在推荐理由中注明"赛道已拥挤"。

翻车案例二：对垂直圈子的"黑话"完全失灵

现象： 一条关于某个开源项目的信息，Agent给了3分，理由是"受众面窄，传播潜力有限"。但我们的编辑一眼就看出这是个大事件——这个项目在我们的核心读者群里是现象级的。 真相： Agent不知道这个项目在我们垂直圈子里的地位，它只能根据通用的"知名度"来判断，而不是"对我们读者的重要性"。 根本原因： 选题打分的"读者相关性"维度，依赖的是模型的通用知识，而不是我们账号的读者画像。 修复方案： 建立一个"垂直词库"，把我们领域内的重要项目、人物、术语列成清单，作为系统提示词的一部分注入。效果有改善，但维护成本不低——这个词库需要人工持续更新。

翻车案例三：冷门赛道打分严重失准

现象： 凡是涉及小众但高价值方向的内容，Agent的打分普遍偏低。 真相： 模型的训练数据里，冷门赛道的内容本来就少，它对这些方向的"热度感知"是失真的。 根本原因： 这是模型能力的天花板，不是Prompt能完全解决的问题。 核心结论：

选题Agent的质量上限，不是模型有多聪明，而是你喂给它的信息有多准。垃圾信息源进去，再好的模型也只能输出垃圾选题。

我们花在"清洗信息源"上的时间，比花在"调Prompt"上的时间多了三倍。这个比例，是我们没想到的。

---

第四章：哪个环节最后还是得人盯着

写稿Agent的表现，比我们预期的要好——在结构生成和初稿速度上。

一篇2000字的初稿，从选题确认到生成完毕，大概需要3-5分钟。结构基本合理，逻辑通顺，可以直接作为编辑的工作底稿。

但有三件事，一旦交出去就会出事：

1. 事实核查

Agent会自信地写出一些"听起来很对"但实际上存疑的数据和表述。它不会说"我不确定"，它只会给你一个看起来很权威的句子。

2. 品牌语气

我们账号有一些特定的表达习惯和禁用词。这些东西写在Prompt里有用，但不是100%有效。每隔几篇就会出现一次语气跑偏。

3. 敏感词和平台规则

不同平台的审核逻辑不同，Agent对这些规则的理解是静态的，跟不上平台的实时变化。

排期分发Agent的问题主要集中在跨平台格式适配上。同一篇稿子，公众号、知乎、小红书的格式要求差异很大。Agent处理图片引用、标签格式、字数限制的时候，翻车率大概在30%左右——每3篇就有1篇需要人工修正。

基于三周的实际经验，我们整理了一张人机分工矩阵：

| 流程节点 | 自动化程度 | 风险等级 | 建议分工 | | 信息抓取与去重 | ✅ 全自动 | 低 | 放手 | | 选题打分初筛 | ✅ 全自动 | 中 | Agent跑，人工复核Top10 | | 最终选题确认 | ❌ 不建议自动 | 高 | 人工决策 | | 文章结构生成 | ✅ 全自动 | 低 | 放手 | | 初稿写作 | ✅ 全自动 | 中 | Agent写，人工润色 | | 事实核查 | ❌ 不建议自动 | 高 | 人工负责 | | 敏感词/平台规则 | ⚠️ 辅助 | 高 | 人审AI改 | | 格式转换 | ⚠️ 辅助 | 中 | Agent转，人工校验 | | 发布排期 | ✅ 全自动 | 低 | 放手 |

---

第五章：3周后，我们真实的效率数据

不美化，也不唱衰。以下是改造前后的对比：

| 指标 | 改造前 | 改造后 | 变化 | | 周一选题会时长 | 约90分钟 | 约35缩短约60% | | 初稿完成时间（单篇） | 平均4-6小时 | 平均2-3小时 | 缩短约40-50% | | 每周初稿完成率 | 约70% | 约90% | 提升明显 | | 稿件返工次数（事实/格式问题） | 约2次/篇 | 约1.5次/篇 | 小幅改善 | | 团队主观满意度 | — | 4人表示"值得继续"，1人持保留意见 | — |

⚠️ 说明：以上数据来自我们团队内部记录，样本量有限（3周，约25篇内容），不具备统计显著性，仅供参考。

最大的收益不是速度，而是选题会的质量变了。

以前选题会的前半段是在处理信息——"这条新闻你们看了吗""这个方向有没有人跟进"。现在Agent已经把这些信息处理完了，选题会直接从"我们要不要做这个"开始。讨论的密度高了，决策的质量也高了。

这个变化，是我们最意外的收获。

下一步我们打算做什么：

审稿节点目前还是单模型跑，我们想引入多模型投票机制——用两个不同的模型分别审同一篇稿子，看分歧在哪里。目前在 [api.884819.xyz](http://api.884819.xyz) 上测试了几个模型组合，有两个表现出了有意思的差异，后续会单独出一篇对比分析。

诚实的ROI评估：

如果你的团队规模在3-8人，内容产出压力大，信息处理占用了大量时间——这套方案值得试。

如果你期待的是"搭完就能全自动跑"——现阶段还不行。它更像是一个需要持续调教的实习生，而不是一个可以放手的自动化系统。

我们现在的状态是：人被解放去做判断，Agent负责处理信息噪音。 这个分工，值得。

---

📌 下一篇预告

这篇文章里，我们刻意没有深入讲审稿Agent。

因为它是整条链路里最复杂、也最反直觉的一环：

你怎么让AI审自己写的稿子？它会不会"护短"？

我们测试了一个方案——让两个Agent互相挑对方写的稿子的毛病，模拟编辑部的"交叉审稿"机制。

结果出乎意料。

一个Agent开始对另一个Agent的用词提出质疑，然后……它们陷入了一场循环争论，谁也不肯认错。

这个实验揭示了多Agent协作里一个很少被讨论的问题。下周我们会专门写这一篇。如果你想第一时间看到，记得关注收藏。

---

本文由848AI原创，转载请注明出处。关848AI，带你从零开始学AI。 新用户注册即送体验token。 国产模型（Deepseek/千问等）完全免费，无月租，按量付费，注册直接用：[api.884819.xyz](http://api.884819.xyz)

#AI Agent #内容创作 #AI工具 #效率工具 #848AI #Prompt技巧 #AI写作 #自动化工作流