本文最后更新于 2026-05-28,文章内容可能已经过时。

我们用AI Agent跑了3周内容全流程,有些环节真的解放了双手,有一个差点让我们社死

那天是周一早上,选题会还没开始。

Agent已经自动跑完了一轮,生成了8个选题推送到群里。我们的主编扫了一眼,沉默了大概三秒,然后发了一句话:

"这玩意儿是在监视我们吗?"

8个选题里,有6个是竞品上周刚发过的内容——不是方向类似,是几乎一模一样的标题逻辑。Agent还很认真地给每个选题打了分,最高的一个写着"热度趋势强,建议优先跟进"。

我们跟进了个寂寞。

这是我们用AI Agent改造内容生产流程第4天发生的事。从那天起,我开始认真记录每一个翻车现场。三周后,我决定把这些写出来——不是为了证明AI有多厉害,也不是为了劝退,而是因为我们踩过的坑,值得让下一个人少走一段弯路。

---

第一章:为什么我们决定"梭哈"AI Agent

我们是一个5人内容团队,负责一个科技垂类账号的日常运营。每周要产出8-10篇内容,覆盖公众号、知乎、小红书三个平台。

改造之前,我们的工作流大概是这样的:

  • 周一选题会:3个人开会,平均1.5小时,最后定下来的选题有一半是在会上临时想到的
  • 周二到周四写稿:每人每周负责2-3篇,初稿完成率大概70%,剩下的会拖到周五
  • 周五排期:手动把稿子分配到三个平台,格式转换靠复制粘贴,经常出错

最大的痛点不是"写不出来",而是信息噪音太大。每天要处理的RSS订阅、行业简报、竞品动态加起来超过200条,真正有价值的可能就5条。选题会的大半时间,其实是在做信息筛选,而不是在做创意判断。

这个问题,理论上AI Agent很擅长处理。

于是我们决定试一试。目标不是"用AI写稿",而是用Agent把信息处理的脏活累活接管掉,让人专注在判断和创作上

---

第二章:我们搭了什么?流程拆解与工具选型

整条链路分5个节点,用Mermaid画出来大概是这样:

graph LR

A[信息聚合层\nRS + 爬虫] --> B[选题打分Agent]

B --> C[写稿Agent]

C --> D[审稿Agent]

D --> E[排期分发Agent]

B -->|人工卡点| B2[编辑确认选题]

B2 --> C

逐层说明:

信息聚合层

工具:RSSHub + Fedly API + 自写Python爬虫

每天定时抓取约300条内容,来源包括:行业媒体RSS、竞品账号更新、微博热搜关键词、Reddit相关板块。

抓完之后做一次去重和基础过滤(去掉广告、转载、字数低于200字的内容),剩下大概80-120条进入下一层。

选题打分Agent

工具:Claude Sonnet 4.6(主力)+ 自定义评分Prompt

这是整条链路的第一个真正的Agent节点。它的任务是:给每条信息打一个0-10的选题价值分,并给出推荐理由。

我们用的打分Prompt核心逻辑如下(脱敏版,可直接参考):

你是一个科技垂类内容编辑,负责为账号筛选有价值的选题。

请根据以下维度对每条信息打分(总分10分):

1. 读者相关性(0-3分):这条信息对我们的目标读者(科技从业者、AI爱好者)有多大实际价值?

2. 时效性(0-2分):是否是近48小时内的新鲜信息?是否有独家性?

3. 差异化空间(0-3分):我们能否提供竞品没有的角度或深度?

4. 传播潜力(0-2分):标题是否有话题性?是否容易引发讨论?

输出格式:

  • 总分:X/10
  • 各维度得分:相关性X | 时效X | 差异化X | 传播X
  • 推荐理由(50字以内)
  • 风险提示(如有)

注意:如果这条信息在过去7天内已有大量同类报道,差异化得分不得超过1分。

写稿Agent

工具:GPT-5.1(结构生成)+ Claude Sonnet 4.6(润色和语气调整)

两个模型分工:GPT负责生成文章骨架和初稿,Claude负责把语气调整成我们账号的风格。

写稿结构Prompt的核心框架:

你是一个科技内容作者,请根据以下选题和参考资料,生成一篇2000字左右的文章初稿。

文章结构要求:

1. 开头:用一个具体场景或数据切入,不超过150字

2. 背景:交代事件/技术的来龙去脉,200-300字

3. 核心内容:分3-4个小节展开,每节有小标题

4. 影响分析:对读者的实际影响,100-150字

5. 结尾:给出行动建议或留下思考问题

语气要求:专业但不学术,有观点但不武断,避免"颠覆""革命性"等大词。

审稿Agent 和 排期分发Agent

审稿Agent目前做的是基础检查:敏感词扫描、格式规范、基本事实一致性。

排期Agent负责把审核通过的稿子按平台格式转换,并推送到对应的草稿箱。

⚠️ 这两个节点是问题最多的地方,后面会详细说。
工具清单汇总: | 节点 | 工具/模型 | 是否需要API | 月均成本估算 | | 信息聚合 | RSSHub + Python | 否(自建) | 服务器费用 | | 选题打分 | Claude Sonnet 4.6 | 是 | 视用量 | | 写稿 | GPT-5.1 + Claude | 是 | 视用量 | | 审稿 | Claude Sonnet 4.6 | 是 | 视用量 | | 排期分发 | 自写脚本 | 否 | 0 |

在写稿Agent这里,我们测试了几种不同的模型接入方式。最后选择了通过 [api.884819.xyz](http://api.884819.xyz) 做统一接入——主要原因是可以在同一个接口下快速切换不同模型做对比测试,不用分别处理多套鉴权逻辑,对小团队来说省了不少配置时间。

---

第三章:最容易翻车的环节——选题Agent踩坑实录

开头那个"监视竞品"的故事,只是翻车的开始。

三周下来,选题Agent一共给我们制造了三类典型事故:

翻车案例一:把竞品爆款当"趋势信号"

现象: Agent连续3天推荐同一个方向的选题,理由是"该话题近期热度持续上升"。 真相: 热度上升的原因是竞品发了一篇爆款,Agent把竞品的流量当成了"市场需求",而不是"已被满足的需求"。 根本原因: 我们的信息源里包含了竞品账号的更新,但Prompt里没有明确区分"原始信息源"和"二手报道"。Agent无法判断一个话题是"刚出现的机会"还是"已经被人占了的地盘"。 修复方案: 在Prompt里加入一条规则:如果该话题在过去72小时内已有超过3篇同类报道,差异化得分强制降为1分,并在推荐理由中注明"赛道已拥挤"。

翻车案例二:对垂直圈子的"黑话"完全失灵

现象: 一条关于某个开源项目的信息,Agent给了3分,理由是"受众面窄,传播潜力有限"。但我们的编辑一眼就看出这是个大事件——这个项目在我们的核心读者群里是现象级的。 真相: Agent不知道这个项目在我们垂直圈子里的地位,它只能根据通用的"知名度"来判断,而不是"对我们读者的重要性"。 根本原因: 选题打分的"读者相关性"维度,依赖的是模型的通用知识,而不是我们账号的读者画像。 修复方案: 建立一个"垂直词库",把我们领域内的重要项目、人物、术语列成清单,作为系统提示词的一部分注入。效果有改善,但维护成本不低——这个词库需要人工持续更新。

翻车案例三:冷门赛道打分严重失准

现象: 凡是涉及小众但高价值方向的内容,Agent的打分普遍偏低。 真相: 模型的训练数据里,冷门赛道的内容本来就少,它对这些方向的"热度感知"是失真的。 根本原因: 这是模型能力的天花板,不是Prompt能完全解决的问题。 核心结论:
选题Agent的质量上限,不是模型有多聪明,而是你喂给它的信息有多准。垃圾信息源进去,再好的模型也只能输出垃圾选题。

我们花在"清洗信息源"上的时间,比花在"调Prompt"上的时间多了三倍。这个比例,是我们没想到的。

---

第四章:哪个环节最后还是得人盯着

写稿Agent的表现,比我们预期的要好——在结构生成和初稿速度上。

一篇2000字的初稿,从选题确认到生成完毕,大概需要3-5分钟。结构基本合理,逻辑通顺,可以直接作为编辑的工作底稿。

但有三件事,一旦交出去就会出事:

1. 事实核查

Agent会自信地写出一些"听起来很对"但实际上存疑的数据和表述。它不会说"我不确定",它只会给你一个看起来很权威的句子。

2. 品牌语气

我们账号有一些特定的表达习惯和禁用词。这些东西写在Prompt里有用,但不是100%有效。每隔几篇就会出现一次语气跑偏。

3. 敏感词和平台规则

不同平台的审核逻辑不同,Agent对这些规则的理解是静态的,跟不上平台的实时变化。

排期分发Agent的问题主要集中在跨平台格式适配上。同一篇稿子,公众号、知乎、小红书的格式要求差异很大。Agent处理图片引用、标签格式、字数限制的时候,翻车率大概在30%左右——每3篇就有1篇需要人工修正。

基于三周的实际经验,我们整理了一张人机分工矩阵:

| 流程节点 | 自动化程度 | 风险等级 | 建议分工 | | 信息抓取与去重 | ✅ 全自动 | 低 | 放手 | | 选题打分初筛 | ✅ 全自动 | 中 | Agent跑,人工复核Top10 | | 最终选题确认 | ❌ 不建议自动 | 高 | 人工决策 | | 文章结构生成 | ✅ 全自动 | 低 | 放手 | | 初稿写作 | ✅ 全自动 | 中 | Agent写,人工润色 | | 事实核查 | ❌ 不建议自动 | 高 | 人工负责 | | 敏感词/平台规则 | ⚠️ 辅助 | 高 | 人审AI改 | | 格式转换 | ⚠️ 辅助 | 中 | Agent转,人工校验 | | 发布排期 | ✅ 全自动 | 低 | 放手 |

---

第五章:3周后,我们真实的效率数据

不美化,也不唱衰。以下是改造前后的对比:

| 指标 | 改造前 | 改造后 | 变化 | | 周一选题会时长 | 约90分钟 | 约35缩短约60% | | 初稿完成时间(单篇) | 平均4-6小时 | 平均2-3小时 | 缩短约40-50% | | 每周初稿完成率 | 约70% | 约90% | 提升明显 | | 稿件返工次数(事实/格式问题) | 约2次/篇 | 约1.5次/篇 | 小幅改善 | | 团队主观满意度 | — | 4人表示"值得继续",1人持保留意见 | — |
⚠️ 说明:以上数据来自我们团队内部记录,样本量有限(3周,约25篇内容),不具备统计显著性,仅供参考。

最大的收益不是速度,而是选题会的质量变了

以前选题会的前半段是在处理信息——"这条新闻你们看了吗""这个方向有没有人跟进"。现在Agent已经把这些信息处理完了,选题会直接从"我们要不要做这个"开始。讨论的密度高了,决策的质量也高了。

这个变化,是我们最意外的收获。

下一步我们打算做什么:

审稿节点目前还是单模型跑,我们想引入多模型投票机制——用两个不同的模型分别审同一篇稿子,看分歧在哪里。目前在 [api.884819.xyz](http://api.884819.xyz) 上测试了几个模型组合,有两个表现出了有意思的差异,后续会单独出一篇对比分析。

诚实的ROI评估:

如果你的团队规模在3-8人,内容产出压力大,信息处理占用了大量时间——这套方案值得试。

如果你期待的是"搭完就能全自动跑"——现阶段还不行。它更像是一个需要持续调教的实习生,而不是一个可以放手的自动化系统。

我们现在的状态是:人被解放去做判断,Agent负责处理信息噪音。 这个分工,值得。

---

📌 下一篇预告

这篇文章里,我们刻意没有深入讲审稿Agent。

因为它是整条链路里最复杂、也最反直觉的一环:

你怎么让AI审自己写的稿子?它会不会"护短"?

我们测试了一个方案——让两个Agent互相挑对方写的稿子的毛病,模拟编辑部的"交叉审稿"机制。

结果出乎意料。

一个Agent开始对另一个Agent的用词提出质疑,然后……它们陷入了一场循环争论,谁也不肯认错。

这个实验揭示了多Agent协作里一个很少被讨论的问题。下周我们会专门写这一篇。如果你想第一时间看到,记得关注收藏。

---

本文由848AI原创,转载请注明出处。关848AI,带你从零开始学AI。 新用户注册即送体验token。 国产模型(Deepseek/千问等)完全免费,无月租,按量付费,注册直接用:[api.884819.xyz](http://api.884819.xyz)

#AI Agent #内容创作 #AI工具 #效率工具 #848AI #Prompt技巧 #AI写作 #自动化工作流