我们用AI Agent跑了3周内容全流程,有些环节真的解放了双手,有一个差点让我们社死
本文最后更新于 2026-05-28,文章内容可能已经过时。
我们用AI Agent跑了3周内容全流程,有些环节真的解放了双手,有一个差点让我们社死
那天是周一早上,选题会还没开始。
Agent已经自动跑完了一轮,生成了8个选题推送到群里。我们的主编扫了一眼,沉默了大概三秒,然后发了一句话:
"这玩意儿是在监视我们吗?"8个选题里,有6个是竞品上周刚发过的内容——不是方向类似,是几乎一模一样的标题逻辑。Agent还很认真地给每个选题打了分,最高的一个写着"热度趋势强,建议优先跟进"。
我们跟进了个寂寞。
这是我们用AI Agent改造内容生产流程第4天发生的事。从那天起,我开始认真记录每一个翻车现场。三周后,我决定把这些写出来——不是为了证明AI有多厉害,也不是为了劝退,而是因为我们踩过的坑,值得让下一个人少走一段弯路。
---
第一章:为什么我们决定"梭哈"AI Agent
我们是一个5人内容团队,负责一个科技垂类账号的日常运营。每周要产出8-10篇内容,覆盖公众号、知乎、小红书三个平台。
改造之前,我们的工作流大概是这样的:
- 周一选题会:3个人开会,平均1.5小时,最后定下来的选题有一半是在会上临时想到的
- 周二到周四写稿:每人每周负责2-3篇,初稿完成率大概70%,剩下的会拖到周五
- 周五排期:手动把稿子分配到三个平台,格式转换靠复制粘贴,经常出错
最大的痛点不是"写不出来",而是信息噪音太大。每天要处理的RSS订阅、行业简报、竞品动态加起来超过200条,真正有价值的可能就5条。选题会的大半时间,其实是在做信息筛选,而不是在做创意判断。
这个问题,理论上AI Agent很擅长处理。
于是我们决定试一试。目标不是"用AI写稿",而是用Agent把信息处理的脏活累活接管掉,让人专注在判断和创作上。
---
第二章:我们搭了什么?流程拆解与工具选型
整条链路分5个节点,用Mermaid画出来大概是这样:
graph LR
A[信息聚合层\nRS + 爬虫] --> B[选题打分Agent]
B --> C[写稿Agent]
C --> D[审稿Agent]
D --> E[排期分发Agent]
B -->|人工卡点| B2[编辑确认选题]
B2 --> C
逐层说明:
信息聚合层
工具:RSSHub + Fedly API + 自写Python爬虫
每天定时抓取约300条内容,来源包括:行业媒体RSS、竞品账号更新、微博热搜关键词、Reddit相关板块。
抓完之后做一次去重和基础过滤(去掉广告、转载、字数低于200字的内容),剩下大概80-120条进入下一层。
选题打分Agent
工具:Claude Sonnet 4.6(主力)+ 自定义评分Prompt
这是整条链路的第一个真正的Agent节点。它的任务是:给每条信息打一个0-10的选题价值分,并给出推荐理由。
我们用的打分Prompt核心逻辑如下(脱敏版,可直接参考):
你是一个科技垂类内容编辑,负责为账号筛选有价值的选题。
请根据以下维度对每条信息打分(总分10分):
1. 读者相关性(0-3分):这条信息对我们的目标读者(科技从业者、AI爱好者)有多大实际价值?
2. 时效性(0-2分):是否是近48小时内的新鲜信息?是否有独家性?
3. 差异化空间(0-3分):我们能否提供竞品没有的角度或深度?
4. 传播潜力(0-2分):标题是否有话题性?是否容易引发讨论?
输出格式:
- 总分:X/10
- 各维度得分:相关性X | 时效X | 差异化X | 传播X
- 推荐理由(50字以内)
- 风险提示(如有)
注意:如果这条信息在过去7天内已有大量同类报道,差异化得分不得超过1分。
写稿Agent
工具:GPT-5.1(结构生成)+ Claude Sonnet 4.6(润色和语气调整)
两个模型分工:GPT负责生成文章骨架和初稿,Claude负责把语气调整成我们账号的风格。
写稿结构Prompt的核心框架:
你是一个科技内容作者,请根据以下选题和参考资料,生成一篇2000字左右的文章初稿。
文章结构要求:
1. 开头:用一个具体场景或数据切入,不超过150字
2. 背景:交代事件/技术的来龙去脉,200-300字
3. 核心内容:分3-4个小节展开,每节有小标题
4. 影响分析:对读者的实际影响,100-150字
5. 结尾:给出行动建议或留下思考问题
语气要求:专业但不学术,有观点但不武断,避免"颠覆""革命性"等大词。
审稿Agent 和 排期分发Agent
审稿Agent目前做的是基础检查:敏感词扫描、格式规范、基本事实一致性。
排期Agent负责把审核通过的稿子按平台格式转换,并推送到对应的草稿箱。
⚠️ 这两个节点是问题最多的地方,后面会详细说。工具清单汇总: | 节点 | 工具/模型 | 是否需要API | 月均成本估算 | | 信息聚合 | RSSHub + Python | 否(自建) | 服务器费用 | | 选题打分 | Claude Sonnet 4.6 | 是 | 视用量 | | 写稿 | GPT-5.1 + Claude | 是 | 视用量 | | 审稿 | Claude Sonnet 4.6 | 是 | 视用量 | | 排期分发 | 自写脚本 | 否 | 0 |
在写稿Agent这里,我们测试了几种不同的模型接入方式。最后选择了通过 [api.884819.xyz](http://api.884819.xyz) 做统一接入——主要原因是可以在同一个接口下快速切换不同模型做对比测试,不用分别处理多套鉴权逻辑,对小团队来说省了不少配置时间。
---
第三章:最容易翻车的环节——选题Agent踩坑实录
开头那个"监视竞品"的故事,只是翻车的开始。
三周下来,选题Agent一共给我们制造了三类典型事故:
翻车案例一:把竞品爆款当"趋势信号"
现象: Agent连续3天推荐同一个方向的选题,理由是"该话题近期热度持续上升"。 真相: 热度上升的原因是竞品发了一篇爆款,Agent把竞品的流量当成了"市场需求",而不是"已被满足的需求"。 根本原因: 我们的信息源里包含了竞品账号的更新,但Prompt里没有明确区分"原始信息源"和"二手报道"。Agent无法判断一个话题是"刚出现的机会"还是"已经被人占了的地盘"。 修复方案: 在Prompt里加入一条规则:如果该话题在过去72小时内已有超过3篇同类报道,差异化得分强制降为1分,并在推荐理由中注明"赛道已拥挤"。
翻车案例二:对垂直圈子的"黑话"完全失灵
现象: 一条关于某个开源项目的信息,Agent给了3分,理由是"受众面窄,传播潜力有限"。但我们的编辑一眼就看出这是个大事件——这个项目在我们的核心读者群里是现象级的。 真相: Agent不知道这个项目在我们垂直圈子里的地位,它只能根据通用的"知名度"来判断,而不是"对我们读者的重要性"。 根本原因: 选题打分的"读者相关性"维度,依赖的是模型的通用知识,而不是我们账号的读者画像。 修复方案: 建立一个"垂直词库",把我们领域内的重要项目、人物、术语列成清单,作为系统提示词的一部分注入。效果有改善,但维护成本不低——这个词库需要人工持续更新。翻车案例三:冷门赛道打分严重失准
现象: 凡是涉及小众但高价值方向的内容,Agent的打分普遍偏低。 真相: 模型的训练数据里,冷门赛道的内容本来就少,它对这些方向的"热度感知"是失真的。 根本原因: 这是模型能力的天花板,不是Prompt能完全解决的问题。 核心结论:选题Agent的质量上限,不是模型有多聪明,而是你喂给它的信息有多准。垃圾信息源进去,再好的模型也只能输出垃圾选题。
我们花在"清洗信息源"上的时间,比花在"调Prompt"上的时间多了三倍。这个比例,是我们没想到的。
---
第四章:哪个环节最后还是得人盯着
写稿Agent的表现,比我们预期的要好——在结构生成和初稿速度上。
一篇2000字的初稿,从选题确认到生成完毕,大概需要3-5分钟。结构基本合理,逻辑通顺,可以直接作为编辑的工作底稿。
但有三件事,一旦交出去就会出事:
1. 事实核查Agent会自信地写出一些"听起来很对"但实际上存疑的数据和表述。它不会说"我不确定",它只会给你一个看起来很权威的句子。
2. 品牌语气我们账号有一些特定的表达习惯和禁用词。这些东西写在Prompt里有用,但不是100%有效。每隔几篇就会出现一次语气跑偏。
3. 敏感词和平台规则不同平台的审核逻辑不同,Agent对这些规则的理解是静态的,跟不上平台的实时变化。
排期分发Agent的问题主要集中在跨平台格式适配上。同一篇稿子,公众号、知乎、小红书的格式要求差异很大。Agent处理图片引用、标签格式、字数限制的时候,翻车率大概在30%左右——每3篇就有1篇需要人工修正。
基于三周的实际经验,我们整理了一张人机分工矩阵:
| 流程节点 | 自动化程度 | 风险等级 | 建议分工 | | 信息抓取与去重 | ✅ 全自动 | 低 | 放手 | | 选题打分初筛 | ✅ 全自动 | 中 | Agent跑,人工复核Top10 | | 最终选题确认 | ❌ 不建议自动 | 高 | 人工决策 | | 文章结构生成 | ✅ 全自动 | 低 | 放手 | | 初稿写作 | ✅ 全自动 | 中 | Agent写,人工润色 | | 事实核查 | ❌ 不建议自动 | 高 | 人工负责 | | 敏感词/平台规则 | ⚠️ 辅助 | 高 | 人审AI改 | | 格式转换 | ⚠️ 辅助 | 中 | Agent转,人工校验 | | 发布排期 | ✅ 全自动 | 低 | 放手 |---
第五章:3周后,我们真实的效率数据
不美化,也不唱衰。以下是改造前后的对比:
| 指标 | 改造前 | 改造后 | 变化 | | 周一选题会时长 | 约90分钟 | 约35缩短约60% | | 初稿完成时间(单篇) | 平均4-6小时 | 平均2-3小时 | 缩短约40-50% | | 每周初稿完成率 | 约70% | 约90% | 提升明显 | | 稿件返工次数(事实/格式问题) | 约2次/篇 | 约1.5次/篇 | 小幅改善 | | 团队主观满意度 | — | 4人表示"值得继续",1人持保留意见 | — |⚠️ 说明:以上数据来自我们团队内部记录,样本量有限(3周,约25篇内容),不具备统计显著性,仅供参考。
最大的收益不是速度,而是选题会的质量变了。
以前选题会的前半段是在处理信息——"这条新闻你们看了吗""这个方向有没有人跟进"。现在Agent已经把这些信息处理完了,选题会直接从"我们要不要做这个"开始。讨论的密度高了,决策的质量也高了。
这个变化,是我们最意外的收获。
下一步我们打算做什么:审稿节点目前还是单模型跑,我们想引入多模型投票机制——用两个不同的模型分别审同一篇稿子,看分歧在哪里。目前在 [api.884819.xyz](http://api.884819.xyz) 上测试了几个模型组合,有两个表现出了有意思的差异,后续会单独出一篇对比分析。
诚实的ROI评估:如果你的团队规模在3-8人,内容产出压力大,信息处理占用了大量时间——这套方案值得试。
如果你期待的是"搭完就能全自动跑"——现阶段还不行。它更像是一个需要持续调教的实习生,而不是一个可以放手的自动化系统。
我们现在的状态是:人被解放去做判断,Agent负责处理信息噪音。 这个分工,值得。
---
📌 下一篇预告
这篇文章里,我们刻意没有深入讲审稿Agent。
因为它是整条链路里最复杂、也最反直觉的一环:
你怎么让AI审自己写的稿子?它会不会"护短"?我们测试了一个方案——让两个Agent互相挑对方写的稿子的毛病,模拟编辑部的"交叉审稿"机制。
结果出乎意料。
一个Agent开始对另一个Agent的用词提出质疑,然后……它们陷入了一场循环争论,谁也不肯认错。
这个实验揭示了多Agent协作里一个很少被讨论的问题。下周我们会专门写这一篇。如果你想第一时间看到,记得关注收藏。
---
本文由848AI原创,转载请注明出处。关848AI,带你从零开始学AI。 新用户注册即送体验token。 国产模型(Deepseek/千问等)完全免费,无月租,按量付费,注册直接用:[api.884819.xyz](http://api.884819.xyz)#AI Agent #内容创作 #AI工具 #效率工具 #848AI #Prompt技巧 #AI写作 #自动化工作流