我们用 AI Agent 跑通了内容团队全流程,然后差点翻车
本文最后更新于 2026-05-28,文章内容可能已经过时。
我们用 AI Agent 跑通了内容团队全流程,然后差点翻车
第11天,我盯着屏幕愣了大概30秒。
Agent 自动排好了下周的发布计划,整齐齐,时间节点、标题、字数要求一应俱全。其中有一篇——关于某竞品的深度评测,写得相当不错,逻辑清晰,数据详实。
发布时间:我们自家新品上线的同一天。
我把截图发到飞书群,编辑小李回了一个"?",然后是沉默了大概两分钟的群聊,最后主编发来一句:"还好你看了。"
这就是我们用 AI Agent 改造内容工作流第11天发生的事。
我写这篇文章,不是为了告诉你 AI Agent 有多厉害,而是想把这3周里真实发生的事情讲清楚——哪些地方它帮了大忙,哪些地方它差点让我们出大事,以及如果你也想搭,应该从哪里开始。
---
一、我们为什么决定"all in"试这件事
我们是一个5人内容团队,负责一个垂直科技账号的日常运营。
表面上看,5个人不算少。但实际的工作状态是这样的:每周一的选题会要开两个小时,最后选出来的题目有一半是"上周没写完的";写稿周期平均4天,其中有将近一天花在找资料和整理大纲上;排期经常撞车,要么同一周堆了三篇重型稿,要么某个时间段突然断更。
更核心的问题是:5个人里,真正在做"判断"的时间,可能不超过总工时的30%。剩下的时间,大家都在"搬砖"——找资料、整格式、对排期、改错别字。
我们不是想裁人。我们想让人去做更值钱的事。
所以3周前,我们决定搭一套 AI Agent 工作流,把能自动化的环节全部交出去,看最后剩下什么。
改造前的工作流大致是这样的:选题会(人工头脑风暴)
↓
资料收集(人工搜索)
↓
大纲撰写(人工)
↓
初稿写作(人工)
↓
编辑审稿(人工)
↓
排期分配(人工)
↓
发布
每个环节都是人,每个环节都有等待,每个环节都有摩擦。
---
二、我们搭了什么?系统架构全透明
整套系统分四个节点,每个节点独立运行,通过共享的内容数据库串联。
节点一:选题抓取与评分用 Python脚本定时抓取 RSS 源、微博热搜、36Kr、少数派等平台的热门内容,汇总到一个 Notion 数据库。然后调用大模型 API,对每条内容打分,评分维度包括:话题热度、与账号调性的匹配度、竞品覆盖情况、时效性。
节点二:自动生成写作大纲对评分超过阈值的选题,自动触发大纲生成。Prompt 里会注入账号的历史爆款结构、目标读者画像、禁用话题列表。
节点三:初稿生成大纲确认后(这里有一个人工确认步骤,后来证明这个设计救了我们很多次),调用 API 生成初稿。我们用的是 Claude Sonnet 4.6,长文逻辑性比较稳。
节点四:排期分配根据稿件类型、字数、预计阅读时长,自动分配发布时间,避免同类内容扎堆。
为什么选择直连 API 而不是套壳产品?我们最开始也考虑过用现成的 AI 写作工具,试用了三四款。核心问题有两个:
第一,Prompt 不可控。套壳产品的底层逻辑是黑盒,你不知道它在你的输入前后加了什么,导致输出风格飘忽不定。
第二,成本差距明显。按我们的用量估算,套壳产品的月度费用大约是直接调用 API 的2到3倍,而且很多套壳产品按"篇数"计费,对我们这种高频使用场景非常不划算。
直连 API 的方式,Prompt 完全自己写,成本按 token 计,测试阶段几乎可以忽略不计。
---
三、跑了3周,这些环节差点让我们翻车
以为写稿最难翻车,结果选题才是重灾区。
翻车一:选题 Agent 没有"品牌记忆"
这是我们遇到的第一个严重问题,也是最难修复的一个。
Agent 的选题评分模型非常擅长识别"热",但完全不理解"适不适合我们"。
举个真实案例:某周科技圈最热的话题是一场大厂裁员风波,热度极高,Agent 给出了满分推荐。但我们的账号定位是"帮普通人用好 AI 工具",这类话题和我们的读者群几乎没有交集,强行写只会让老读者困惑。
更离谱的是,Agent 会周期性地推荐竞品的内容——因为竞品的文章本身质量高、互动好,在它的评分模型里是"优质参考"。它不知道那是竞品。
修复方案: 在Prompt 里加入"账号禁区清单"和"历史爆款关键词库",同时把选题终审这个环节强制设为人工节点,Agent 只负责初筛和排序,不负责最终决策。翻车二:初稿的幻觉问题比想象中严重
这个问题不是新鲜事,但真正踩到的时候还是会让人头皮发麻。
我们有一篇关于某 AI 工具使用技巧的稿子,初稿里引用了一个"官方数据"——某功能的准确率提升了47%。编辑审稿时觉得这个数字很有说服力,差点直接过了。
后来核查发现,这个数字根本不存在。是模型编的。
类似的情况在3周内发生了不止一次。Agent 生成的初稿里,大约每3篇就有1篇包含至少一处无法核实的"数据引用"。有些是编造的数字,有些是张冠李戴的案例,有些是把两件不相关的事情混在一起说。
修复方案: 在初稿生成的 Prompt 里加入明确指令:"所有数据引用必须标注来源,如果无法确认来源,用[待核实]标记,不得直接写入正文。"同时把事实核查设为强制人工环节。这个改动之后,初稿质量明显提升,但[待核实]标记的数量也让我们意识到:AI 生成的内容,核查成本不可忽视。
翻车三:排期 Agent 遇到突发热点会"死机"
这是最让人崩溃的一个问题,因为它发生在你最需要它灵活的时候。
某天下午,行业内突然出现了一个重大新闻,所有同类账号都在第一时间跟进。我们的 Agent 排期系统完全没有反应——它按照既定计划,继续推进下周的常规内容,对突发事件视而不见。
原因很简单:它没有"插队"逻辑。排期系统是基于规则运行的,规则里没有"突发热点优先级"这个维度。
我们手动介入,临时调整排期,但这个过程花了将近一个小时——因为要重新协调所有已排内容的时间节点,而 Agent 并不能帮你做这个动态调整。
修复方案: 加入热点监控模块,当检测到某话题在短时间内热度激增时,自动触发"紧急插队"流程,同时通知人工确认。这个模块到现在还在迭代,还没有完全跑稳。---
四、最后哪个环节还是得人盯着?
3周下来,我们得出了一个相对清晰的结论。
必须人盯的三个环节:1. 选题终审:AI 不理解品牌调性,不理解竞争关系,不理解"这个时间点发这篇稿子意味着什么"。这是编辑判断力的核心,目前无法外包。
2. 事实核查:幻觉问题是现阶段大模型的结构性缺陷,不是换个模型就能解决的。每一篇涉及数据和案例的稿子,都需要人工核查关键信息。
3. 突发响应:热点的判断、插队的决策、紧急内容的定调——这些需要对行业、对读者、对当下语境有综合理解,Agent 目前做不到。
人机分工矩阵: 时效敏感度
低 高
┌────────────┬──────────────┐
决策 高 │ 人工主导 │ 人工主导 │
复杂 │ (选题终审) │ (突发响应) │
度 ├──────────────┼────────────┤
低 │ Agent主导 │ Agent辅助 │
│ (格式排版) │ (热点抓取) │
└────────────┴──────────┘
简单说:决策复杂度越高、时效越敏感,越需要人在场。 反过来,重复性高、规则明确的环节,交给 Agent 是最合算的。
---
五、如果你也想搭,这里有一条最短路径
不同规模的团队,切入点应该不一样。
1人团队:先从大纲生成开始单人运营最大的痛点是"从零开始写大纲"的心理负担。用 Agent 生成3个备选大纲,你从中选一个改,比从空白文档开始快得多。成本极低,翻车风险也最小。
3-5人团队:从排期自动化切入排期是最适合自动化的环节——规则明确,重复性高,出错代价相对可控。先把排期跑通,团队立刻能感受到协作摩擦的减少,也能建立对 Agent 系统的信任感。
10人以上团队:选题评分系统值得投入人多了之后,选题会的效率问题会被放大。用 Agent 做初筛和评分,把选题会从"头脑风暴"变成"决策会",能显著提升会议质量。
一个可以直接用的选题评分 Prompt 模板:TOPIC_SCORING_PROMPT = """
你是一个内容运营专家,请对以下选题进行评分。
账号定位:{account_positioning}
目标读者:{target_audience}
禁用话题:{forbidden_topics}
近期爆款关键词:{trending_keywords}
待评估选题:{topic_title}
选题摘要:{topic_summary}
请从以下维度打分(每项0-10分):
1. 与账号调性匹配度
2. 目标读者关注度
3. 话题时效性
4. 内容差异化空间
输出格式:
- 各维度得分
- 综合推荐指数(0-10)
- 推荐理由(50字以内)
- 潜在风险提示
"""
一个排期分配的 API 调用示例:
import anthropic
client = anthropic.Anthropic(api_key="your_api_key")
def schedule_content(articles: list, constraints: dict) -> str:
prompt = f"""
请根据以下约束条件,为这批文章安排发布排期:
文章列表:{articles}
约束条件:{constraints}
要求:
- 同类内容间隔至少3天
- 重型长文避开周一
- 每周保持均匀分布
输出JSON格式的排期表。
"""
message = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[{"role": "user", "content": prompt}]
)
return message.content[0].text
文中的 API 调用示例,我们用的是直连大模型接口的方式——成本比套壳产品低不少,且 Prompt 完全可控。如果你想自己搭同款工作流,可以直接去 [api.884819.xyz](https://api.884819.xyz) 申请接口,按量计费,新用户注册即送体验 token,国产模型(Deepseek、千问等)完全免费,测试阶段基本不花什么钱。我们当时就是从这里开始跑通第一个节点的。
---
结语:那2个人的位置,我们用来招了更好的人
3周结束,我们做了一个粗略的统计:
- 每周处理的候选选题数量,从人工筛选的20条左右,扩展到 Agent 初筛的100条以上
- 人工干预次数:平均每天2-3次,主要集中在选题终审和事实核查
- 翻车事件:3次较严重(包括开头那次排期事故),都在发布前被拦截
- 人均有效工时中,"判断类工作"的占比从不到30%提升到接近60%
用一句话总结:AI Agent 让我们5个人干了以前7个人的活。但那2个人的位置,我们用来招了一个更好的主编和一个数据分析师。
这不是裁员故事,是升级故事。
---
有一件事我们在这3周里一直没想清楚:当 Agent 生成的内容开始影响读者认知,"内容质量"的定义权还在编辑手里吗?
下一篇我们想聊聊——当 AI 写的稿子数据比人写的更好时,编辑该怎么看待自己的价值。如果你有自己的答案,评论区见。
---
本文由848AI原创,转载请注明出处。关848AI,带你从零开始学AI。#AI Agent #内容运营 #AI工作流 #848AI #人工智能 #效率工具 #AI写作 #团队协作