本文最后更新于 2026-05-28,文章内容可能已经过时。

我们用 AI Agent 跑通了内容团队全流程,然后差点翻车

第11天,我盯着屏幕愣了大概30秒。

Agent 自动排好了下周的发布计划,整齐齐,时间节点、标题、字数要求一应俱全。其中有一篇——关于某竞品的深度评测,写得相当不错,逻辑清晰,数据详实。

发布时间:我们自家新品上线的同一天。

我把截图发到飞书群,编辑小李回了一个"?",然后是沉默了大概两分钟的群聊,最后主编发来一句:"还好你看了。"

这就是我们用 AI Agent 改造内容工作流第11天发生的事。

我写这篇文章,不是为了告诉你 AI Agent 有多厉害,而是想把这3周里真实发生的事情讲清楚——哪些地方它帮了大忙,哪些地方它差点让我们出大事,以及如果你也想搭,应该从哪里开始。

---

一、我们为什么决定"all in"试这件事

我们是一个5人内容团队,负责一个垂直科技账号的日常运营。

表面上看,5个人不算少。但实际的工作状态是这样的:每周一的选题会要开两个小时,最后选出来的题目有一半是"上周没写完的";写稿周期平均4天,其中有将近一天花在找资料和整理大纲上;排期经常撞车,要么同一周堆了三篇重型稿,要么某个时间段突然断更。

更核心的问题是:5个人里,真正在做"判断"的时间,可能不超过总工时的30%。剩下的时间,大家都在"搬砖"——找资料、整格式、对排期、改错别字。

我们不是想裁人。我们想让人去做更值钱的事。

所以3周前,我们决定搭一套 AI Agent 工作流,把能自动化的环节全部交出去,看最后剩下什么。

改造前的工作流大致是这样的:
选题会(人工头脑风暴)

资料收集(人工搜索)

大纲撰写(人工)

初稿写作(人工)

编辑审稿(人工)

排期分配(人工)

发布

每个环节都是人,每个环节都有等待,每个环节都有摩擦。

---

二、我们搭了什么?系统架构全透明

整套系统分四个节点,每个节点独立运行,通过共享的内容数据库串联。

节点一:选题抓取与评分

用 Python脚本定时抓取 RSS 源、微博热搜、36Kr、少数派等平台的热门内容,汇总到一个 Notion 数据库。然后调用大模型 API,对每条内容打分,评分维度包括:话题热度、与账号调性的匹配度、竞品覆盖情况、时效性。

节点二:自动生成写作大纲

对评分超过阈值的选题,自动触发大纲生成。Prompt 里会注入账号的历史爆款结构、目标读者画像、禁用话题列表。

节点三:初稿生成

大纲确认后(这里有一个人工确认步骤,后来证明这个设计救了我们很多次),调用 API 生成初稿。我们用的是 Claude Sonnet 4.6,长文逻辑性比较稳。

节点四:排期分配

根据稿件类型、字数、预计阅读时长,自动分配发布时间,避免同类内容扎堆。

为什么选择直连 API 而不是套壳产品?

我们最开始也考虑过用现成的 AI 写作工具,试用了三四款。核心问题有两个:

第一,Prompt 不可控。套壳产品的底层逻辑是黑盒,你不知道它在你的输入前后加了什么,导致输出风格飘忽不定。

第二,成本差距明显。按我们的用量估算,套壳产品的月度费用大约是直接调用 API 的2到3倍,而且很多套壳产品按"篇数"计费,对我们这种高频使用场景非常不划算。

直连 API 的方式,Prompt 完全自己写,成本按 token 计,测试阶段几乎可以忽略不计。

---

三、跑了3周,这些环节差点让我们翻车

以为写稿最难翻车,结果选题才是重灾区。

翻车一:选题 Agent 没有"品牌记忆"

这是我们遇到的第一个严重问题,也是最难修复的一个。

Agent 的选题评分模型非常擅长识别"热",但完全不理解"适不适合我们"。

举个真实案例:某周科技圈最热的话题是一场大厂裁员风波,热度极高,Agent 给出了满分推荐。但我们的账号定位是"帮普通人用好 AI 工具",这类话题和我们的读者群几乎没有交集,强行写只会让老读者困惑。

更离谱的是,Agent 会周期性地推荐竞品的内容——因为竞品的文章本身质量高、互动好,在它的评分模型里是"优质参考"。它不知道那是竞品。

修复方案: 在Prompt 里加入"账号禁区清单"和"历史爆款关键词库",同时把选题终审这个环节强制设为人工节点,Agent 只负责初筛和排序,不负责最终决策。

翻车二:初稿的幻觉问题比想象中严重

这个问题不是新鲜事,但真正踩到的时候还是会让人头皮发麻。

我们有一篇关于某 AI 工具使用技巧的稿子,初稿里引用了一个"官方数据"——某功能的准确率提升了47%。编辑审稿时觉得这个数字很有说服力,差点直接过了。

后来核查发现,这个数字根本不存在。是模型编的。

类似的情况在3周内发生了不止一次。Agent 生成的初稿里,大约每3篇就有1篇包含至少一处无法核实的"数据引用"。有些是编造的数字,有些是张冠李戴的案例,有些是把两件不相关的事情混在一起说。

修复方案: 在初稿生成的 Prompt 里加入明确指令:"所有数据引用必须标注来源,如果无法确认来源,用[待核实]标记,不得直接写入正文。"同时把事实核查设为强制人工环节。

这个改动之后,初稿质量明显提升,但[待核实]标记的数量也让我们意识到:AI 生成的内容,核查成本不可忽视。

翻车三:排期 Agent 遇到突发热点会"死机"

这是最让人崩溃的一个问题,因为它发生在你最需要它灵活的时候。

某天下午,行业内突然出现了一个重大新闻,所有同类账号都在第一时间跟进。我们的 Agent 排期系统完全没有反应——它按照既定计划,继续推进下周的常规内容,对突发事件视而不见。

原因很简单:它没有"插队"逻辑。排期系统是基于规则运行的,规则里没有"突发热点优先级"这个维度。

我们手动介入,临时调整排期,但这个过程花了将近一个小时——因为要重新协调所有已排内容的时间节点,而 Agent 并不能帮你做这个动态调整。

修复方案: 加入热点监控模块,当检测到某话题在短时间内热度激增时,自动触发"紧急插队"流程,同时通知人工确认。这个模块到现在还在迭代,还没有完全跑稳。

---

四、最后哪个环节还是得人盯着?

3周下来,我们得出了一个相对清晰的结论。

必须人盯的三个环节:

1. 选题终审:AI 不理解品牌调性,不理解竞争关系,不理解"这个时间点发这篇稿子意味着什么"。这是编辑判断力的核心,目前无法外包。

2. 事实核查:幻觉问题是现阶段大模型的结构性缺陷,不是换个模型就能解决的。每一篇涉及数据和案例的稿子,都需要人工核查关键信息。

3. 突发响应:热点的判断、插队的决策、紧急内容的定调——这些需要对行业、对读者、对当下语境有综合理解,Agent 目前做不到。

人机分工矩阵:
                时效敏感度

低 高

┌────────────┬──────────────┐

决策 高 │ 人工主导 │ 人工主导 │

复杂 │ (选题终审) │ (突发响应) │

度 ├──────────────┼────────────┤

低 │ Agent主导 │ Agent辅助 │

│ (格式排版) │ (热点抓取) │

└────────────┴──────────┘

简单说:决策复杂度越高、时效越敏感,越需要人在场。 反过来,重复性高、规则明确的环节,交给 Agent 是最合算的。

---

五、如果你也想搭,这里有一条最短路径

不同规模的团队,切入点应该不一样。

1人团队:先从大纲生成开始

单人运营最大的痛点是"从零开始写大纲"的心理负担。用 Agent 生成3个备选大纲,你从中选一个改,比从空白文档开始快得多。成本极低,翻车风险也最小。

3-5人团队:从排期自动化切入

排期是最适合自动化的环节——规则明确,重复性高,出错代价相对可控。先把排期跑通,团队立刻能感受到协作摩擦的减少,也能建立对 Agent 系统的信任感。

10人以上团队:选题评分系统值得投入

人多了之后,选题会的效率问题会被放大。用 Agent 做初筛和评分,把选题会从"头脑风暴"变成"决策会",能显著提升会议质量。

一个可以直接用的选题评分 Prompt 模板:
TOPIC_SCORING_PROMPT = """

你是一个内容运营专家,请对以下选题进行评分。

账号定位:{account_positioning}

目标读者:{target_audience}

禁用话题:{forbidden_topics}

近期爆款关键词:{trending_keywords}

待评估选题:{topic_title}

选题摘要:{topic_summary}

请从以下维度打分(每项0-10分):

1. 与账号调性匹配度

2. 目标读者关注度

3. 话题时效性

4. 内容差异化空间

输出格式:

  • 各维度得分
  • 综合推荐指数(0-10)
  • 推荐理由(50字以内)
  • 潜在风险提示
"""
一个排期分配的 API 调用示例:
import anthropic

client = anthropic.Anthropic(api_key="your_api_key")

def schedule_content(articles: list, constraints: dict) -> str:

prompt = f"""

请根据以下约束条件,为这批文章安排发布排期:

文章列表:{articles}

约束条件:{constraints}

要求:

- 同类内容间隔至少3天

- 重型长文避开周一

- 每周保持均匀分布

输出JSON格式的排期表。

"""

message = client.messages.create(

model="claude-sonnet-4-5",

max_tokens=1024,

messages=[{"role": "user", "content": prompt}]

)

return message.content[0].text

文中的 API 调用示例,我们用的是直连大模型接口的方式——成本比套壳产品低不少,且 Prompt 完全可控。如果你想自己搭同款工作流,可以直接去 [api.884819.xyz](https://api.884819.xyz) 申请接口,按量计费,新用户注册即送体验 token,国产模型(Deepseek、千问等)完全免费,测试阶段基本不花什么钱。我们当时就是从这里开始跑通第一个节点的。

---

结语:那2个人的位置,我们用来招了更好的人

3周结束,我们做了一个粗略的统计:

  • 每周处理的候选选题数量,从人工筛选的20条左右,扩展到 Agent 初筛的100条以上
  • 人工干预次数:平均每天2-3次,主要集中在选题终审和事实核查
  • 翻车事件:3次较严重(包括开头那次排期事故),都在发布前被拦截
  • 人均有效工时中,"判断类工作"的占比从不到30%提升到接近60%

用一句话总结:AI Agent 让我们5个人干了以前7个人的活。但那2个人的位置,我们用来招了一个更好的主编和一个数据分析师。

这不是裁员故事,是升级故事。

---

有一件事我们在这3周里一直没想清楚:当 Agent 生成的内容开始影响读者认知,"内容质量"的定义权还在编辑手里吗?

下一篇我们想聊聊——当 AI 写的稿子数据比人写的更好时,编辑该怎么看待自己的价值。如果你有自己的答案,评论区见。

---

本文由848AI原创,转载请注明出处。关848AI,带你从零开始学AI。

#AI Agent #内容运营 #AI工作流 #848AI #人工智能 #效率工具 #AI写作 #团队协作