本文最后更新于 2026-05-28，文章内容可能已经过时。

我们用 AI Agent 跑通了内容团队全流程，然后差点翻车

第11天，我盯着屏幕愣了大概30秒。

Agent 自动排好了下周的发布计划，整齐齐，时间节点、标题、字数要求一应俱全。其中有一篇——关于某竞品的深度评测，写得相当不错，逻辑清晰，数据详实。

发布时间：我们自家新品上线的同一天。

我把截图发到飞书群，编辑小李回了一个"？"，然后是沉默了大概两分钟的群聊，最后主编发来一句："还好你看了。"

这就是我们用 AI Agent 改造内容工作流第11天发生的事。

我写这篇文章，不是为了告诉你 AI Agent 有多厉害，而是想把这3周里真实发生的事情讲清楚——哪些地方它帮了大忙，哪些地方它差点让我们出大事，以及如果你也想搭，应该从哪里开始。

---

一、我们为什么决定"all in"试这件事

我们是一个5人内容团队，负责一个垂直科技账号的日常运营。

表面上看，5个人不算少。但实际的工作状态是这样的：每周一的选题会要开两个小时，最后选出来的题目有一半是"上周没写完的"；写稿周期平均4天，其中有将近一天花在找资料和整理大纲上；排期经常撞车，要么同一周堆了三篇重型稿，要么某个时间段突然断更。

更核心的问题是：5个人里，真正在做"判断"的时间，可能不超过总工时的30%。剩下的时间，大家都在"搬砖"——找资料、整格式、对排期、改错别字。

我们不是想裁人。我们想让人去做更值钱的事。

所以3周前，我们决定搭一套 AI Agent 工作流，把能自动化的环节全部交出去，看最后剩下什么。

改造前的工作流大致是这样的：

选题会（人工头脑风暴）
↓
资料收集（人工搜索）
↓
大纲撰写（人工）
↓
初稿写作（人工）
↓
编辑审稿（人工）
↓
排期分配（人工）
↓
发布

每个环节都是人，每个环节都有等待，每个环节都有摩擦。

---

二、我们搭了什么？系统架构全透明

整套系统分四个节点，每个节点独立运行，通过共享的内容数据库串联。

节点一：选题抓取与评分

用 Python脚本定时抓取 RSS 源、微博热搜、36Kr、少数派等平台的热门内容，汇总到一个 Notion 数据库。然后调用大模型 API，对每条内容打分，评分维度包括：话题热度、与账号调性的匹配度、竞品覆盖情况、时效性。

节点二：自动生成写作大纲

对评分超过阈值的选题，自动触发大纲生成。Prompt 里会注入账号的历史爆款结构、目标读者画像、禁用话题列表。

节点三：初稿生成

大纲确认后（这里有一个人工确认步骤，后来证明这个设计救了我们很多次），调用 API 生成初稿。我们用的是 Claude Sonnet 4.6，长文逻辑性比较稳。

节点四：排期分配

根据稿件类型、字数、预计阅读时长，自动分配发布时间，避免同类内容扎堆。

为什么选择直连 API 而不是套壳产品？

我们最开始也考虑过用现成的 AI 写作工具，试用了三四款。核心问题有两个：

第一，Prompt 不可控。套壳产品的底层逻辑是黑盒，你不知道它在你的输入前后加了什么，导致输出风格飘忽不定。

第二，成本差距明显。按我们的用量估算，套壳产品的月度费用大约是直接调用 API 的2到3倍，而且很多套壳产品按"篇数"计费，对我们这种高频使用场景非常不划算。

直连 API 的方式，Prompt 完全自己写，成本按 token 计，测试阶段几乎可以忽略不计。

---

三、跑了3周，这些环节差点让我们翻车

以为写稿最难翻车，结果选题才是重灾区。

翻车一：选题 Agent 没有"品牌记忆"

这是我们遇到的第一个严重问题，也是最难修复的一个。

Agent 的选题评分模型非常擅长识别"热"，但完全不理解"适不适合我们"。

举个真实案例：某周科技圈最热的话题是一场大厂裁员风波，热度极高，Agent 给出了满分推荐。但我们的账号定位是"帮普通人用好 AI 工具"，这类话题和我们的读者群几乎没有交集，强行写只会让老读者困惑。

更离谱的是，Agent 会周期性地推荐竞品的内容——因为竞品的文章本身质量高、互动好，在它的评分模型里是"优质参考"。它不知道那是竞品。

修复方案： 在Prompt 里加入"账号禁区清单"和"历史爆款关键词库"，同时把选题终审这个环节强制设为人工节点，Agent 只负责初筛和排序，不负责最终决策。

翻车二：初稿的幻觉问题比想象中严重

这个问题不是新鲜事，但真正踩到的时候还是会让人头皮发麻。

我们有一篇关于某 AI 工具使用技巧的稿子，初稿里引用了一个"官方数据"——某功能的准确率提升了47%。编辑审稿时觉得这个数字很有说服力，差点直接过了。

后来核查发现，这个数字根本不存在。是模型编的。

类似的情况在3周内发生了不止一次。Agent 生成的初稿里，大约每3篇就有1篇包含至少一处无法核实的"数据引用"。有些是编造的数字，有些是张冠李戴的案例，有些是把两件不相关的事情混在一起说。

修复方案： 在初稿生成的 Prompt 里加入明确指令："所有数据引用必须标注来源，如果无法确认来源，用[待核实]标记，不得直接写入正文。"同时把事实核查设为强制人工环节。

这个改动之后，初稿质量明显提升，但[待核实]标记的数量也让我们意识到：AI 生成的内容，核查成本不可忽视。

翻车三：排期 Agent 遇到突发热点会"死机"

这是最让人崩溃的一个问题，因为它发生在你最需要它灵活的时候。

某天下午，行业内突然出现了一个重大新闻，所有同类账号都在第一时间跟进。我们的 Agent 排期系统完全没有反应——它按照既定计划，继续推进下周的常规内容，对突发事件视而不见。

原因很简单：它没有"插队"逻辑。排期系统是基于规则运行的，规则里没有"突发热点优先级"这个维度。

我们手动介入，临时调整排期，但这个过程花了将近一个小时——因为要重新协调所有已排内容的时间节点，而 Agent 并不能帮你做这个动态调整。

修复方案： 加入热点监控模块，当检测到某话题在短时间内热度激增时，自动触发"紧急插队"流程，同时通知人工确认。这个模块到现在还在迭代，还没有完全跑稳。

---

四、最后哪个环节还是得人盯着？

3周下来，我们得出了一个相对清晰的结论。

必须人盯的三个环节：

1. 选题终审：AI 不理解品牌调性，不理解竞争关系，不理解"这个时间点发这篇稿子意味着什么"。这是编辑判断力的核心，目前无法外包。

2. 事实核查：幻觉问题是现阶段大模型的结构性缺陷，不是换个模型就能解决的。每一篇涉及数据和案例的稿子，都需要人工核查关键信息。

3. 突发响应：热点的判断、插队的决策、紧急内容的定调——这些需要对行业、对读者、对当下语境有综合理解，Agent 目前做不到。

人机分工矩阵：

                时效敏感度
低              高
┌────────────┬──────────────┐
决策  高      │  人工主导     │  人工主导    │
复杂          │  (选题终审)   │  (突发响应)  │
度            ├──────────────┼────────────┤
低      │  Agent主导   │  Agent辅助   │
│  (格式排版)   │  (热点抓取)  │
└────────────┴──────────┘

简单说：决策复杂度越高、时效越敏感，越需要人在场。 反过来，重复性高、规则明确的环节，交给 Agent 是最合算的。

---

五、如果你也想搭，这里有一条最短路径

不同规模的团队，切入点应该不一样。

1人团队：先从大纲生成开始

单人运营最大的痛点是"从零开始写大纲"的心理负担。用 Agent 生成3个备选大纲，你从中选一个改，比从空白文档开始快得多。成本极低，翻车风险也最小。

3-5人团队：从排期自动化切入

排期是最适合自动化的环节——规则明确，重复性高，出错代价相对可控。先把排期跑通，团队立刻能感受到协作摩擦的减少，也能建立对 Agent 系统的信任感。

10人以上团队：选题评分系统值得投入

人多了之后，选题会的效率问题会被放大。用 Agent 做初筛和评分，把选题会从"头脑风暴"变成"决策会"，能显著提升会议质量。

一个可以直接用的选题评分 Prompt 模板：

TOPIC_SCORING_PROMPT = """
你是一个内容运营专家，请对以下选题进行评分。

账号定位：{account_positioning}
目标读者：{target_audience}
禁用话题：{forbidden_topics}
近期爆款关键词：{trending_keywords}

待评估选题：{topic_title}
选题摘要：{topic_summary}

请从以下维度打分（每项0-10分）：
1. 与账号调性匹配度
2. 目标读者关注度
3. 话题时效性
4. 内容差异化空间

输出格式：
各维度得分
综合推荐指数（0-10）
推荐理由（50字以内）
潜在风险提示
"""

一个排期分配的 API 调用示例：

import anthropic

client = anthropic.Anthropic(api_key="your_api_key")

def schedule_content(articles: list, constraints: dict) -> str:
prompt = f"""
请根据以下约束条件，为这批文章安排发布排期：

文章列表：{articles}
约束条件：{constraints}

要求：
- 同类内容间隔至少3天
- 重型长文避开周一
- 每周保持均匀分布
输出JSON格式的排期表。
"""

message = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[{"role": "user", "content": prompt}]
)

return message.content[0].text

文中的 API 调用示例，我们用的是直连大模型接口的方式——成本比套壳产品低不少，且 Prompt 完全可控。如果你想自己搭同款工作流，可以直接去 [api.884819.xyz](https://api.884819.xyz) 申请接口，按量计费，新用户注册即送体验 token，国产模型（Deepseek、千问等）完全免费，测试阶段基本不花什么钱。我们当时就是从这里开始跑通第一个节点的。

---

结语：那2个人的位置，我们用来招了更好的人

3周结束，我们做了一个粗略的统计：

每周处理的候选选题数量，从人工筛选的20条左右，扩展到 Agent 初筛的100条以上
人工干预次数：平均每天2-3次，主要集中在选题终审和事实核查
翻车事件：3次较严重（包括开头那次排期事故），都在发布前被拦截
人均有效工时中，"判断类工作"的占比从不到30%提升到接近60%

用一句话总结：AI Agent 让我们5个人干了以前7个人的活。但那2个人的位置，我们用来招了一个更好的主编和一个数据分析师。

这不是裁员故事，是升级故事。

---

有一件事我们在这3周里一直没想清楚：当 Agent 生成的内容开始影响读者认知，"内容质量"的定义权还在编辑手里吗？

下一篇我们想聊聊——当 AI 写的稿子数据比人写的更好时，编辑该怎么看待自己的价值。如果你有自己的答案，评论区见。

---

本文由848AI原创，转载请注明出处。关848AI，带你从零开始学AI。

#AI Agent #内容运营 #AI工作流 #848AI #人工智能 #效率工具 #AI写作 #团队协作