本文最后更新于 2026-05-11，文章内容可能已经过时。

我们用AI Agent跑了一个月内容流水线，差点翻车三次

上个月，我们的写作Agent生成了一篇关于短视频行业的分析文章，里面引用了一个"某平台DAU突破4.2亿"的数据，听起来言之凿凿，格式规范，甚至还标注了"来源：平台官方披露"。

我把这篇稿子推进了发布队列。

是我们的运营同事在最后做例行检查时，发现这个数据根本查不到出处——那个"官方披露"是Agent自己编的。

那一刻我意识到：我们搭的这条AI Agent流水线，远没有我们以为的那么"自动"。

---

一、为什么要搭这条流水线？

先交代背景，让你判断这个案例和你的处境有多像。

我们是一个3人内容团队：一个主笔、一个运营、我负责策略和技术。月度KPI是40篇原创内容，覆盖公众号、知乎、小红书三个平台，还要做差异化适配。

算一下：40篇 ÷ 22个工作日 ≈ 每天将近2篇。人工状态下，一篇从选题到发布平均需要6-8小时，三个人根本撑不住。

我们不是为了炫技才搭Agent流水线，是被产能压力逼出来的生存方案。

目标很明确：不是让AI替代人写文章，而是让人专注做AI做不好的事——判断、共情、把关。

---

二、三个Agent各司其职，流水线长什么样？

整条流水线分三个节点，每个节点一个Agent，人工介入点嵌在关键卡口。

graph TD
A[📡 选题Agent\nGemini 3.1 Pro] --> B{人工审核\n选题清单}
B -->|通过| C[✍️ 写作Agent\nClaude Sonnet 4.6]
B -->|打回| A
C --> D[📋 审校Agent\nGPT-5.1]
D --> E{人工终审\n5分钟快审}
E -->|通过| F[🚀 多平台分发]
E -->|修改| C
D -->|评分<70| C

选题Agent（底层：Gemini 3.1 Pro）

输入：竞品RSS订阅列表、关键词监控词表、近30天发布记录
输出：每日10个候选选题，附带热度评估、竞争密度、预估阅读量
人工介入点：每天9点，主笔花15分钟从10个里圈3个，其余打回

写作Agent（底层：Claude Sonnet 4.6）

输入：选题brief + 品牌风格指南 + 参考文章样本（3篇）
输出：2500字初稿 + 关键词标注 + 引用来源列表（待核实）
人工介入点：引用来源列表必须人工核实，这是血泪教训（后面细说）

审校Agent（底层：GPT-5.1）

输入：写作Agent的初稿
输出：评分报告（满分100）+ 具体修改建议 + 风格一致性检查
评分维度：逻辑连贯性30分、数据准确性20分、品牌风格匹配20分、可读性30分
规则：评分低于70分自动打回写作Agent重写，高于70分进入人工终审

💡 我们的写作Agent和审校Agent底层都调用了统一的API接口，方便随时切换Claude / GPT-5.1 / Gemini做效果对比——如果你也想搭类似的多模型协作流水线，可以试试 [api.884819.xyz](https://api.884819.xyz)，一个key打通主流大模型，我们自己也在用。

---

三、真省了的环节——有数据说话

跑了一个月，有三个环节是真实省力的。

选题调研：4小时 → 45分钟

改造前，主笔每周一做选题会，要花半天时间刷各平台、看竞品、整理热点。

改造后，选题Agent每天自动跑一遍，输出结构化的候选清单。主笔的工作从"信息收集"变成了"判断和决策"。

实测时间对比（4周均值）： | 环节 | 改造前 | 改造后 | | 选题调研 | 4.2小时/周 | 45分钟/周 | | 初稿生成 | 3.5小时/篇 | 0.8小时/篇（含核查） | | 格式适配 | 1.5小时/篇×3平台 | 全自动（20分钟人工检查） | | 发布延误次数 | 月均7次 | 月均2次 |

初稿质量：人工修改率降至约30%

这个数字我说明一下口径：30%指的是需要大幅改写的比例，小修（换几个词、调整语序）不算。

改造前，主笔几乎每篇都要从头重写，AI的初稿只是"结构参考"。

现在，每10篇里大概有3篇需要较大改动，7篇只需要润色和核实数据。这个比例在加入了品牌风格样本之后有明显提升——样本质量直接决定输出质量。

多平台适配：从手动到全自动

这是最无脑的省力点。同一篇文章，公众号要排版、知乎要加话题标签、小红书要改成短段落+emoji风格。

以前这件事每篇要花1.5小时，现在写一个格式转换的prompt，三个平台版本10分钟出来。

---

四、三次差点翻车的坑

这章是全文最重要的部分。如果你只看一章，看这个。

坑一：幻觉传播事故

就是开头说的那次。

发现：运营同事在发布前做例行检查，发现一个行业数据查不到来源。定位：写作Agent的系统prompt里有一条"引用权威数据支撑论点"的指令，但没有限定数据来源范围。Claude在找不到合适数据时，会自己"生成"一个听起来合理的数字。修复：两步走。

第一步，修改写作Agent的prompt，明确要求："如果没有可核实的数据来源，请用'[数据待核实]'标注，不得自行生成数字"。

第二步，加了一个简单的Python校验脚本，在初稿进入审校Agent之前自动扫描可疑数据格式：

import re

def flag_suspicious_data(text: str) -> list[str]:
"""
扫描文本中可能是幻觉数据的模式
返回需要人工核实的片段列表
"""
patterns = [
r'\d+\.?\d\s%',           # 百分比数据
r'\d+\s[万亿千百]\s[人元次]',  # 中文量词数据
r'来源[：:]\s*\S+',          # 来源标注
r'数据显示[，,]\s*[\d]',      # "数据显示"后跟数字
r'根据\S+报告',              # 引用报告
]

flagged = []
for pattern in patterns:
matches = re.findall(pattern, text)
flagged.extend(matches)

return list(set(flagged))

使用示例
with open("draft.txt", "r") as f:
content = f.read()

suspicious = flag_suspicious_data(content)
if suspicious:
print("⚠️ 以下内容需要人工核实：")
for item in suspicious:
print(f"  - {item}")

这个脚本不能判断数据对不对，但能把所有"看起来像数据"的片段列出来，让人工核查有迹可循。

坑二：风格漂移问题

这个坑更隐蔽，我们发现得晚。

流水线跑到第三周，读者反馈开始变差。有人留言"最近文章感觉不太一样""读起来像机器写的"。

定位：我们做了一个对比实验，把第1周和第3周的文章各取5篇，盲测给3个不相关的读者打分。结果第3周的文章在"自然感"和"个人风格"两个维度上明显低于第1周。

原因找到了：审校Agent的评分规则里，"逻辑连贯性"权重过高，导致写作Agent为了拿高分，越来越倾向于写"结构正确但无趣"的文章。Agent在优化评分，但评分指标没有覆盖"有没有人味"这件事。

修复：在审校Agent的prompt里加了一条新评分维度——"个性化表达"，占10分，评判标准是"是否有至少一处让人意外的类比、反问或个人判断"。同时把"逻辑连贯性"的权重从30分降到20分。

调整后，文章的"机器味"在一周内明显改善。

坑三：Agent死循环

这次最戏剧化。

某天下午，一篇文章进入审校Agent后，评分68分，被打回写作Agent重写。写作Agent重写后，审校Agent再次评分67分，再次打回。如此循环，3小时内跑了11次，任务卡死。

定位：那篇文章的选题本身有问题——它是一个争议性话题，审校Agent的评分规则对"立场模糊"扣分严重，但写作Agent的风格指南要求"保持中立"。两个Agent的指令在这个选题上产生了根本冲突。修复：加了一个最大重写次数限制（上限3次），超过后自动升级为人工处理，不再让Agent无限循环。同时在选题Agent的输出里加了一个"争议性标签"，争议性高的选题会在brief里注明，让写作Agent提前调整策略。

---

五、一个月后的真实结论

不给"AI万能"的结论，也不给"AI太危险"的结论。

给你一张可以直接用的清单：

✅ 适合交给Agent的环节

信息收集与聚合：RSS监控、关键词追踪、竞品动态整理
结构化初稿生成：在有明确风格样本和详细brief的前提下
格式转换与适配：同一内容在不同平台的格式调整
基础校对：错别字、语法、标点的机械性检查
数据可视化建议：根据文章内容推荐图表类型

❌ 必须人工把控的环节

数据核实：任何数字都必须人工查证，无一例外
选题最终决策：Agent给候选，人做决定
风格调性把关：定期做"盲测对比"，防止风格漂移
争议性内容判断：涉及敏感话题、行业立场的内容
读者情绪感知：评论区反馈、留存数据的解读

核心判断原则：如果一个环节"做错了有明确后果"，就不要全自动。Agent适合做"错了可以返工"的事，不适合做"错了很难收拾"的事。

可以直接复用的最小化方案

如果你现在想从零开始，建议这样起步：

1. 第一周：只跑选题Agent，人工写作，验证选题质量

2. 第二周：加入写作Agent，但初稿100%人工审核，积累风格样本

3. 第三周：加入审校Agent，设置评分规则，观察打回率是否合理

4. 第四周：根据实际问题调整prompt，加入校验脚本

不要一上来就全自动，每加一个节点都要跑一周观察期。

---

改造前后，我们的月产能从约22篇提升到38篇，基本达成目标。但更重要的是：我们现在知道这条流水线的边界在哪里。

一个不知道自己边界的工具，比没有工具更危险。

---

这篇我们聊的是内容生产场景。但上个月我们还在偷偷测试另一件事：

把同样的Agent协作框架，用在竞品监控和舆情追踪上——

结果发现了一些完全没想到的问题。有些问题不是技术问题，是"Agent拿到信息之后，你该怎么决策"的问题。

下一篇，我们会把那次实验的完整日志公开。

先关注，别错过。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI Agent #内容创作 #AI工具 #提效工具 #Prompt技巧 #8848AI #AI写作 #自动化流程