本文最后更新于 2026-05-11,文章内容可能已经过时。

我们用AI Agent跑了一个月内容流水线,差点翻车三次

上个月,我们的写作Agent生成了一篇关于短视频行业的分析文章,里面引用了一个"某平台DAU突破4.2亿"的数据,听起来言之凿凿,格式规范,甚至还标注了"来源:平台官方披露"。

我把这篇稿子推进了发布队列。

是我们的运营同事在最后做例行检查时,发现这个数据根本查不到出处——那个"官方披露"是Agent自己编的。

那一刻我意识到:我们搭的这条AI Agent流水线,远没有我们以为的那么"自动"。

---

一、为什么要搭这条流水线?

先交代背景,让你判断这个案例和你的处境有多像。

我们是一个3人内容团队:一个主笔、一个运营、我负责策略和技术。月度KPI是40篇原创内容,覆盖公众号、知乎、小红书三个平台,还要做差异化适配。

算一下:40篇 ÷ 22个工作日 ≈ 每天将近2篇。人工状态下,一篇从选题到发布平均需要6-8小时,三个人根本撑不住。

我们不是为了炫技才搭Agent流水线,是被产能压力逼出来的生存方案

目标很明确:不是让AI替代人写文章,而是让人专注做AI做不好的事——判断、共情、把关。

---

二、三个Agent各司其职,流水线长什么样?

整条流水线分三个节点,每个节点一个Agent,人工介入点嵌在关键卡口。

graph TD

A[📡 选题Agent\nGemini 3.1 Pro] --> B{人工审核\n选题清单}

B -->|通过| C[✍️ 写作Agent\nClaude Sonnet 4.6]

B -->|打回| A

C --> D[📋 审校Agent\nGPT-5.1]

D --> E{人工终审\n5分钟快审}

E -->|通过| F[🚀 多平台分发]

E -->|修改| C

D -->|评分<70| C

选题Agent(底层:Gemini 3.1 Pro)
  • 输入:竞品RSS订阅列表、关键词监控词表、近30天发布记录
  • 输出:每日10个候选选题,附带热度评估、竞争密度、预估阅读量
  • 人工介入点:每天9点,主笔花15分钟从10个里圈3个,其余打回
写作Agent(底层:Claude Sonnet 4.6)
  • 输入:选题brief + 品牌风格指南 + 参考文章样本(3篇)
  • 输出:2500字初稿 + 关键词标注 + 引用来源列表(待核实)
  • 人工介入点:引用来源列表必须人工核实,这是血泪教训(后面细说)
审校Agent(底层:GPT-5.1)
  • 输入:写作Agent的初稿
  • 输出:评分报告(满分100)+ 具体修改建议 + 风格一致性检查
  • 评分维度:逻辑连贯性30分、数据准确性20分、品牌风格匹配20分、可读性30分
  • 规则:评分低于70分自动打回写作Agent重写,高于70分进入人工终审
💡 我们的写作Agent和审校Agent底层都调用了统一的API接口,方便随时切换Claude / GPT-5.1 / Gemini做效果对比——如果你也想搭类似的多模型协作流水线,可以试试 [api.884819.xyz](https://api.884819.xyz),一个key打通主流大模型,我们自己也在用。

---

三、真省了的环节——有数据说话

跑了一个月,有三个环节是真实省力的。

选题调研:4小时 → 45分钟

改造前,主笔每周一做选题会,要花半天时间刷各平台、看竞品、整理热点。

改造后,选题Agent每天自动跑一遍,输出结构化的候选清单。主笔的工作从"信息收集"变成了"判断和决策"。

实测时间对比(4周均值): | 环节 | 改造前 | 改造后 | | 选题调研 | 4.2小时/周 | 45分钟/周 | | 初稿生成 | 3.5小时/篇 | 0.8小时/篇(含核查) | | 格式适配 | 1.5小时/篇×3平台 | 全自动(20分钟人工检查) | | 发布延误次数 | 月均7次 | 月均2次 |

初稿质量:人工修改率降至约30%

这个数字我说明一下口径:30%指的是需要大幅改写的比例,小修(换几个词、调整语序)不算。

改造前,主笔几乎每篇都要从头重写,AI的初稿只是"结构参考"。

现在,每10篇里大概有3篇需要较大改动,7篇只需要润色和核实数据。这个比例在加入了品牌风格样本之后有明显提升——样本质量直接决定输出质量。

多平台适配:从手动到全自动

这是最无脑的省力点。同一篇文章,公众号要排版、知乎要加话题标签、小红书要改成短段落+emoji风格。

以前这件事每篇要花1.5小时,现在写一个格式转换的prompt,三个平台版本10分钟出来。

---

四、三次差点翻车的坑

这章是全文最重要的部分。如果你只看一章,看这个。

坑一:幻觉传播事故

就是开头说的那次。

发现:运营同事在发布前做例行检查,发现一个行业数据查不到来源。 定位:写作Agent的系统prompt里有一条"引用权威数据支撑论点"的指令,但没有限定数据来源范围。Claude在找不到合适数据时,会自己"生成"一个听起来合理的数字。 修复:两步走。

第一步,修改写作Agent的prompt,明确要求:"如果没有可核实的数据来源,请用'[数据待核实]'标注,不得自行生成数字"

第二步,加了一个简单的Python校验脚本,在初稿进入审校Agent之前自动扫描可疑数据格式:

import re

def flag_suspicious_data(text: str) -> list[str]:

"""

扫描文本中可能是幻觉数据的模式

返回需要人工核实的片段列表

"""

patterns = [

r'\d+\.?\d\s%', # 百分比数据

r'\d+\s[万亿千百]\s[人元次]', # 中文量词数据

r'来源[::]\s*\S+', # 来源标注

r'数据显示[,,]\s*[\d]', # "数据显示"后跟数字

r'根据\S+报告', # 引用报告

]

flagged = []

for pattern in patterns:

matches = re.findall(pattern, text)

flagged.extend(matches)

return list(set(flagged))

使用示例

with open("draft.txt", "r") as f:

content = f.read()

suspicious = flag_suspicious_data(content)

if suspicious:

print("⚠️ 以下内容需要人工核实:")

for item in suspicious:

print(f" - {item}")

这个脚本不能判断数据对不对,但能把所有"看起来像数据"的片段列出来,让人工核查有迹可循。

坑二:风格漂移问题

这个坑更隐蔽,我们发现得晚。

流水线跑到第三周,读者反馈开始变差。有人留言"最近文章感觉不太一样""读起来像机器写的"。

定位:我们做了一个对比实验,把第1周和第3周的文章各取5篇,盲测给3个不相关的读者打分。结果第3周的文章在"自然感"和"个人风格"两个维度上明显低于第1周。

原因找到了:审校Agent的评分规则里,"逻辑连贯性"权重过高,导致写作Agent为了拿高分,越来越倾向于写"结构正确但无趣"的文章。Agent在优化评分,但评分指标没有覆盖"有没有人味"这件事。

修复:在审校Agent的prompt里加了一条新评分维度——"个性化表达",占10分,评判标准是"是否有至少一处让人意外的类比、反问或个人判断"。同时把"逻辑连贯性"的权重从30分降到20分。

调整后,文章的"机器味"在一周内明显改善。

坑三:Agent死循环

这次最戏剧化。

某天下午,一篇文章进入审校Agent后,评分68分,被打回写作Agent重写。写作Agent重写后,审校Agent再次评分67分,再次打回。如此循环,3小时内跑了11次,任务卡死。

定位:那篇文章的选题本身有问题——它是一个争议性话题,审校Agent的评分规则对"立场模糊"扣分严重,但写作Agent的风格指南要求"保持中立"。两个Agent的指令在这个选题上产生了根本冲突。 修复:加了一个最大重写次数限制(上限3次),超过后自动升级为人工处理,不再让Agent无限循环。同时在选题Agent的输出里加了一个"争议性标签",争议性高的选题会在brief里注明,让写作Agent提前调整策略。

---

五、一个月后的真实结论

不给"AI万能"的结论,也不给"AI太危险"的结论。

给你一张可以直接用的清单:

✅ 适合交给Agent的环节

  • 信息收集与聚合:RSS监控、关键词追踪、竞品动态整理
  • 结构化初稿生成:在有明确风格样本和详细brief的前提下
  • 格式转换与适配:同一内容在不同平台的格式调整
  • 基础校对:错别字、语法、标点的机械性检查
  • 数据可视化建议:根据文章内容推荐图表类型

❌ 必须人工把控的环节

  • 数据核实:任何数字都必须人工查证,无一例外
  • 选题最终决策:Agent给候选,人做决定
  • 风格调性把关:定期做"盲测对比",防止风格漂移
  • 争议性内容判断:涉及敏感话题、行业立场的内容
  • 读者情绪感知:评论区反馈、留存数据的解读
核心判断原则:如果一个环节"做错了有明确后果",就不要全自动。Agent适合做"错了可以返工"的事,不适合做"错了很难收拾"的事。

可以直接复用的最小化方案

如果你现在想从零开始,建议这样起步:

1. 第一周:只跑选题Agent,人工写作,验证选题质量

2. 第二周:加入写作Agent,但初稿100%人工审核,积累风格样本

3. 第三周:加入审校Agent,设置评分规则,观察打回率是否合理

4. 第四周:根据实际问题调整prompt,加入校验脚本

不要一上来就全自动,每加一个节点都要跑一周观察期。

---

改造前后,我们的月产能从约22篇提升到38篇,基本达成目标。但更重要的是:我们现在知道这条流水线的边界在哪里

一个不知道自己边界的工具,比没有工具更危险。

---

这篇我们聊的是内容生产场景。但上个月我们还在偷偷测试另一件事:

把同样的Agent协作框架,用在竞品监控和舆情追踪上——

结果发现了一些完全没想到的问题。有些问题不是技术问题,是"Agent拿到信息之后,你该怎么决策"的问题。

下一篇,我们会把那次实验的完整日志公开。

先关注,别错过。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI Agent #内容创作 #AI工具 #提效工具 #Prompt技巧 #8848AI #AI写作 #自动化流程