我们用AI Agent跑了一个月内容流水线,差点翻车三次
本文最后更新于 2026-05-11,文章内容可能已经过时。
我们用AI Agent跑了一个月内容流水线,差点翻车三次
上个月,我们的写作Agent生成了一篇关于短视频行业的分析文章,里面引用了一个"某平台DAU突破4.2亿"的数据,听起来言之凿凿,格式规范,甚至还标注了"来源:平台官方披露"。
我把这篇稿子推进了发布队列。
是我们的运营同事在最后做例行检查时,发现这个数据根本查不到出处——那个"官方披露"是Agent自己编的。
那一刻我意识到:我们搭的这条AI Agent流水线,远没有我们以为的那么"自动"。
---
一、为什么要搭这条流水线?
先交代背景,让你判断这个案例和你的处境有多像。
我们是一个3人内容团队:一个主笔、一个运营、我负责策略和技术。月度KPI是40篇原创内容,覆盖公众号、知乎、小红书三个平台,还要做差异化适配。
算一下:40篇 ÷ 22个工作日 ≈ 每天将近2篇。人工状态下,一篇从选题到发布平均需要6-8小时,三个人根本撑不住。
我们不是为了炫技才搭Agent流水线,是被产能压力逼出来的生存方案。
目标很明确:不是让AI替代人写文章,而是让人专注做AI做不好的事——判断、共情、把关。
---
二、三个Agent各司其职,流水线长什么样?
整条流水线分三个节点,每个节点一个Agent,人工介入点嵌在关键卡口。
graph TD
A[📡 选题Agent\nGemini 3.1 Pro] --> B{人工审核\n选题清单}
B -->|通过| C[✍️ 写作Agent\nClaude Sonnet 4.6]
B -->|打回| A
C --> D[📋 审校Agent\nGPT-5.1]
D --> E{人工终审\n5分钟快审}
E -->|通过| F[🚀 多平台分发]
E -->|修改| C
D -->|评分<70| C
选题Agent(底层:Gemini 3.1 Pro)
- 输入:竞品RSS订阅列表、关键词监控词表、近30天发布记录
- 输出:每日10个候选选题,附带热度评估、竞争密度、预估阅读量
- 人工介入点:每天9点,主笔花15分钟从10个里圈3个,其余打回
- 输入:选题brief + 品牌风格指南 + 参考文章样本(3篇)
- 输出:2500字初稿 + 关键词标注 + 引用来源列表(待核实)
- 人工介入点:引用来源列表必须人工核实,这是血泪教训(后面细说)
- 输入:写作Agent的初稿
- 输出:评分报告(满分100)+ 具体修改建议 + 风格一致性检查
- 评分维度:逻辑连贯性30分、数据准确性20分、品牌风格匹配20分、可读性30分
- 规则:评分低于70分自动打回写作Agent重写,高于70分进入人工终审
💡 我们的写作Agent和审校Agent底层都调用了统一的API接口,方便随时切换Claude / GPT-5.1 / Gemini做效果对比——如果你也想搭类似的多模型协作流水线,可以试试 [api.884819.xyz](https://api.884819.xyz),一个key打通主流大模型,我们自己也在用。
---
三、真省了的环节——有数据说话
跑了一个月,有三个环节是真实省力的。
选题调研:4小时 → 45分钟
改造前,主笔每周一做选题会,要花半天时间刷各平台、看竞品、整理热点。
改造后,选题Agent每天自动跑一遍,输出结构化的候选清单。主笔的工作从"信息收集"变成了"判断和决策"。
实测时间对比(4周均值): | 环节 | 改造前 | 改造后 | | 选题调研 | 4.2小时/周 | 45分钟/周 | | 初稿生成 | 3.5小时/篇 | 0.8小时/篇(含核查) | | 格式适配 | 1.5小时/篇×3平台 | 全自动(20分钟人工检查) | | 发布延误次数 | 月均7次 | 月均2次 |初稿质量:人工修改率降至约30%
这个数字我说明一下口径:30%指的是需要大幅改写的比例,小修(换几个词、调整语序)不算。
改造前,主笔几乎每篇都要从头重写,AI的初稿只是"结构参考"。
现在,每10篇里大概有3篇需要较大改动,7篇只需要润色和核实数据。这个比例在加入了品牌风格样本之后有明显提升——样本质量直接决定输出质量。
多平台适配:从手动到全自动
这是最无脑的省力点。同一篇文章,公众号要排版、知乎要加话题标签、小红书要改成短段落+emoji风格。
以前这件事每篇要花1.5小时,现在写一个格式转换的prompt,三个平台版本10分钟出来。
---
四、三次差点翻车的坑
这章是全文最重要的部分。如果你只看一章,看这个。
坑一:幻觉传播事故
就是开头说的那次。
发现:运营同事在发布前做例行检查,发现一个行业数据查不到来源。 定位:写作Agent的系统prompt里有一条"引用权威数据支撑论点"的指令,但没有限定数据来源范围。Claude在找不到合适数据时,会自己"生成"一个听起来合理的数字。 修复:两步走。第一步,修改写作Agent的prompt,明确要求:"如果没有可核实的数据来源,请用'[数据待核实]'标注,不得自行生成数字"。
第二步,加了一个简单的Python校验脚本,在初稿进入审校Agent之前自动扫描可疑数据格式:
import re
def flag_suspicious_data(text: str) -> list[str]:
"""
扫描文本中可能是幻觉数据的模式
返回需要人工核实的片段列表
"""
patterns = [
r'\d+\.?\d\s%', # 百分比数据
r'\d+\s[万亿千百]\s[人元次]', # 中文量词数据
r'来源[::]\s*\S+', # 来源标注
r'数据显示[,,]\s*[\d]', # "数据显示"后跟数字
r'根据\S+报告', # 引用报告
]
flagged = []
for pattern in patterns:
matches = re.findall(pattern, text)
flagged.extend(matches)
return list(set(flagged))
使用示例
with open("draft.txt", "r") as f:
content = f.read()
suspicious = flag_suspicious_data(content)
if suspicious:
print("⚠️ 以下内容需要人工核实:")
for item in suspicious:
print(f" - {item}")
这个脚本不能判断数据对不对,但能把所有"看起来像数据"的片段列出来,让人工核查有迹可循。
坑二:风格漂移问题
这个坑更隐蔽,我们发现得晚。
流水线跑到第三周,读者反馈开始变差。有人留言"最近文章感觉不太一样""读起来像机器写的"。
定位:我们做了一个对比实验,把第1周和第3周的文章各取5篇,盲测给3个不相关的读者打分。结果第3周的文章在"自然感"和"个人风格"两个维度上明显低于第1周。原因找到了:审校Agent的评分规则里,"逻辑连贯性"权重过高,导致写作Agent为了拿高分,越来越倾向于写"结构正确但无趣"的文章。Agent在优化评分,但评分指标没有覆盖"有没有人味"这件事。
修复:在审校Agent的prompt里加了一条新评分维度——"个性化表达",占10分,评判标准是"是否有至少一处让人意外的类比、反问或个人判断"。同时把"逻辑连贯性"的权重从30分降到20分。调整后,文章的"机器味"在一周内明显改善。
坑三:Agent死循环
这次最戏剧化。
某天下午,一篇文章进入审校Agent后,评分68分,被打回写作Agent重写。写作Agent重写后,审校Agent再次评分67分,再次打回。如此循环,3小时内跑了11次,任务卡死。
定位:那篇文章的选题本身有问题——它是一个争议性话题,审校Agent的评分规则对"立场模糊"扣分严重,但写作Agent的风格指南要求"保持中立"。两个Agent的指令在这个选题上产生了根本冲突。 修复:加了一个最大重写次数限制(上限3次),超过后自动升级为人工处理,不再让Agent无限循环。同时在选题Agent的输出里加了一个"争议性标签",争议性高的选题会在brief里注明,让写作Agent提前调整策略。---
五、一个月后的真实结论
不给"AI万能"的结论,也不给"AI太危险"的结论。
给你一张可以直接用的清单:
✅ 适合交给Agent的环节
- 信息收集与聚合:RSS监控、关键词追踪、竞品动态整理
- 结构化初稿生成:在有明确风格样本和详细brief的前提下
- 格式转换与适配:同一内容在不同平台的格式调整
- 基础校对:错别字、语法、标点的机械性检查
- 数据可视化建议:根据文章内容推荐图表类型
❌ 必须人工把控的环节
- 数据核实:任何数字都必须人工查证,无一例外
- 选题最终决策:Agent给候选,人做决定
- 风格调性把关:定期做"盲测对比",防止风格漂移
- 争议性内容判断:涉及敏感话题、行业立场的内容
- 读者情绪感知:评论区反馈、留存数据的解读
核心判断原则:如果一个环节"做错了有明确后果",就不要全自动。Agent适合做"错了可以返工"的事,不适合做"错了很难收拾"的事。
可以直接复用的最小化方案
如果你现在想从零开始,建议这样起步:
1. 第一周:只跑选题Agent,人工写作,验证选题质量
2. 第二周:加入写作Agent,但初稿100%人工审核,积累风格样本
3. 第三周:加入审校Agent,设置评分规则,观察打回率是否合理
4. 第四周:根据实际问题调整prompt,加入校验脚本
不要一上来就全自动,每加一个节点都要跑一周观察期。
---
改造前后,我们的月产能从约22篇提升到38篇,基本达成目标。但更重要的是:我们现在知道这条流水线的边界在哪里。
一个不知道自己边界的工具,比没有工具更危险。
---
这篇我们聊的是内容生产场景。但上个月我们还在偷偷测试另一件事:
把同样的Agent协作框架,用在竞品监控和舆情追踪上——
结果发现了一些完全没想到的问题。有些问题不是技术问题,是"Agent拿到信息之后,你该怎么决策"的问题。
下一篇,我们会把那次实验的完整日志公开。先关注,别错过。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI Agent #内容创作 #AI工具 #提效工具 #Prompt技巧 #8848AI #AI写作 #自动化流程