我用AI替自己"盯着"竞品两个月，踩了三个坑，但它真的在跑

上周三早上8点，我的飞书收到一条自动推送：

竞品A在小红书悄悄调整了会员定价，基础版从49元/月降至39元/月，同期在5个腰部KOL账号下密集投放测评内容。

我什么都没做——是AI帮我发现的。

这条情报让我们团队提前两天做出了应对方案。而在这套系统搭起来之前，类似的信息往往是在竞品已经完成一轮投放、用户开始流失之后，才会有人在周会上提一句"好像他们最近在搞活动"。

这套系统我花了两周搭建，踩了三个真实的坑，但它确实在跑，而且真的有用。这篇文章是完整的落地复盘，不是成功学，是带着账单和代码的实录。

---

为什么我要做这件事

先说痛点，让你判断这篇文章值不值得继续读。

我们团队有专门的竞品跟踪职责，但没有专职分析师。这件事分散在产品经理和运营身上，日常动作大概是这样的：

每天早上刷竞品官网，看有没有新功能上线
定期去各大应用商店看更新日志
盯着竞品的微博、小红书、公众号，看有没有新动作
偶尔去竞品的招聘页面，从岗位变化推断战略方向

这些事情单独拎出来都不难，但加在一起，每天至少要花1.5到2小时，而且产出极不稳定——信息散落在各处，整理成一份可读的摘要又要额外花半小时。更关键的是，这种"人肉监控"高度依赖个人注意力，一旦当天事情多，竞品监控就会被挤掉。

我当时的核心问题只有一个：能不能让AI替我盯着，我只需要每天看一份报告？

答案是可以，但过程比我想象的要麻烦一些。

---

整体架构长什么样

整套流水线分三层：

graph TD
A[数据源层] --> B[AI理解层]
B --> C[摘要分发层]

A1[竞品官网/RSS] --> A
A2[App Store更新日志] --> A
A3[社媒公开内容] --> A
A4[招聘平台岗位变动] --> A

B1[文本清洗 + 分块] --> B
B2[API调用 GPT/Claude/DeepSeek] --> B
B3[结构化输出 JSON] --> B

C1[飞书机器人推送] --> C
C2[邮件日报] --> C

为什么用Cursor写脚本，而不是找现成工具？

现成的竞品监控SaaS产品不是没有，但它们有两个问题：一是覆盖不了我们关注的所有数据源（尤其是国内平台），二是价格对于小团队来说偏高。Cursor的价值在于，它能让一个不懂爬虫、不懂运维的人，通过自然语言描述需求，拿到可以直接运行的Python脚本，改起来也不怕。

为什么用API而不是ChatGPT网页版？

三个原因：

1. 批量化：每天要处理十几个竞品的内容，网页版没法批量

2. 稳定性：自动化任务需要在固定时间点触发，网页版做不到

3. 成本可控：API按量计费，可以精确知道每天花了多少，网页版的订阅费是固定成本

---

两个月踩了哪些坑

这是全文信息密度最高的部分，建议收藏。

坑1：抓取层——数据断流

错误决策： 最开始我让Cursor帮我写了一个直接请求竞品官网HTML的脚本，逻辑很简单，定时跑、解析页面、提取文本。 暴露的问题： 跑了三天，两个竞品的抓取开始返回403，一个直接触发了验证码。更尴尬的是，我没有做异常告警，脚本静默失败了两天我才发现——这两天的数据直接断了。 解法：

优先用RSS和官方API替代硬爬。大多数产品的官方博客、更新日志都有RSS feed，App Store有公开API可以查看版本历史，这些是合规且稳定的数据源。

对于没有RSS的页面，改用有道云笔记的网页剪藏或者Feedly这类聚合工具作为中间层，而不是自己直接爬。

同时加上异常告警：

import requests
import logging

def fetch_with_fallback(url, fallback_url=None):
try:
response = requests.get(url, timeout=10, headers={"User-Agent": "Mozilla/5.0"})
response.raise_for_status()
return response.text
except requests.RequestException as e:
logging.error(f"抓取失败: {url}, 错误: {e}")
# 发送飞书告警
send_feishu_alert(f"数据源异常: {url}")
if fallback_url:
return fetch_with_fallback(fallback_url)
return None

数据断流问题从此基本消失。

---

坑2：AI理解层——摘要是废话 + Token超限

错误决策一：Prompt太宽泛

最初的Prompt大概是这样的：

"请帮我总结以下竞品内容，提取关键信息。"

结果AI给出的摘要全是"该产品近期进行了多项更新，包括功能优化和用户体验改进……"——废话连篇，完全没有情报价值。

解法：结构化输出 + 明确指令

改成这个Prompt模板之后，摘要质量大幅提升：

你是一名竞品分析师，请从以下内容中提取具有战略价值的信息。

【分析维度】
1. 产品功能变化（新增/下线/调整）
2. 定价策略变化
3. 营销动作（渠道、力度、话术）
4. 用户反馈信号（投诉/好评趋势）
5. 组织动作（招聘方向、人员变动）

【输出格式】
以JSON格式输出，结构如下：
{
"competitor": "竞品名称",
"date": "分析日期",
"highlights": ["最重要的3条信息，每条不超过50字"],
"details": {
"product": "产品变化描述",
"pricing": "定价变化描述（无变化则填null）",
"marketing": "营销动作描述",
"user_feedback": "用户反馈趋势",
"org": "组织动作描述（无信号则填null）"
},
"risk_level": "high/medium/low（对我方业务的潜在影响）",
"action_suggestion": "建议我方团队关注或响应的方向"
}

【待分析内容】
{content}

错误决策二：没有处理长文本

竞品的官方博客文章动辄3000字，直接塞进API会超出单次Token限制，或者产生高额费用。

解法：分块处理

def chunk_text(text, max_tokens=2000):
"""将长文本按段落分块，每块不超过max_tokens"""
paragraphs = text.split('\n\n')
chunks = []
current_chunk = []
current_length = 0

for para in paragraphs:
para_length = len(para) // 2  # 粗略估算token数（中文约2字=1token）
if current_length + para_length > max_tokens:
if current_chunk:
chunks.append('\n\n'.join(current_chunk))
current_chunk = [para]
current_length = para_length
else:
current_chunk.append(para)
current_length += para_length

if current_chunk:
chunks.append('\n\n'.join(current_chunk))

return chunks

def summarize_long_content(content, api_client):
chunks = chunk_text(content)
chunk_summaries = []

for i, chunk in enumerate(chunks):
summary = api_client.summarize(chunk)
chunk_summaries.append(summary)

# 对分块摘要再做一次合并摘要
if len(chunk_summaries) > 1:
combined = '\n'.join(chunk_summaries)
return api_client.summarize(combined, is_final_merge=True)
return chunk_summaries[0]

---

坑3：成本层——第一周把预算打穿了

错误决策： 没有做任何缓存。脚本每次运行都重新抓取所有数据源，重新调用API处理所有内容——包括那些昨天就已经分析过、今天没有任何变化的页面。 真实账单对比： | 阶段 | 周期 | API调用费用 | | 踩坑前（无缓存） | 第1周 | 约¥180 | | 优化后（内容哈希缓存） | 第2周起稳定 | 约¥25/周 |

费用直接降到原来的1/7。

解法：内容哈希缓存

import hashlib
import json
from pathlib import Path

CACHE_DIR = Path(".cache")
CACHE_DIR.mkdir(exist_ok=True)

def get_content_hash(content):
return hashlib.md5(content.encode()).hexdigest()

def get_cached_summary(content_hash):
cache_file = CACHE_DIR / f"{content_hash}.json"
if cache_file.exists():
with open(cache_file) as f:
return json.load(f)
return None

def save_to_cache(content_hash, summary):
cache_file = CACHE_DIR / f"{content_hash}.json"
with open(cache_file, 'w') as f:
json.dump(summary, f, ensure_ascii=False)

def analyze_with_cache(content, api_client):
content_hash = get_content_hash(content)
cached = get_cached_summary(content_hash)
if cached:
return cached  # 内容没变，直接返回缓存
summary = api_client.summarize(content)
save_to_cache(content_hash, summary)
return summary

逻辑很简单：对抓取到的原始内容做MD5哈希，如果哈希值和上次一样，说明内容没变，直接用缓存结果，不调用API。

---

实际跑出来的收益

两个月的真实数据：

两个月前的某个周二，系统早报里有一条被标记为risk_level: high的条目：

竞品B在小红书投放了12篇测评内容（集中在3天内），话术统一围绕"比XX便宜30%"，目标关键词与我方主推产品高度重合。同期其官网首页新增限时优惠banner，折扣力度为历史最大。

这条情报在正常人工监控流程下，至少要到周四或周五的周会才会被提到。但系统在周二早上8点就推送了。

我们当天上午开了一个30分钟的应急会，决定在同一批KOL渠道跟进一轮内容，并在官网同步做了一个对比页面。

竞品那轮投放的转化效果我们无法直接得知，但我们的响应速度是历史最快的一次。情报流水线的价值，在这个案例里是具体可感的。

---

你想复制这套系统，需要准备什么

三步最小可行版本

整套流水线的AI理解层，核心依赖一个稳定、支持多模型切换的API接口。我自己用的是 [api.884819.xyz](https://api.884819.xyz)——它兼容OpenAI格式，可以在GPT系列、Claude、DeepSeek之间随时切换，对于这种需要长期稳定运行的自动化任务来说，多模型备援比单押一个模型重要得多。

实际经验：某次GPT接口响应异常，我把脚本里的model参数从gpt-4o改成deepseek-r1，一行代码，系统继续跑，完全没有中断。这种灵活性是自建自动化流水线的核心优势。

国产模型（DeepSeek/千问等）在这个平台上完全免费，对于日常竞品摘要这类任务完全够用，成本几乎为零。新用户注册即送体验token，注册只需要用户名+密码，不需要邮箱验证。

第三步：配置推送（飞书机器人最简单）

飞书机器人Webhook配置只需要5分钟，推送格式支持Markdown，结构化报告可以直接渲染。如果团队用企业微信或钉钉，逻辑完全一样，换一个Webhook地址即可。

这套系统适合谁，不适合谁

适合：

有明确竞品跟踪需求的产品/运营团队
团队规模小、没有专职分析师
愿意花2-3天时间初始搭建

不适合：

竞品数量超过20个（数据源管理成本会急剧上升）
需要实时监控（这套系统是定时批处理，不是实时的）
完全不愿意碰代码（Cursor能帮你写，但你得会改参数）

---

最后说一句实在话

这套系统帮我每天省了大约90分钟，但它不能替代你对行业的判断。AI给的是"发生了什么"，"这意味着什么"和"我们该怎么办"，仍然需要人来回答。

如果你也想搭，从这一步开始：去找你最重要的那个竞品的RSS地址，订阅它，跑通第一条推送。 先让系统动起来，再慢慢扩展覆盖范围。

完美系统是搭不完的，跑起来的系统才有价值。

---

这套系统目前还有一个没解决的问题：抓到情报之后，怎么让AI自动生成一份可以直接发给老板的竞品分析报告，而不只是摘要？ 我在测试一套基于结构化输出+多轮对话的方案，如果跑通了，下一篇写给你看。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI工作流 #竞品分析 #Cursor #自动化 #产品经理 #AI工具 #8848AI #效率工具