一封询盘，从4小时压到20分钟：我们如何用AI重构外贸业务流程

周五下午五点，Fatima 从土耳其发来一封询盘。

邮件里混着英语和土耳其语，要求48小时内报价，涉及23个SKU，还附带了一份土耳其语的产品规格需求表。业务员小王盯着屏幕，先打开谷歌翻译，再翻产品库，再去问采购确认库存，再开Excel做报价单，再把报价单翻译回英语，再检查汇率……

这是外贸业务员的日常地狱。一封复杂询盘，4小时处理完算快的，遇到周五下午，很可能拖到下周一，单子就凉了。

我们把这个流程压到了20分钟，API调用成本不到1块钱/封。

这篇文章是完整复盘，没有废话，没有"AI改变世界"的鸡汤。只有方法、数据和可以直接抄的模板。

---

第一章：为什么"直接上AI"注定失败

很多人第一次尝试用AI处理询盘，做法是这样的：把整封邮件丢给ChatGPT，然后说"帮我处理这封询盘"。

结果通常是：AI给了一封听起来不错但实际没用的回复，产品型号是编的，价格是估的，交期是猜的。业务员看了一眼，从此对AI失去信任。

问题不在AI，在于你把一个复杂任务当成一个简单指令扔出去了。

处理一封询盘，表面上是"读邮件、写回复"，实际上包含了至少6个性质完全不同的子任务，每个子任务对模型的要求完全不一样。把它们混在一起，就像让一个人同时当翻译、数据库工程师、销售顾问和文案编辑——不是不行，但效率极低，出错率极高。

正确的路径只有一条：先把流程切碎，再谈AI。

---

第二章：任务拆解——把"处理询盘"切成6刀

我们花了两周时间，把询盘处理流程拆解成6个原子任务，每个任务有清晰的输入和输出边界。

询盘进入
│
▼
① 语言识别 + 翻译 ──→ 标准化中文文本
│
▼
② 意图分类 ──────────→ 询盘类型标签（报价/样品/合作/其他）
│
▼
③ 产品匹配 ──────────→ 命中SKU列表 + 置信度
│
▼
④ 报价草稿生成 ───────→ 结构化报价数据（含单价/MOQ/交期）
│
▼
⑤ 风险词检测 ─────────→ 风险标记（制裁国/敏感词/异常需求）
│
▼
⑥ 邮件润色输出 ───────→ 可直接发送的英文邮件草稿

下面是完整的任务拆解表：

小结： 拆解的核心价值不是"显得专业"，而是让每个任务可以独立优化、独立测试、独立替换模型。当第④步出问题，你只需要改第④步，不会牵一发动全身。

---

第三章：选模型——不是所有任务都要用最贵的刀

这是整个方案里最反直觉的部分。

很多人的第一反应是：既然要做好，就全部用最强的模型。但我们最终放弃了最贵的模型用于大部分任务，原因出乎意料——不是因为贵，而是因为慢，而且对于简单任务，贵的模型并不比便宜的模型准确多少。

任务①②：翻译 + 意图分类

这两个任务对推理能力要求不高，但对延迟和成本敏感。我们用的是轻量级模型（Deepseek V3 或 Gemini Flash），单次调用延迟控制在1-2秒，成本极低。

意图分类的System Prompt模板如下，可以直接复制使用：

INTENT_CLASSIFICATION_PROMPT = """
你是一个外贸询盘分类助手。请分析以下询盘内容，输出JSON格式的分类结果。

分类标签：
QUOTE_REQUEST: 询价/报价请求
SAMPLE_REQUEST: 样品请求  
PARTNERSHIP: 合作/代理意向
COMPLAINT: 投诉/售后
OTHER: 其他

输出格式（严格JSON，不要额外说明）：
{
"intent": "标签",
"confidence": 0.0-1.0,
"key_signals": ["触发该分类的关键词1", "关键词2"]
}

询盘内容：
{inquiry_text}
"""

注意：confidence 低于0.7的询盘会被标记为"人工复核"，不进入自动化流程。这是防止误判的第一道闸门。

任务④：报价草稿生成

这是整个流程里技术含量最高的环节，也是唯一一个我们用了更强模型的任务。

我们对"报价草稿生成"做过实测对比（基于内部评分，非官方benchmark）：

| 模型 | 格式准确率 | 逻辑一致性 | 单次延迟 | 相对成本 | | Deepseek R1 | 高 | 高 | 较慢 | 低 | | GPT-5.1 | 高 | 高 | 中等 | 中等 | | Gemini 3.1 Pro | 中高 | 中高 | 快 | 中等 |

实测下来，Deepseek R1 在价格推理和SKU匹配的逻辑一致性上表现最稳，且成本极具竞争力，成为我们的主力选择。

任务⑥：邮件润色

这个任务对"风格一致性"要求最高——每封出去的邮件要符合公司的品牌语气，不能今天正式明天随意。我们用 Claude Sonnet 4.6，它在保持风格指令方面的稳定性体感上明显优于其他选项。

---

关于模型切换的工程实现：

文中涉及的模型我们都通过统一API入口调用，这样在不同模型间做A/B切换时不需要改业务代码，只需要改配置文件里的 model_name 参数。

我们用的是 [api.884819.xyz](https://api.884819.xyz)，支持上面提到的所有模型，按量计费，没有月租。对于这种多模型混用的场景，统一入口是最省事的起点——你不需要同时维护OpenAI、Anthropic、Deepseek三套SDK和三套密钥管理。

小结： 选模型的核心逻辑是"任务适配"，不是"越贵越好"。简单任务用轻量模型，复杂推理用强模型，风格输出用擅长指令遵循的模型。三角权衡：速度/质量/成本，没有全赢的选择。

---

第四章：成本控制——钱花在哪，怎么省

先看改造前后的成本对比。

改造前（人工成本折算）：

业务员平均处理1封复杂询盘：3-4小时
按人力成本折算（含机会成本）：约80-120元/封
每月处理量约400封：月度成本约3.2万-4.8万元

改造后（API调用成本）：

每封询盘总token消耗（6个任务合计）：约8,000-12,000 tokens
按当前价格折算：约0.3-0.8元/封
每月400封：月度API成本约120-320元

节省幅度超过99%（人力成本重新分配到更高价值的客户维护工作）。

三个具体的省钱手段

手段一：System Prompt 模板化

每次调用都重新写一遍"你是一个外贸助手，你需要……"是最大的token浪费。我们把所有System Prompt固化成模板，变量只有 {inquiry_text} 和 {product_context} 这类占位符。

System Prompt平均从800 tokens压缩到200 tokens，对于每天数百次调用，这个数字很可观。

手段二：产品库预处理缓存

最初的方案是每次报价都把完整产品库（约5万字）喂给模型。这是灾难性的做法——不仅token消耗巨大，模型在超长上下文里的注意力也会分散。

改造方案：先用向量检索（embedding）从产品库里捞出最相关的3-5个SKU，只把这部分喂给报价模型。产品描述的embedding每周更新一次，不需要实时计算。

这一步把任务④的token消耗降低了约70%。

手段三：批处理 vs 实时的选择逻辑

不是所有任务都需要实时响应。我们的策略是：

任务①②③：实时执行（业务员等待，需要快速反馈）
任务④⑤⑥：允许30秒内完成（业务员去倒杯水的时间）
非工作时间的询盘：批处理，凌晨统一跑，早上上班就有结果

小结： 成本控制的本质是"不做无效计算"。产品库预处理缓存一项，就能让每封询盘的成本从潜在的5元降到0.5元以内。

---

第五章：踩过的三个坑，以及可复制的结论

坑①：模型幻觉导致报价数字出错

发生了什么： 早期版本中，报价模型在没有明确价格数据的情况下，会"合理推断"出一个价格。某次一个客户询问冷门配件，模型给出的报价比实际成本低了40%。幸好业务员复核时发现了。 修复方案：

1. 报价JSON里增加 data_source 字段，模型必须标注每个价格的来源（产品库命中 / 历史订单 / 模型推断）

2. data_source = "model_inference" 的字段自动标红，强制人工确认

3. 置信度低于0.8的报价项，不允许进入邮件草稿，跳转人工处理队列

# 报价输出结构示例
{
"sku": "ABC-001",
"unit_price": 12.5,
"currency": "USD",
"data_source": "product_db",  # 必填字段
"confidence": 0.95,
"moq": 500,
"lead_time_days": 15
}

原则： AI可以生成，但涉及金额的字段，数据来源必须可追溯。

坑②：多语言询盘的边界情况

土耳其语、阿拉伯语、波斯语混合的询盘，翻译质量会显著下降。我们的处理方案是：语言识别步骤如果检测到"非主流语种"（非英/中/西/法/德/日/韩），自动降级为人工翻译队列，不进入自动化流程。

宁可多花一点人工，也不要让低质量翻译污染后续所有步骤。

坑③：业务员不信任AI输出

这是最难解决的问题，因为它不是技术问题。

我们的解法是：不要让AI替代业务员，让AI给业务员打草稿。

所有AI输出都以"草稿"形式呈现，业务员可以一键采纳、局部修改或完全重写。系统会记录每次修改，一个月后我们发现：90%以上的草稿，业务员只改了称谓和个别措辞，主体内容直接采纳。

信任是用结果建立的，不是用培训建立的。

---

可直接参考的最小可行路径

如果你现在想开始，不需要一次性搭完6个模块。

从意图分类开始（任务②）：

1. 注册 [api.884819.xyz](https://api.884819.xyz)，新用户注册即送体验token，国产模型（Deepseek/千问）完全免费

2. 把上面的 INTENT_CLASSIFICATION_PROMPT 模板复制过去

3. 用最近20封真实询盘测试，看分类准确率

4. 如果准确率超过85%，说明这条路走得通，再往前扩展

10行代码，一次API调用，你就能感受到差距在哪。

---

写在最后

这套方案解决的是单个流程的AI化——从一封询盘进来，到一封邮件草稿出去，这个链路我们已经跑稳了。

但当询盘量从每天20封涨到200封，问题的性质完全变了：

某个模型接口突然超时，整条流水线怎么降级？
错误率从1%涨到3%，人工兜底的成本已经超过收益怎么办？
业务员发现AI出错，但说不清是哪个步骤出的问题，怎么排查？

下一篇我们会聊：AI流程从"能跑"到"敢用"，中间差了什么。 包括错误处理机制、人工审核节点的设计原则，以及一套最小化的监控告警方案——这些才是把原型推上生产的真正门槛。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI外贸 #API实战 #任务拆解 #成本控制 #Prompt工程 #8848AI #AI落地 #外贸自动化