一封询盘,从4小时压到20分钟:我们如何用AI重构外贸业务流程

周五下午五点,Fatima 从土耳其发来一封询盘。

邮件里混着英语和土耳其语,要求48小时内报价,涉及23个SKU,还附带了一份土耳其语的产品规格需求表。业务员小王盯着屏幕,先打开谷歌翻译,再翻产品库,再去问采购确认库存,再开Excel做报价单,再把报价单翻译回英语,再检查汇率……

这是外贸业务员的日常地狱。一封复杂询盘,4小时处理完算快的,遇到周五下午,很可能拖到下周一,单子就凉了。

我们把这个流程压到了20分钟,API调用成本不到1块钱/封。

这篇文章是完整复盘,没有废话,没有"AI改变世界"的鸡汤。只有方法、数据和可以直接抄的模板。

---

第一章:为什么"直接上AI"注定失败

很多人第一次尝试用AI处理询盘,做法是这样的:把整封邮件丢给ChatGPT,然后说"帮我处理这封询盘"。

结果通常是:AI给了一封听起来不错但实际没用的回复,产品型号是编的,价格是估的,交期是猜的。业务员看了一眼,从此对AI失去信任。

问题不在AI,在于你把一个复杂任务当成一个简单指令扔出去了。

处理一封询盘,表面上是"读邮件、写回复",实际上包含了至少6个性质完全不同的子任务,每个子任务对模型的要求完全不一样。把它们混在一起,就像让一个人同时当翻译、数据库工程师、销售顾问和文案编辑——不是不行,但效率极低,出错率极高。

正确的路径只有一条:先把流程切碎,再谈AI。

---

第二章:任务拆解——把"处理询盘"切成6刀

我们花了两周时间,把询盘处理流程拆解成6个原子任务,每个任务有清晰的输入和输出边界。

询盘进入

① 语言识别 + 翻译 ──→ 标准化中文文本

② 意图分类 ──────────→ 询盘类型标签(报价/样品/合作/其他)

③ 产品匹配 ──────────→ 命中SKU列表 + 置信度

④ 报价草稿生成 ───────→ 结构化报价数据(含单价/MOQ/交期)

⑤ 风险词检测 ─────────→ 风险标记(制裁国/敏感词/异常需求)

⑥ 邮件润色输出 ───────→ 可直接发送的英文邮件草稿

下面是完整的任务拆解表:

| # | 子任务 | 输入 | 输出 | 关键要求 | | ① | 语言识别+翻译 | 原始邮件文本 | 标准化中文文本 | 准确率优先,延迟容忍 | | ② | 意图分类 | 中文文本 | 分类标签+置信度 | 速度优先,低成本 | | ③ | 产品匹配 | 中文需求描述 | SKU列表+匹配度 | 需要结合产品库 | | ④ | 报价草稿生成 | SKU+客户需求+价格策略 | 结构化报价JSON | 推理能力优先 | | ⑤ | 风险词检测 | 客户信息+询盘内容 | 风险标记列表 | 规则+模型双保险 | | ⑥ | 邮件润色输出 | 报价数据+客户画像 | 英文邮件正文 | 风格一致性优先 |
小结: 拆解的核心价值不是"显得专业",而是让每个任务可以独立优化、独立测试、独立替换模型。当第④步出问题,你只需要改第④步,不会牵一发动全身。

---

第三章:选模型——不是所有任务都要用最贵的刀

这是整个方案里最反直觉的部分。

很多人的第一反应是:既然要做好,就全部用最强的模型。但我们最终放弃了最贵的模型用于大部分任务,原因出乎意料——不是因为贵,而是因为慢,而且对于简单任务,贵的模型并不比便宜的模型准确多少。

任务①②:翻译 + 意图分类

这两个任务对推理能力要求不高,但对延迟和成本敏感。我们用的是轻量级模型(Deepseek V3Gemini Flash),单次调用延迟控制在1-2秒,成本极低。

意图分类的System Prompt模板如下,可以直接复制使用:

INTENT_CLASSIFICATION_PROMPT = """

你是一个外贸询盘分类助手。请分析以下询盘内容,输出JSON格式的分类结果。

分类标签:

  • QUOTE_REQUEST: 询价/报价请求
  • SAMPLE_REQUEST: 样品请求
  • PARTNERSHIP: 合作/代理意向
  • COMPLAINT: 投诉/售后
  • OTHER: 其他

输出格式(严格JSON,不要额外说明):

{

"intent": "标签",

"confidence": 0.0-1.0,

"key_signals": ["触发该分类的关键词1", "关键词2"]

}

询盘内容:

{inquiry_text}

"""

注意confidence 低于0.7的询盘会被标记为"人工复核",不进入自动化流程。这是防止误判的第一道闸门。

任务④:报价草稿生成

这是整个流程里技术含量最高的环节,也是唯一一个我们用了更强模型的任务。

我们对"报价草稿生成"做过实测对比(基于内部评分,非官方benchmark):

| 模型 | 格式准确率 | 逻辑一致性 | 单次延迟 | 相对成本 | | Deepseek R1 | 高 | 高 | 较慢 | 低 | | GPT-5.1 | 高 | 高 | 中等 | 中等 | | Gemini 3.1 Pro | 中高 | 中高 | 快 | 中等 |

实测下来,Deepseek R1 在价格推理和SKU匹配的逻辑一致性上表现最稳,且成本极具竞争力,成为我们的主力选择。

任务⑥:邮件润色

这个任务对"风格一致性"要求最高——每封出去的邮件要符合公司的品牌语气,不能今天正式明天随意。我们用 Claude Sonnet 4.6,它在保持风格指令方面的稳定性体感上明显优于其他选项。

---

关于模型切换的工程实现:

文中涉及的模型我们都通过统一API入口调用,这样在不同模型间做A/B切换时不需要改业务代码,只需要改配置文件里的 model_name 参数。

我们用的是 [api.884819.xyz](https://api.884819.xyz),支持上面提到的所有模型,按量计费,没有月租。对于这种多模型混用的场景,统一入口是最省事的起点——你不需要同时维护OpenAI、Anthropic、Deepseek三套SDK和三套密钥管理。

小结: 选模型的核心逻辑是"任务适配",不是"越贵越好"。简单任务用轻量模型,复杂推理用强模型,风格输出用擅长指令遵循的模型。三角权衡:速度/质量/成本,没有全赢的选择。

---

第四章:成本控制——钱花在哪,怎么省

先看改造前后的成本对比。

改造前(人工成本折算):
  • 业务员平均处理1封复杂询盘:3-4小时
  • 按人力成本折算(含机会成本):约80-120元/封
  • 每月处理量约400封:月度成本约3.2万-4.8万元
改造后(API调用成本):
  • 每封询盘总token消耗(6个任务合计):约8,000-12,000 tokens
  • 按当前价格折算:约0.3-0.8元/封
  • 每月400封:月度API成本约120-320元
节省幅度超过99%(人力成本重新分配到更高价值的客户维护工作)。

三个具体的省钱手段

手段一:System Prompt 模板化

每次调用都重新写一遍"你是一个外贸助手,你需要……"是最大的token浪费。我们把所有System Prompt固化成模板,变量只有 {inquiry_text}{product_context} 这类占位符。

System Prompt平均从800 tokens压缩到200 tokens,对于每天数百次调用,这个数字很可观。

手段二:产品库预处理缓存

最初的方案是每次报价都把完整产品库(约5万字)喂给模型。这是灾难性的做法——不仅token消耗巨大,模型在超长上下文里的注意力也会分散。

改造方案:先用向量检索(embedding)从产品库里捞出最相关的3-5个SKU,只把这部分喂给报价模型。产品描述的embedding每周更新一次,不需要实时计算。

这一步把任务④的token消耗降低了约70%。

手段三:批处理 vs 实时的选择逻辑

不是所有任务都需要实时响应。我们的策略是:

  • 任务①②③:实时执行(业务员等待,需要快速反馈)
  • 任务④⑤⑥:允许30秒内完成(业务员去倒杯水的时间)
  • 非工作时间的询盘:批处理,凌晨统一跑,早上上班就有结果
小结: 成本控制的本质是"不做无效计算"。产品库预处理缓存一项,就能让每封询盘的成本从潜在的5元降到0.5元以内。

---

第五章:踩过的三个坑,以及可复制的结论

坑①:模型幻觉导致报价数字出错

发生了什么: 早期版本中,报价模型在没有明确价格数据的情况下,会"合理推断"出一个价格。某次一个客户询问冷门配件,模型给出的报价比实际成本低了40%。幸好业务员复核时发现了。 修复方案:

1. 报价JSON里增加 data_source 字段,模型必须标注每个价格的来源(产品库命中 / 历史订单 / 模型推断)

2. data_source = "model_inference" 的字段自动标红,强制人工确认

3. 置信度低于0.8的报价项,不允许进入邮件草稿,跳转人工处理队列

# 报价输出结构示例

{

"sku": "ABC-001",

"unit_price": 12.5,

"currency": "USD",

"data_source": "product_db", # 必填字段

"confidence": 0.95,

"moq": 500,

"lead_time_days": 15

}

原则: AI可以生成,但涉及金额的字段,数据来源必须可追溯。

坑②:多语言询盘的边界情况

土耳其语、阿拉伯语、波斯语混合的询盘,翻译质量会显著下降。我们的处理方案是:语言识别步骤如果检测到"非主流语种"(非英/中/西/法/德/日/韩),自动降级为人工翻译队列,不进入自动化流程。

宁可多花一点人工,也不要让低质量翻译污染后续所有步骤。

坑③:业务员不信任AI输出

这是最难解决的问题,因为它不是技术问题。

我们的解法是:不要让AI替代业务员,让AI给业务员打草稿。

所有AI输出都以"草稿"形式呈现,业务员可以一键采纳、局部修改或完全重写。系统会记录每次修改,一个月后我们发现:90%以上的草稿,业务员只改了称谓和个别措辞,主体内容直接采纳。

信任是用结果建立的,不是用培训建立的。

---

可直接参考的最小可行路径

如果你现在想开始,不需要一次性搭完6个模块。

从意图分类开始(任务②):

1. 注册 [api.884819.xyz](https://api.884819.xyz),新用户注册即送体验token,国产模型(Deepseek/千问)完全免费

2. 把上面的 INTENT_CLASSIFICATION_PROMPT 模板复制过去

3. 用最近20封真实询盘测试,看分类准确率

4. 如果准确率超过85%,说明这条路走得通,再往前扩展

10行代码,一次API调用,你就能感受到差距在哪。

---

写在最后

这套方案解决的是单个流程的AI化——从一封询盘进来,到一封邮件草稿出去,这个链路我们已经跑稳了。

但当询盘量从每天20封涨到200封,问题的性质完全变了:

  • 某个模型接口突然超时,整条流水线怎么降级?
  • 错误率从1%涨到3%,人工兜底的成本已经超过收益怎么办?
  • 业务员发现AI出错,但说不清是哪个步骤出的问题,怎么排查?
下一篇我们会聊:AI流程从"能跑"到"敢用",中间差了什么。 包括错误处理机制、人工审核节点的设计原则,以及一套最小化的监控告警方案——这些才是把原型推上生产的真正门槛。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI外贸 #API实战 #任务拆解 #成本控制 #Prompt工程 #8848AI #AI落地 #外贸自动化