我把真实的业务表扔给 GPT-5.5，结果出乎意料

上周一个同事问我："GPT 处理 Excel 到底好不好用？"

我想了三秒，没直接回答。

因为我见过太多测评是用精心准备的"示例数据"跑的——字段名干净、格式统一、没有空值、没有合并单元格，结构规整得像教科书附录。这种数据喂给任何模型都能跑出漂亮结果，但那不是真实工作的样子。

真实业务表是什么样的？是同一列里混着中文"华东区"和英文"East"，是因为历史遗留问题有三行合并单元格的表头，是"退货数量"这一列有 20% 的空值但没人知道是真没退货还是没填，是你的老板把它发给你的时候说"你帮我看看这个月哪里有问题"。

我手头正好有一份这样的数据——脱敏处理后的月度渠道销售明细，约 1,200 行，覆盖 6 个渠道、4 个产品线，包含发货量、退货量、实收金额、渠道折扣等字段。表头有合并，部分字段有空值，金额列存在中英混排的货币单位标注。

我把它原封不动扔给了 GPT-5.5，连续测了三天。

这篇文章记录的是我的真实感受——不是 benchmark，是工作流里真实的惊喜和踩坑。

---

第一章：理解业务语义的能力，超出我的预期

第一个问题，我故意问得很"人话"，没有写任何提示词技巧：

"哪个渠道的退货率异常？"

这个问题有一个隐含的计算逻辑：退货率 = 退货量 / 发货量。我没有告诉它这个公式，字段名也不是"退货率"，表里只有"退货数量"和"发货数量"两列。

GPT-5.5 的回答让我停顿了一下。

它不仅自动识别出了计算逻辑，还主动说明了"空值按 0 处理，如需排除空值请告知"，然后输出了一张按渠道汇总的退货率对比表，并标注了哪个渠道的退货率显著高于均值。

我随后用同样的问题问了 GPT-4o。GPT-4o 的回答是：

"请问您希望我计算退货率吗？退货率的计算方式是退货量除以发货量，请确认字段名称。"

这不是在黑 GPT-4o——它的谨慎本身没问题。但在实际工作场景里，这种"反问"打断了分析节奏，尤其是当你已经知道自己想要什么答案的时候，被模型要求再解释一遍是很烦的。

GPT-5.5 在语义推断上的代际差异，体现在它不需要你把业务逻辑翻译成机器语言，它自己完成了这个翻译。

以下是两个模型在同一问题上的核心差异对比：

---

第二章：连续追问 5 轮，上下文没有崩

这是我最在意的一个测试。

很多模型在单轮问答上表现不错，但一旦进入"连续追问"的工作流，就开始出现幻觉字段、引用错误列名、或者干脆忘掉前面说过什么。

我设计了一个从宏观到微观的分析链路，全程不重新上传数据：

1. 第1轮：各渠道本月销售额汇总，按高到低排序

2. 第2轮：电商渠道的数据，按产品线下钻

3. 第3轮：电商渠道 A 产品线，与上月同期对比

4. 第4轮：基于当前趋势，预测下月电商渠道的大致区间

5. 第5轮：把以上分析整理成一份可以发给老板的简报

GPT-5.5 全程保持了字段引用一致。第3轮提到的"电商渠道 A 产品线"，到第5轮生成简报时，它没有把渠道名写错，也没有把数字张冠李戴。

更重要的是，第4轮的预测，它没有给我一个精确的数字，而是说：

"基于过去3个月的趋势，电商渠道存在季节性波动，当前数据量不足以支撑高置信度预测，建议参考区间而非点估计。"

这句话让我对它的信任度上升了一个台阶。一个知道自己边界在哪里的模型，比一个什么都敢说的模型更可靠。

对于实际工作流来说，这种上下文连贯性意味着什么？意味着你可以把它当成一个"记得住上下文的分析同事"，而不是每次都要从头解释背景的工具。

它适合替代的重复性分析动作包括：

每周/每月的渠道汇总报告初稿
按维度下钻的常规分析
将数据结论翻译成非技术人员能看懂的文字

---

第三章：输出的表格格式，有个小惊喜

这部分原本我没打算单独写，但有一个细节值得说。

GPT-5.5 生成的 Markdown 表格，格式规整，列宽逻辑合理，数字对齐方式也正确（金额列右对齐）。我把输出直接复制进飞书文档，基本不需要手动调整，粘贴进 Notion 同样兼容。

但真正让我意外的是：它在表格下方主动加了一段数据说明注脚：

"注：退货数量列存在约 18% 的空值，本表中已按 0 处理；金额列中部分行存在货币单位混排（元/CNY），已统一换算为人民币元。"

我没有要求它写这个。它自己加的。

这个细节的价值在于：如果你把这份报告发给老板或客户，这段注脚能帮你提前堵住"数据怎么来的"这类质疑。在真实工作场景里，这种主动的数据透明度，是很多初级分析师也会忘记做的事情。

---

第四章：复杂计算和跨表关联，是真实的硬伤

好了，到了泼冷水的部分。

当我把问题复杂度提上去——要求它处理"多表关联 + 条件求和 + 滚动窗口计算"的场景时，GPT-5.5 开始暴露问题。

具体场景是：我有两张表，一张是销售明细，一张是渠道费用表，我想计算"每个渠道过去 3 个月的滚动净利润率（扣除渠道费用后）"。

它生成了 Python 代码，看起来结构清晰，但存在一个逻辑错误：

# GPT-5.5 生成的原始代码（存在错误）
import pandas as pd

df_sales = pd.read_excel('sales.xlsx')
df_cost = pd.read_excel('cost.xlsx')

❌ 错误：merge 时用了 left join，但后续计算没有处理 NaN
merged = pd.merge(df_sales, df_cost, on='channel', how='left')

❌ 错误：rolling 窗口计算前未按渠道分组
merged['rolling_profit'] = merged['net_profit'].rolling(3).mean()

result = merged.groupby('channel')['rolling_profit'].last()
print(result)

问题有两个：

1. left join 之后，费用表里没有的渠道会产生 NaN，但代码没有处理这个情况，导致净利润计算结果偏高

2. rolling(3) 在 groupby 之前执行，滚动窗口跨越了不同渠道的数据，计算逻辑完全错误

我把错误反馈给它，它修正了第一个问题，但第二个问题在第二轮还是没改对。第三轮才给出正确版本：

# 修正后的正确代码
import pandas as pd

df_sales = pd.read_excel('sales.xlsx')
df_cost = pd.read_excel('cost.xlsx')

✅ 合并后处理 NaN
merged = pd.merge(df_sales, df_cost, on='channel', how='left')
merged['cost'] = merged['cost'].fillna(0)
merged['net_profit'] = merged['revenue'] - merged['cost']

✅ 先按渠道分组，再做滚动窗口计算
merged = merged.sort_values(['channel', 'month'])
merged['rolling_profit'] = (
merged.groupby('channel')['net_profit']
.transform(lambda x: x.rolling(3, min_periods=1).mean())
)

result = merged.groupby('channel')['rolling_profit'].last()
print(result)

三轮才收敛，在实际工作流里，这意味着你需要有能力识别代码里的逻辑错误，否则你可能拿着一个看起来能跑、但结果错误的代码去做决策。

它很聪明，但它不负责。

这是我在这个测试结束后最想说的一句话。GPT-5.5 是优秀的"分析助手"，但它还不是可以闭眼信任的"数据工程师"。复杂计算的结果，必须人工校验，或者配合代码执行环境（比如 Code Interpreter）来验证输出。

---

第五章：给不同人群的使用建议

用一张表收尾，比长篇大论更有用。

数据量在几千行以内的常规分析
需要快速出结论的汇报场景
把数字翻译成业务语言的工作
多轮追问、逐步下钻的探索性分析

什么场景别踩坑：

多表关联 + 复杂条件计算（需要人工校验）
对精度要求极高的财务核算
数据量超大的批量处理（建议走 API + 代码执行环境）
字段含义高度模糊的数据（它的推断可能和你的业务逻辑不一致）

---

💡 想自己跑一遍？

文中所有测试均通过 API 调用完成，方便批量处理大文件、也更稳定。如果你想用 GPT-5.5 接入自己的数据分析流程，可以直接用这个渠道获取 API 访问权限：

👉 [api.884819.xyz](https://api.884819.xyz)

支持 GPT-5.5 / Claude / Gemini / Deepseek 多模型，按量计费，国产模型完全免费，没有月租，适合个人和小团队。新用户注册即送体验 token，注册只需用户名+密码，30 秒搞定。

---

最后说一句：如果你的工作里有大量重复性的数据汇总和报告生成，GPT-5.5 值得认真试一次。它能帮你节省的不是"偶尔查个数据"的时间，而是那种每周都要做、每次都要花两小时的机械性分析工作。

但如果你想把它用在复杂的数据工程任务上，现在还不是时候——至少，不是在没有验证机制的情况下。

---

下一篇预告：

既然 GPT-5.5 在复杂计算上还不可靠，那如果给它配上代码执行环境（Code Interpreter），结果会不会不一样？

我正在测，数据比这次更乱——一份跨季度、跨货币、含有合并表头的财务数据。如果 Code Interpreter 能补上这块短板，整个分析工作流可能会发生质的变化。

敬请期待。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI测评 #GPT-5.5 #数据分析 #Excel #8848AI #AI工具 #效率工具 #Python