我把真实的业务表扔给 GPT-5.5,结果出乎意料

上周一个同事问我:"GPT 处理 Excel 到底好不好用?"

我想了三秒,没直接回答。

因为我见过太多测评是用精心准备的"示例数据"跑的——字段名干净、格式统一、没有空值、没有合并单元格,结构规整得像教科书附录。这种数据喂给任何模型都能跑出漂亮结果,但那不是真实工作的样子。

真实业务表是什么样的?是同一列里混着中文"华东区"和英文"East",是因为历史遗留问题有三行合并单元格的表头,是"退货数量"这一列有 20% 的空值但没人知道是真没退货还是没填,是你的老板把它发给你的时候说"你帮我看看这个月哪里有问题"。

我手头正好有一份这样的数据——脱敏处理后的月度渠道销售明细,约 1,200 行,覆盖 6 个渠道、4 个产品线,包含发货量、退货量、实收金额、渠道折扣等字段。表头有合并,部分字段有空值,金额列存在中英混排的货币单位标注。

我把它原封不动扔给了 GPT-5.5,连续测了三天。

这篇文章记录的是我的真实感受——不是 benchmark,是工作流里真实的惊喜和踩坑。

---

第一章:理解业务语义的能力,超出我的预期

第一个问题,我故意问得很"人话",没有写任何提示词技巧:

"哪个渠道的退货率异常?"

这个问题有一个隐含的计算逻辑:退货率 = 退货量 / 发货量。我没有告诉它这个公式,字段名也不是"退货率",表里只有"退货数量"和"发货数量"两列。

GPT-5.5 的回答让我停顿了一下。

它不仅自动识别出了计算逻辑,还主动说明了"空值按 0 处理,如需排除空值请告知",然后输出了一张按渠道汇总的退货率对比表,并标注了哪个渠道的退货率显著高于均值。

我随后用同样的问题问了 GPT-4o。GPT-4o 的回答是:

"请问您希望我计算退货率吗?退货率的计算方式是退货量除以发货量,请确认字段名称。"

这不是在黑 GPT-4o——它的谨慎本身没问题。但在实际工作场景里,这种"反问"打断了分析节奏,尤其是当你已经知道自己想要什么答案的时候,被模型要求再解释一遍是很烦的。

GPT-5.5 在语义推断上的代际差异,体现在它不需要你把业务逻辑翻译成机器语言,它自己完成了这个翻译。

以下是两个模型在同一问题上的核心差异对比:

| 对比维度 | GPT-4o | GPT-5.5 | | 字段识别 | 需要用户确认字段名 | 自动匹配同义字段 | | 计算逻辑推断 | 需要用户指定公式 | 自动推断业务含义 | | 空值处理 | 不主动说明 | 主动标注处理方式 | | 输出格式 | 纯文字描述 | Markdown 表格 + 文字结论 | | 追问友好度 | 每轮需重新说明上下文 | 保持上下文连贯 |

---

第二章:连续追问 5 轮,上下文没有崩

这是我最在意的一个测试。

很多模型在单轮问答上表现不错,但一旦进入"连续追问"的工作流,就开始出现幻觉字段、引用错误列名、或者干脆忘掉前面说过什么。

我设计了一个从宏观到微观的分析链路,全程不重新上传数据:

1. 第1轮:各渠道本月销售额汇总,按高到低排序

2. 第2轮:电商渠道的数据,按产品线下钻

3. 第3轮:电商渠道 A 产品线,与上月同期对比

4. 第4轮:基于当前趋势,预测下月电商渠道的大致区间

5. 第5轮:把以上分析整理成一份可以发给老板的简报

GPT-5.5 全程保持了字段引用一致。第3轮提到的"电商渠道 A 产品线",到第5轮生成简报时,它没有把渠道名写错,也没有把数字张冠李戴。

更重要的是,第4轮的预测,它没有给我一个精确的数字,而是说:

"基于过去3个月的趋势,电商渠道存在季节性波动,当前数据量不足以支撑高置信度预测,建议参考区间而非点估计。"

这句话让我对它的信任度上升了一个台阶。一个知道自己边界在哪里的模型,比一个什么都敢说的模型更可靠。

对于实际工作流来说,这种上下文连贯性意味着什么?意味着你可以把它当成一个"记得住上下文的分析同事",而不是每次都要从头解释背景的工具。

它适合替代的重复性分析动作包括:

  • 每周/每月的渠道汇总报告初稿
  • 按维度下钻的常规分析
  • 将数据结论翻译成非技术人员能看懂的文字

---

第三章:输出的表格格式,有个小惊喜

这部分原本我没打算单独写,但有一个细节值得说。

GPT-5.5 生成的 Markdown 表格,格式规整,列宽逻辑合理,数字对齐方式也正确(金额列右对齐)。我把输出直接复制进飞书文档,基本不需要手动调整,粘贴进 Notion 同样兼容。

但真正让我意外的是:它在表格下方主动加了一段数据说明注脚

"注:退货数量列存在约 18% 的空值,本表中已按 0 处理;金额列中部分行存在货币单位混排(元/CNY),已统一换算为人民币元。"

我没有要求它写这个。它自己加的。

这个细节的价值在于:如果你把这份报告发给老板或客户,这段注脚能帮你提前堵住"数据怎么来的"这类质疑。在真实工作场景里,这种主动的数据透明度,是很多初级分析师也会忘记做的事情。

---

第四章:复杂计算和跨表关联,是真实的硬伤

好了,到了泼冷水的部分。

当我把问题复杂度提上去——要求它处理"多表关联 + 条件求和 + 滚动窗口计算"的场景时,GPT-5.5 开始暴露问题。

具体场景是:我有两张表,一张是销售明细,一张是渠道费用表,我想计算"每个渠道过去 3 个月的滚动净利润率(扣除渠道费用后)"。

它生成了 Python 代码,看起来结构清晰,但存在一个逻辑错误:

# GPT-5.5 生成的原始代码(存在错误)

import pandas as pd

df_sales = pd.read_excel('sales.xlsx')

df_cost = pd.read_excel('cost.xlsx')

❌ 错误:merge 时用了 left join,但后续计算没有处理 NaN

merged = pd.merge(df_sales, df_cost, on='channel', how='left')

❌ 错误:rolling 窗口计算前未按渠道分组

merged['rolling_profit'] = merged['net_profit'].rolling(3).mean()

result = merged.groupby('channel')['rolling_profit'].last()

print(result)

问题有两个:

1. left join 之后,费用表里没有的渠道会产生 NaN,但代码没有处理这个情况,导致净利润计算结果偏高

2. rolling(3)groupby 之前执行,滚动窗口跨越了不同渠道的数据,计算逻辑完全错误

我把错误反馈给它,它修正了第一个问题,但第二个问题在第二轮还是没改对。第三轮才给出正确版本:

# 修正后的正确代码

import pandas as pd

df_sales = pd.read_excel('sales.xlsx')

df_cost = pd.read_excel('cost.xlsx')

✅ 合并后处理 NaN

merged = pd.merge(df_sales, df_cost, on='channel', how='left')

merged['cost'] = merged['cost'].fillna(0)

merged['net_profit'] = merged['revenue'] - merged['cost']

✅ 先按渠道分组,再做滚动窗口计算

merged = merged.sort_values(['channel', 'month'])

merged['rolling_profit'] = (

merged.groupby('channel')['net_profit']

.transform(lambda x: x.rolling(3, min_periods=1).mean())

)

result = merged.groupby('channel')['rolling_profit'].last()

print(result)

三轮才收敛,在实际工作流里,这意味着你需要有能力识别代码里的逻辑错误,否则你可能拿着一个看起来能跑、但结果错误的代码去做决策。

它很聪明,但它不负责。

这是我在这个测试结束后最想说的一句话。GPT-5.5 是优秀的"分析助手",但它还不是可以闭眼信任的"数据工程师"。复杂计算的结果,必须人工校验,或者配合代码执行环境(比如 Code Interpreter)来验证输出。

---

第五章:给不同人群的使用建议

用一张表收尾,比长篇大论更有用。

| 用户类型 | 推荐用法 | 注意边界 | | 运营 | 渠道数据汇总、退货率异常排查、周报初稿生成 | 不要直接用它的数字,要核对原始数据 | | 产品 | 用户行为数据的语义解读、多维度下钻分析 | 避免让它做精确的漏斗转化计算 | | 数据分析师 | 快速出分析框架、生成报告文字、辅助写 pandas 代码 | 复杂逻辑必须人工 review,不能当黑盒用 | 什么场景值得用:
  • 数据量在几千行以内的常规分析
  • 需要快速出结论的汇报场景
  • 把数字翻译成业务语言的工作
  • 多轮追问、逐步下钻的探索性分析
什么场景别踩坑:
  • 多表关联 + 复杂条件计算(需要人工校验)
  • 对精度要求极高的财务核算
  • 数据量超大的批量处理(建议走 API + 代码执行环境)
  • 字段含义高度模糊的数据(它的推断可能和你的业务逻辑不一致)

---

💡 想自己跑一遍?

>

文中所有测试均通过 API 调用完成,方便批量处理大文件、也更稳定。如果你想用 GPT-5.5 接入自己的数据分析流程,可以直接用这个渠道获取 API 访问权限:

>

👉 [api.884819.xyz](https://api.884819.xyz)

>

支持 GPT-5.5 / Claude / Gemini / Deepseek 多模型,按量计费,国产模型完全免费,没有月租,适合个人和小团队。新用户注册即送体验 token,注册只需用户名+密码,30 秒搞定。

---

最后说一句:如果你的工作里有大量重复性的数据汇总和报告生成,GPT-5.5 值得认真试一次。它能帮你节省的不是"偶尔查个数据"的时间,而是那种每周都要做、每次都要花两小时的机械性分析工作。

但如果你想把它用在复杂的数据工程任务上,现在还不是时候——至少,不是在没有验证机制的情况下。

---

下一篇预告:

既然 GPT-5.5 在复杂计算上还不可靠,那如果给它配上代码执行环境(Code Interpreter),结果会不会不一样?

我正在测,数据比这次更乱——一份跨季度、跨货币、含有合并表头的财务数据。如果 Code Interpreter 能补上这块短板,整个分析工作流可能会发生质的变化。

敬请期待。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI测评 #GPT-5.5 #数据分析 #Excel #8848AI #AI工具 #效率工具 #Python