本文最后更新于 2026-05-23，文章内容可能已经过时。

全模态 vs 多模态：我用三个日常任务测了一下，差距比我想象的更具体

上周在一家云南菜馆，我把菜单拍给 AI 看，它回我一句："请描述一下菜单上有什么。"

我当时就愣了。我拍给你，不就是因为我不想打字吗？

这件事让我开始认真想一个问题："全模态"到底解决的是不是这个问题？ 还是说，它只是一个更好听的营销词，底层该翻译还是得翻译？

带着这个问题，我花了几天时间做了一组测试。结论不是"全模态碾压一切"，也不是"多模态够用了别折腾"——而是一个更具体的答案，取决于你在做什么事。

一、先把概念说清楚，否则后面都是废话

在聊测试结果之前，必须先厘清两个概念。不然你看完会觉得"好像有道理"，但不知道为什么有道理。

多模态（Multimodal） 是目前大多数模型的工作方式。它的流程大概是这样：你传一张图片，模型先用一个独立的视觉编码器把图片"翻译"成一串向量，再把这串向量和你的文字 prompt 拼在一起，送进语言模型处理。音频也一样，先转成文字或者特征向量，再交给语言模型。 全模态（Omnimodal / Native Multimodal） 的核心差异在于：图片、音频、文字，从一开始就在同一个语义空间里被处理，而不是各自编码后拼接。

用一个类比来说：

多模态像翻译官转述——你说中文，翻译官先翻成英文，再告诉对方。翻译过程中，语气、停顿、情绪，多少会有损耗。

全模态像当事人直接听——对方本来就懂中文，你说什么他直接理解，没有中间层。

这个差异在理论上听起来很大，但在实际使用里到底有多真实？这正是本文要回答的问题。

我不打算引用 benchmark 分数——那些数字对普通用户几乎没有参考价值。我只想用三个普通人真实会遇到的任务，来量一量这个差距。

二、测试设计：为什么选这三个任务

选题逻辑很简单：必须是你我都会遇到的场景，而不是 AI 圈专门设计的压测题。

三个任务分别覆盖三个维度：

视觉理解：菜单拍照点菜
音频理解：语音备忘录整理待办
跨模态推理：Excel 截图分析账目

测试方法统一：每个任务用两种方式处理——

1. 先转文字再问（模拟多模态的中间层损耗）

2. 直接丢原始媒体（全模态原生处理）

对比两种输出的差异，诚实记录，包括出错的地方。

三、三个任务实测

任务一：拍下一张餐厅菜单，帮我点菜

场景：手写菜单，价格不规整，有些菜名用方言写的。我的要求是"预算 80 元以内，不吃香菜，帮我选一个套餐"。 方式 A（先转文字）：我手动把菜单上的菜名和价格打成文字，再把这段文字连同要求一起发给模型。

输出结果：模型推荐了一个组合，逻辑清晰，价格加总正确，也排除了含香菜的菜。

方式 B（直接传图）：把拍好的菜单照片直接发给模型，附上同样的要求。

输出结果：模型不仅给出了推荐组合，还主动标注了"这道菜备注里写了'可去香菜'，如果你不确定，建议点单时再确认一下"——这个备注信息，在我手动转录时压根没打进去，因为我觉得不重要。

差异在哪里：方式 A 的信息是我筛选过的，我认为重要的才打进去；方式 B 的信息是完整的，模型自己判断什么重要。转译过程中，我无意识地做了一次信息过滤。 结论一句话：图片里的信息密度远超你愿意手打的量，全模态在这里的优势不是"更聪明"，而是"看到了更多"。

任务二：30 秒语音备忘录，整理成待办清单

场景：模拟开车时说的一段备忘，背景有轻微噪音，口语化，逻辑跳跃。原始内容大概是：

"嗯……对，明天要给王总回个邮件，就是上次那个方案的事，然后……对了，下周三之前要把报告交给 Lisa，不然她要催了，还有就是……超市，要买牛奶，还有狗粮，狗粮快没了，比较急，然后……周五那个会议，我记得要提前准备一下 PPT，应该不复杂，但得做……"

方式 A（先转录再整理）：用语音转文字工具先转成文字，再把文字发给模型，让它整理成待办清单。

输出结果：

待办清单：
1. 回复王总邮件（关于方案）
2. 完成报告并提交给 Lisa（下周三前）
3. 购买牛奶和狗粮
4. 准备周五会议 PPT

整洁，准确，没问题。

方式 B（直接传音频）：把原始音频文件直接发给模型，同样的要求。

输出结果：

待办清单（按紧急程度排序）：
1. 🔴 购买狗粮（你提到"比较急"）
2. 🟡 回复王总邮件（关于方案，明天）
3. 🟡 完成报告提交给 Lisa（下周三前）
4. 🟢 准备周五会议 PPT（你说"应该不复杂"）

注意到差别了吗？方式 B 捕捉到了语气信息——"比较急"和"应该不复杂"这两个口语化的优先级信号，被模型用来做了排序判断。方式 A 的转录文字里虽然也有这些词，但经过一次转录、一次整理，这些语气词的权重被稀释了。

误差记录：方式 B 有一次把"王总"识别成了"王宗"，是个小错误，不影响理解，但如果是正式场合需要注意。 结论一句话：语气信息是隐性的优先级信号，全模态能直接读到，转录再处理会有损耗。

任务三：Excel 截图，问"这个月哪个品类亏了"

场景：一个小店主，截了一张简单的月度账目截图，有品类名称、收入、成本列，数据不复杂，但需要计算毛利率才能判断亏损。 方式 A（手动录入数据）：把表格数据手打成文字，格式大概是"品类A：收入3200，成本2800；品类B：收入1500，成本1900……"，再发给模型。

输出结果：模型正确计算了各品类毛利，指出品类B和品类D是亏损的，给出了百分比。

方式 B（直接传截图）：把截图直接发给模型，附上同样的问题。

输出结果：模型不仅给出了亏损品类，还额外说了一句："我注意到表格里品类C的成本数字有一处看起来像是手写修改过的，如果这个数字是最新的，那品类C也接近盈亏平衡线，建议确认一下。"

这个"手写修改痕迹"是我完全没有在意的细节，手动录入时也没有录进去。但它在截图里是可见的——一个数字旁边有个小箭头和修改标注。

这里展示一下 API 调用方式，方式 B 的实现其实并不复杂：

import requests
import base64

读取图片并转为 base64
with open("excel_screenshot.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")

调用多模态接口
response = requests.post(
"https://api.884819.xyz/v1/chat/completions",
headers={
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
json={
"model": "gemini-2.5-pro",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
},
{
"type": "text",
"text": "这是我店里这个月的账目截图，帮我看看哪个品类亏了？"
}
]
}
]
}
)

print(response.json()["choices"][0]["message"]["content"])

本文测试用的图片和音频接口，都是通过 [api.884819.xyz](https://api.884819.xyz) 调用的——它聚合了 Gemini、GPT-4o、Claude 等主流模型的多模态接口，统一格式，不用为每家单独申请 key。如果你想自己复现这篇文章的测试，或者在自己的产品里接入图片/音频理解能力，可以直接从那里开始。新用户注册即送体验 token。

误差记录：方式 B 在识别一个手写数字时出现了一次错误，把"8"读成了"6"，导致某个品类的毛利计算偏差。这个错误在我核对时发现了，但如果不核对，可能会直接用错误结论。图片质量对识别准确率影响很大，截图模糊时不建议完全依赖模型输出。 结论一句话：全模态能看到你没有意识到要告诉它的信息，但图片质量是硬门槛。

四、感知差异的边界在哪里

测完三个任务，我可以给出一个更清晰的判断框架。

全模态优势最明显的场景：

信息密度高：菜单、账目截图、合同扫描件——人工转录成本高，且容易漏掉细节
转译损耗大：语音里的语气、图片里的标注、视频里的上下文——这些东西用文字描述会失真
实时性要求强：你没有时间先整理再问，需要直接丢进去得到答案

多模态完全够用的场景：

纯文字任务：写作、代码、逻辑推理——这些场景根本不需要图片或音频
简单图片问答：图片内容简单，你用一句话就能描述清楚的，转译损耗几乎为零
对精确度要求极高的数字识别：这种场景下，手动录入反而比图片识别更可靠

给读者一个判断框架：

如果你需要先描述才能问，全模态就有价值；如果你直接打字就能说清，多模态够用。

这个框架不复杂，但它能帮你在大多数场景里做出正确选择。

五、结论与使用建议

直接回答开头的问题：能感知到，但不是每次都能，取决于任务类型。

全模态的优势不是让 AI 变得更聪明——它改变的是信息进入模型的方式。当你不再需要做翻译，模型看到的信息就是你看到的信息，而不是你愿意描述的信息。

三类用户的具体建议： 小白用户：不用纠结概念，记住一件事——以后遇到"我想问这个但不知道怎么打字描述"的情况，直接拍照或录音发过去，不要先转成文字。 进阶用户：把全模态能力用在工作流里。合同审查、报告截图分析、会议录音整理——这些场景下，直接传原始文件比手动整理再问效率高得多。注意图片质量，模糊截图会显著降低识别准确率。 开发者：如果你在做需要处理用户上传内容的产品，统一走多模态接口是值得的。代码层面的改动不大（参考上面的示例），但用户体验的提升会很直接——你不再需要要求用户先做格式转换。如果你想快速试一下全模态 API 的实际响应质量，[api.884819.xyz](https://api.884819.xyz) 有免费额度，直接测比看评测更直接。

最后用一句话收尾，也是我测完之后最真实的感受：

全模态真正改变的不是 AI 能做什么，而是你不再需要为 AI 做翻译。 它解决的问题很小——就是让你少打几个字、少描述几句话。但如果你每天要跟 AI 说很多次话，这个"小"会变得很大。

测完全模态之后，我其实更好奇另一件事：当模型能直接理解图片和声音，它在"记住你"这件事上会不会也变得不一样？下篇我们聊聊 AI 记忆——不是噱头，是我测出来觉得真的有点怪的东西。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI评测 #Gemini #全模态 #多模态 #8848AI #AI工具 #人工智能 #AI实测