本文最后更新于 2026-05-23,文章内容可能已经过时。

全模态 vs 多模态:我用三个日常任务测了一下,差距比我想象的更具体

上周在一家云南菜馆,我把菜单拍给 AI 看,它回我一句:"请描述一下菜单上有什么。"

我当时就愣了。我拍给你,不就是因为我不想打字吗?

这件事让我开始认真想一个问题:"全模态"到底解决的是不是这个问题? 还是说,它只是一个更好听的营销词,底层该翻译还是得翻译?

带着这个问题,我花了几天时间做了一组测试。结论不是"全模态碾压一切",也不是"多模态够用了别折腾"——而是一个更具体的答案,取决于你在做什么事。

一、先把概念说清楚,否则后面都是废话

在聊测试结果之前,必须先厘清两个概念。不然你看完会觉得"好像有道理",但不知道为什么有道理。

多模态(Multimodal) 是目前大多数模型的工作方式。它的流程大概是这样:你传一张图片,模型先用一个独立的视觉编码器把图片"翻译"成一串向量,再把这串向量和你的文字 prompt 拼在一起,送进语言模型处理。音频也一样,先转成文字或者特征向量,再交给语言模型。 全模态(Omnimodal / Native Multimodal) 的核心差异在于:图片、音频、文字,从一开始就在同一个语义空间里被处理,而不是各自编码后拼接。

用一个类比来说:

多模态像翻译官转述——你说中文,翻译官先翻成英文,再告诉对方。翻译过程中,语气、停顿、情绪,多少会有损耗。

>

全模态像当事人直接听——对方本来就懂中文,你说什么他直接理解,没有中间层。

这个差异在理论上听起来很大,但在实际使用里到底有多真实?这正是本文要回答的问题。

我不打算引用 benchmark 分数——那些数字对普通用户几乎没有参考价值。我只想用三个普通人真实会遇到的任务,来量一量这个差距。

二、测试设计:为什么选这三个任务

选题逻辑很简单:必须是你我都会遇到的场景,而不是 AI 圈专门设计的压测题。

三个任务分别覆盖三个维度:

  • 视觉理解:菜单拍照点菜
  • 音频理解:语音备忘录整理待办
  • 跨模态推理:Excel 截图分析账目

测试方法统一:每个任务用两种方式处理——

1. 先转文字再问(模拟多模态的中间层损耗)

2. 直接丢原始媒体(全模态原生处理)

对比两种输出的差异,诚实记录,包括出错的地方。

三、三个任务实测

任务一:拍下一张餐厅菜单,帮我点菜

场景:手写菜单,价格不规整,有些菜名用方言写的。我的要求是"预算 80 元以内,不吃香菜,帮我选一个套餐"。 方式 A(先转文字):我手动把菜单上的菜名和价格打成文字,再把这段文字连同要求一起发给模型。

输出结果:模型推荐了一个组合,逻辑清晰,价格加总正确,也排除了含香菜的菜。

方式 B(直接传图):把拍好的菜单照片直接发给模型,附上同样的要求。

输出结果:模型不仅给出了推荐组合,还主动标注了"这道菜备注里写了'可去香菜',如果你不确定,建议点单时再确认一下"——这个备注信息,在我手动转录时压根没打进去,因为我觉得不重要。

差异在哪里:方式 A 的信息是我筛选过的,我认为重要的才打进去;方式 B 的信息是完整的,模型自己判断什么重要。转译过程中,我无意识地做了一次信息过滤。 结论一句话:图片里的信息密度远超你愿意手打的量,全模态在这里的优势不是"更聪明",而是"看到了更多"。

任务二:30 秒语音备忘录,整理成待办清单

场景:模拟开车时说的一段备忘,背景有轻微噪音,口语化,逻辑跳跃。原始内容大概是:
"嗯……对,明天要给王总回个邮件,就是上次那个方案的事,然后……对了,下周三之前要把报告交给 Lisa,不然她要催了,还有就是……超市,要买牛奶,还有狗粮,狗粮快没了,比较急,然后……周五那个会议,我记得要提前准备一下 PPT,应该不复杂,但得做……"
方式 A(先转录再整理):用语音转文字工具先转成文字,再把文字发给模型,让它整理成待办清单。

输出结果:

待办清单:

1. 回复王总邮件(关于方案)

2. 完成报告并提交给 Lisa(下周三前)

3. 购买牛奶和狗粮

4. 准备周五会议 PPT

整洁,准确,没问题。

方式 B(直接传音频):把原始音频文件直接发给模型,同样的要求。

输出结果:

待办清单(按紧急程度排序):

1. 🔴 购买狗粮(你提到"比较急")

2. 🟡 回复王总邮件(关于方案,明天)

3. 🟡 完成报告提交给 Lisa(下周三前)

4. 🟢 准备周五会议 PPT(你说"应该不复杂")

注意到差别了吗?方式 B 捕捉到了语气信息——"比较急"和"应该不复杂"这两个口语化的优先级信号,被模型用来做了排序判断。方式 A 的转录文字里虽然也有这些词,但经过一次转录、一次整理,这些语气词的权重被稀释了。

误差记录:方式 B 有一次把"王总"识别成了"王宗",是个小错误,不影响理解,但如果是正式场合需要注意。 结论一句话:语气信息是隐性的优先级信号,全模态能直接读到,转录再处理会有损耗。

任务三:Excel 截图,问"这个月哪个品类亏了"

场景:一个小店主,截了一张简单的月度账目截图,有品类名称、收入、成本列,数据不复杂,但需要计算毛利率才能判断亏损。 方式 A(手动录入数据):把表格数据手打成文字,格式大概是"品类A:收入3200,成本2800;品类B:收入1500,成本1900……",再发给模型。

输出结果:模型正确计算了各品类毛利,指出品类B和品类D是亏损的,给出了百分比。

方式 B(直接传截图):把截图直接发给模型,附上同样的问题。

输出结果:模型不仅给出了亏损品类,还额外说了一句:"我注意到表格里品类C的成本数字有一处看起来像是手写修改过的,如果这个数字是最新的,那品类C也接近盈亏平衡线,建议确认一下。"

这个"手写修改痕迹"是我完全没有在意的细节,手动录入时也没有录进去。但它在截图里是可见的——一个数字旁边有个小箭头和修改标注。

这里展示一下 API 调用方式,方式 B 的实现其实并不复杂:
import requests

import base64

读取图片并转为 base64

with open("excel_screenshot.png", "rb") as f:

image_data = base64.b64encode(f.read()).decode("utf-8")

调用多模态接口

response = requests.post(

"https://api.884819.xyz/v1/chat/completions",

headers={

"Authorization": "Bearer YOUR_API_KEY",

"Content-Type": "application/json"

},

json={

"model": "gemini-2.5-pro",

"messages": [

{

"role": "user",

"content": [

{

"type": "image_url",

"image_url": {

"url": f"data:image/png;base64,{image_data}"

}

},

{

"type": "text",

"text": "这是我店里这个月的账目截图,帮我看看哪个品类亏了?"

}

]

}

]

}

)

print(response.json()["choices"][0]["message"]["content"])

本文测试用的图片和音频接口,都是通过 [api.884819.xyz](https://api.884819.xyz) 调用的——它聚合了 Gemini、GPT-4o、Claude 等主流模型的多模态接口,统一格式,不用为每家单独申请 key。如果你想自己复现这篇文章的测试,或者在自己的产品里接入图片/音频理解能力,可以直接从那里开始。新用户注册即送体验 token。
误差记录:方式 B 在识别一个手写数字时出现了一次错误,把"8"读成了"6",导致某个品类的毛利计算偏差。这个错误在我核对时发现了,但如果不核对,可能会直接用错误结论。图片质量对识别准确率影响很大,截图模糊时不建议完全依赖模型输出。 结论一句话:全模态能看到你没有意识到要告诉它的信息,但图片质量是硬门槛。

四、感知差异的边界在哪里

测完三个任务,我可以给出一个更清晰的判断框架。

全模态优势最明显的场景
  • 信息密度高:菜单、账目截图、合同扫描件——人工转录成本高,且容易漏掉细节
  • 转译损耗大:语音里的语气、图片里的标注、视频里的上下文——这些东西用文字描述会失真
  • 实时性要求强:你没有时间先整理再问,需要直接丢进去得到答案
多模态完全够用的场景
  • 纯文字任务:写作、代码、逻辑推理——这些场景根本不需要图片或音频
  • 简单图片问答:图片内容简单,你用一句话就能描述清楚的,转译损耗几乎为零
  • 对精确度要求极高的数字识别:这种场景下,手动录入反而比图片识别更可靠
给读者一个判断框架
如果你需要先描述才能问,全模态就有价值;如果你直接打字就能说清,多模态够用。

这个框架不复杂,但它能帮你在大多数场景里做出正确选择。

五、结论与使用建议

直接回答开头的问题:能感知到,但不是每次都能,取决于任务类型。

全模态的优势不是让 AI 变得更聪明——它改变的是信息进入模型的方式。当你不再需要做翻译,模型看到的信息就是你看到的信息,而不是你愿意描述的信息。

三类用户的具体建议小白用户:不用纠结概念,记住一件事——以后遇到"我想问这个但不知道怎么打字描述"的情况,直接拍照或录音发过去,不要先转成文字。 进阶用户:把全模态能力用在工作流里。合同审查、报告截图分析、会议录音整理——这些场景下,直接传原始文件比手动整理再问效率高得多。注意图片质量,模糊截图会显著降低识别准确率。 开发者:如果你在做需要处理用户上传内容的产品,统一走多模态接口是值得的。代码层面的改动不大(参考上面的示例),但用户体验的提升会很直接——你不再需要要求用户先做格式转换。如果你想快速试一下全模态 API 的实际响应质量,[api.884819.xyz](https://api.884819.xyz) 有免费额度,直接测比看评测更直接。

最后用一句话收尾,也是我测完之后最真实的感受:

全模态真正改变的不是 AI 能做什么,而是你不再需要为 AI 做翻译。 它解决的问题很小——就是让你少打几个字、少描述几句话。但如果你每天要跟 AI 说很多次话,这个"小"会变得很大。

测完全模态之后,我其实更好奇另一件事:当模型能直接理解图片和声音,它在"记住你"这件事上会不会也变得不一样?下篇我们聊聊 AI 记忆——不是噱头,是我测出来觉得真的有点怪的东西。

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI评测 #Gemini #全模态 #多模态 #8848AI #AI工具 #人工智能 #AI实测