本文最后更新于 2026-05-20,文章内容可能已经过时。

Gemini 2.5 Pro 多模态测评:我带着怀疑去测,结果比想象中复杂

我把一张在菜市场拍的照片丢进去,它给我写出了一个还不错的纪录片脚本。

但当我让它帮我改成竖屏短视频版本时,它开始一本正经地胡说八道——给我推荐的BGM是"节奏明快的电子音乐配合市井烟火气",然后洋洋洒洒写了八个分镜,每个分镜都在重复同一件事:大妈在砍价。

这就是我测试Gemini 2.5 Pro多模态能力的开场白。不是广告,是带着怀疑去的。

---

第一章:「从任何东西创造任何东西」——这句话到底在吹什么?

Google在发布Gemini 2.5 Pro的演示视频里,有一句让人印象深刻的话:"Any input, any output." 图片、音频、视频、文字、代码——全部打通,双向流动。

这句话在技术层面是真的。但"技术上能做到"和"用起来好用"之间,有一道被精心设计的演示所遮蔽的鸿沟。

先把概念厘清楚:多模态创作指的是AI能够理解不同形式的输入(图像、语音、视频、文本),并将它们转化为另一种形式的输出。Gemini 2.5 Pro的核心突破在于,它不是用多个专用模型拼接,而是用一个统一的大模型原生处理这些跨模态任务。

但有几个隐性前提条件,官方演示里从不明说:

1. 演示用的输入材料都经过精心挑选——光线好、主体清晰、语义明确。你用手机随手拍的糊图,效果会打折扣。

2. 演示是单轮交互——展示的永远是第一次生成就很好的结果,多轮迭代中的上下文漂移问题被刻意回避了。

3. "生成"≠"可控生成"——它能生成,不代表你能精确控制它生成你想要的那个版本。

带着这三个问题意识,我设计了三个测试场景。

---

第二章:三个真实场景测试

场景一:旅行照片 → 小红书/抖音发布方案

输入材料:一张普通游客拍的照片,构图一般,是在某古镇拍的石板路,逆光,有点糊。 要求:生成完整的小红书/抖音发布方案,包括脚本、分镜建议、BGM推荐、标题文案,要求"有传播性"。 测试耗时:约40秒生成完毕。

---

结果让我有点意外——图片语义理解超出预期。

它准确识别出了"古镇石板路""逆光氛围""怀旧感"这几个关键视觉元素,并且主动推断出了一个内容方向:"适合做'一个人旅行'系列的情绪向内容,而不是打卡攻略型内容"。这个判断其实挺准的——这张照片确实不适合做攻略,但很适合做情绪。

生成的标题文案里,有两条我觉得直接可用:

"走了一千公里,才明白有些地方不是用来打卡的"

>

"古镇没什么特别,但我在这里站了很久"

BGM推荐给了三个方向:民谣吉他、钢琴轻音乐、lo-fi。这三个方向本身没问题,但太宽泛了,对于真正需要选歌的创作者来说等于没说。

真正翻车的地方是分镜部分。它给了六个分镜建议,但这些分镜是基于"一张静态图片"推断出来的动态场景,所以出现了大量"镜头慢慢推进石板路""人物从远处走来"这类根本无法从这一张照片实现的建议。它在用一张图片的信息,脑补了一个根本不存在的拍摄现场。 这就是"土味感"需要人工干预的根本原因:AI理解了图片的情绪,但不理解创作者的实际资源约束。 📋 可复制Prompt模板(场景一):
我有一张[描述图片场景]的照片,请基于这张图片的视觉元素和情绪氛围,

为我生成一个小红书/抖音发布方案。

要求:

1. 标题文案3条,字数15字以内,有情绪钩子

2. 正文脚本200字以内,第一人称

3. BGM推荐:给出具体风格描述,而非泛泛的类型

4. 分镜建议:只基于我已有的素材(单张图片),不要假设我有其他拍摄内容

5. 风格参考:[填入你想要的账号风格,例如"类似@房琪kiki的情绪旅行风格"]

⚠️ 关键补充:第4条"只基于已有素材"这个约束非常重要,不加这句话,AI会自动脑补你没有的素材。

---

场景二:会议录音 → 结构化会议纪要

输入材料:一段约15分钟的中文会议录音(团队周会,讨论了产品迭代方向和Q3资源分配),音质一般,有背景噪音,多人发言。 要求:输出带执行项的会议纪要,并给出可视化数据图表的建议(如果会议中提到了数据)。 测试耗时:语音处理约90秒,文本生成约25秒。

---

这是三个场景里最接近"真实生产力工具"的一次。

中文语音识别准确率体感上相当高,即便有背景噪音和多人交叉发言,它对关键信息的提炼依然准确。它自动识别出了三位主要发言人(用"发言人A/B/C"标注),并且正确区分了"决策事项"和"待讨论事项"。

输出的会议纪要结构如下:

【会议结论】(3条核心决策)

【执行项清单】(责任人 + 截止时间 + 优先级)

【待确认问题】(需要后续跟进的模糊点)

【数据可视化建议】(针对会议中提到的数据)

执行项清单这部分是真正的亮点——它不只是转录,而是主动推断出了隐含的任务分工。比如会议里有人说"这块我来跟",它会识别出这是一个任务承接,并填入责任人。

图表代码也是真实可跑通的。会议里提到了某功能模块的用户使用时长数据,它直接生成了一段Python matplotlib代码,复制到本地跑,图出来了,格式也对。 失败案例(保留原始输出)

会议中有一段讨论是关于竞品分析的,发言人B说了一句"他们那边的数据我没拿到,但感觉应该差不多"。Gemini把这句话处理成了一个确定性结论,写进了会议纪要的"数据依据"部分。这是一个典型的幻觉问题:它把"感觉应该"当成了"已知事实"。

这提醒我们:AI做会议纪要,最危险的地方不是漏掉信息,而是把不确定性信息当成确定性结论输出。

📋 可复制Prompt模板(场景二):
请分析这段会议录音/文字记录,按以下格式输出会议纪要:

1. 会议结论(不超过5条,每条一句话)

2. 执行项清单(格式:任务 | 责任人 | 截止时间 | 优先级高/中/低)

3. 待确认问题(明确标注"尚未决策"或"信息不足")

4. 如有数据提及,给出可视化建议(Python代码)

特别注意:对于发言中的不确定表述("感觉""可能""应该"),

请在纪要中保留原始的不确定性,不要转化为确定性结论。

---

场景三:手绘草图 → 产品原型描述

输入材料:用手机在备忘录里随手画的APP界面草图,画的是一个"每日任务打卡"应用的首页,线条歪歪扭扭,文字潦草,有涂改痕迹。 要求:生成PRD文档片段 + 前端组件建议。 测试耗时:约55秒。

---

草图识别能力是这次测试里最让我惊喜的部分。

它正确识别出了草图里的:顶部导航栏、任务列表区域、底部Tab栏,以及我潦草写的"今日完成XX%"的进度显示区域。识别准确率体感上超过90%。

生成的前端组件建议非常实用:

- 顶部:AppBar + 日期显示组件
  • 主体:ListView + CheckboxListTile(Flutter)
或 FlatList + CheckBox(React Native)
  • 进度显示:CircularProgressIndicator
  • 底部:BottomNavigationBar(3个Tab)

这对于一个需要快速启动项目的开发者来说,已经是可以直接参考的起点。

但PRD部分暴露了明显短板。

它生成的PRD格式正确,包含了功能描述、用户故事、验收标准。但内容是"通用打卡应用"的模板,完全没有体现任何业务逻辑的深度。比如它写"用户可以创建任务",但没有问我:任务是否有分类?是否支持重复任务?打卡是否有激励机制?

这些问题不是AI应该替你回答的,但一个好的PRD应该至少提示你去思考这些问题。它没有。

结论:适合做启动草稿,不适合最终交付。 📋 可复制Prompt模板(场景三):
这是我手绘的APP界面草图,请基于草图内容:

1. 识别并列出所有可见的UI元素

2. 给出对应的前端组件建议(请指定框架:Flutter/React Native/Web)

3. 生成PRD片段,包含:

- 功能描述

- 用户故事(格式:作为[用户],我希望[功能],以便[目的])

- 以下维度的边界条件(请逐一提问,不要自行假设):

* 数据结构

* 用户权限

* 异常处理

注意:PRD中的业务逻辑部分,如果草图未提供信息,请以[待确认]标注,

不要自行填充假设内容。

---

第三章:哪里是真突破,哪里是精心设计的演示

用一张表格说清楚:

| 能力维度 | 真实突破 | 演示中被回避的短板 | | 图像语义理解 | 情绪、场景、主体识别准确率高 | 对"我没有的素材"会主动脑补 | | 语音转文字(中文) | 多人发言、背景噪音下仍可用 | 不确定性表述会被错误升级为确定结论 | | 草图/手绘识别 | UI元素识别令人惊喜 | 业务逻辑深度依赖输入信息,无法自主推断 | | 结构化输出 | 格式稳定,代码可直接运行 | 多轮迭代后格式容易漂移 | | 风格迁移 | 能识别并模仿指定风格 | 需要明确的风格参照,否则输出"中庸化" | | 上下文稳定性 | 单轮交互表现优秀 | 超过5轮后,早期约束条件容易被遗忘 |

核心判断框架只有一句话:

输入越结构化,输出越可用。

你给它一张随手拍的糊图,让它"做个视频",它会给你一个看起来完整但实际上充满假设的方案。你给它同一张图,加上明确的约束条件(目标平台、已有素材、参考风格、禁止假设),输出质量会有质的提升。

这不是AI的问题,这是"提示词工程在多模态时代依然重要"的直接证明。

---

第四章:普通人的实用接入指南

国内用户直接访问Gemini有一定障碍。目前最稳定的接入方式是通过聚合API平台。本文测试使用的是 [api.884819.xyz](https://api.884819.xyz),支持Gemini全系模型,按量计费,新用户注册即送体验token,国产模型(Deepseek/千问等)完全免费,没有月租。

对于想直接调用API测试本文三个场景的开发者,下面是一个10行以内的可运行示例:

import openai

import base64

国内可用接入点(无需翻墙)

client = openai.OpenAI(

api_key="your_api_key_here",

base_url="https://api.884819.xyz/v1"

)

读取本地图片并转为base64

with open("your_image.jpg", "rb") as f:

image_data = base64.b64encode(f.read()).decode("utf-8")

多模态调用示例(图片+文字)

response = client.chat.completions.create(

model="gemini-2.5-pro",

messages=[

{

"role": "user",

"content": [

{

"type": "image_url",

"image_url": {

"url": f"data:image/jpeg;base64,{image_data}"

}

},

{

"type": "text",

"text": "请分析这张图片的视觉元素和情绪氛围,生成一个小红书发布方案。"

}

]

}

]

)

print(response.choices[0].message.content)

完整可运行代码(含场景二语音处理版本)已放在评论区,需要的留言。

注册地址:[api.884819.xyz](https://api.884819.xyz),用户名+密码直接注册,不需要邮箱验证,注册即可使用。

---

第五章:结论——它改变了什么,没改变什么

一句话结论:Gemini 2.5 Pro是目前多模态理解能力最强的可用模型之一,但它改变的是"信息处理的起点",而不是"创作的终点"。

三类用户的差异化建议:

内容创作者:把它当"第一稿生成器"。用它快速产出方向和框架,然后用你自己对受众的理解做精修。不要指望它直接出一个可发布的成品,但它能把你从"盯着空白页发呆"的状态里解救出来。 职场效率用户:会议纪要和文档结构化是真实可用的场景,立刻可以部署到工作流里。但要在Prompt里明确要求它"保留不确定性",否则它会把你同事的"感觉差不多"变成一个板上钉钉的结论写进报告。 开发者:草图→组件建议这个链路值得深度探索。它不能替代你写PRD,但它能在你最早期的设计阶段提供一个"技术可行性的快速验证"。配合上面的API示例,可以快速集成到你自己的工具链里。

---

这次测的是Gemini的多模态创作能力。但有一个问题我在测试过程中一直没想清楚:

当AI能理解图片、声音、文字的时候,"提示词工程"这件事本身是不是要被重写了?

上面三个场景的测试告诉我,Prompt依然重要——甚至在多模态时代,写好Prompt的门槛可能更高了,因为你现在需要同时约束"输入理解"和"输出生成"两个维度。

但我还没想清楚:那些在纯文本时代有效的Prompt技巧,比如"角色扮演""思维链""少样本示例",在多模态输入场景下还有用吗?还是说,图片本身就是最好的"少样本示例"?

下一篇,我打算系统测一下——在多模态时代,那些你背得滚瓜烂熟的Prompt技巧,哪些还有用,哪些已经过时了。

你最想用多模态AI解决的工作场景是什么?评论区聊聊。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#Gemini #多模态AI #AI测评 #Prompt技巧 #AI工具 #8848AI #人工智能 #内容创作