本文最后更新于 2026-05-20，文章内容可能已经过时。

Gemini 2.5 Pro 多模态测评：我带着怀疑去测，结果比想象中复杂

我把一张在菜市场拍的照片丢进去，它给我写出了一个还不错的纪录片脚本。

但当我让它帮我改成竖屏短视频版本时，它开始一本正经地胡说八道——给我推荐的BGM是"节奏明快的电子音乐配合市井烟火气"，然后洋洋洒洒写了八个分镜，每个分镜都在重复同一件事：大妈在砍价。

这就是我测试Gemini 2.5 Pro多模态能力的开场白。不是广告，是带着怀疑去的。

---

第一章：「从任何东西创造任何东西」——这句话到底在吹什么？

Google在发布Gemini 2.5 Pro的演示视频里，有一句让人印象深刻的话："Any input, any output." 图片、音频、视频、文字、代码——全部打通，双向流动。

这句话在技术层面是真的。但"技术上能做到"和"用起来好用"之间，有一道被精心设计的演示所遮蔽的鸿沟。

先把概念厘清楚：多模态创作指的是AI能够理解不同形式的输入（图像、语音、视频、文本），并将它们转化为另一种形式的输出。Gemini 2.5 Pro的核心突破在于，它不是用多个专用模型拼接，而是用一个统一的大模型原生处理这些跨模态任务。

但有几个隐性前提条件，官方演示里从不明说：

1. 演示用的输入材料都经过精心挑选——光线好、主体清晰、语义明确。你用手机随手拍的糊图，效果会打折扣。

2. 演示是单轮交互——展示的永远是第一次生成就很好的结果，多轮迭代中的上下文漂移问题被刻意回避了。

3. "生成"≠"可控生成"——它能生成，不代表你能精确控制它生成你想要的那个版本。

带着这三个问题意识，我设计了三个测试场景。

---

第二章：三个真实场景测试

场景一：旅行照片 → 小红书/抖音发布方案

输入材料：一张普通游客拍的照片，构图一般，是在某古镇拍的石板路，逆光，有点糊。要求：生成完整的小红书/抖音发布方案，包括脚本、分镜建议、BGM推荐、标题文案，要求"有传播性"。 测试耗时：约40秒生成完毕。

---

结果让我有点意外——图片语义理解超出预期。

它准确识别出了"古镇石板路""逆光氛围""怀旧感"这几个关键视觉元素，并且主动推断出了一个内容方向："适合做'一个人旅行'系列的情绪向内容，而不是打卡攻略型内容"。这个判断其实挺准的——这张照片确实不适合做攻略，但很适合做情绪。

生成的标题文案里，有两条我觉得直接可用：

"走了一千公里，才明白有些地方不是用来打卡的"

"古镇没什么特别，但我在这里站了很久"

BGM推荐给了三个方向：民谣吉他、钢琴轻音乐、lo-fi。这三个方向本身没问题，但太宽泛了，对于真正需要选歌的创作者来说等于没说。

真正翻车的地方是分镜部分。它给了六个分镜建议，但这些分镜是基于"一张静态图片"推断出来的动态场景，所以出现了大量"镜头慢慢推进石板路""人物从远处走来"这类根本无法从这一张照片实现的建议。它在用一张图片的信息，脑补了一个根本不存在的拍摄现场。 这就是"土味感"需要人工干预的根本原因：AI理解了图片的情绪，但不理解创作者的实际资源约束。 📋 可复制Prompt模板（场景一）：

我有一张[描述图片场景]的照片，请基于这张图片的视觉元素和情绪氛围，
为我生成一个小红书/抖音发布方案。

要求：
1. 标题文案3条，字数15字以内，有情绪钩子
2. 正文脚本200字以内，第一人称
3. BGM推荐：给出具体风格描述，而非泛泛的类型
4. 分镜建议：只基于我已有的素材（单张图片），不要假设我有其他拍摄内容
5. 风格参考：[填入你想要的账号风格，例如"类似@房琪kiki的情绪旅行风格"]

⚠️ 关键补充：第4条"只基于已有素材"这个约束非常重要，不加这句话，AI会自动脑补你没有的素材。

---

场景二：会议录音 → 结构化会议纪要

输入材料：一段约15分钟的中文会议录音（团队周会，讨论了产品迭代方向和Q3资源分配），音质一般，有背景噪音，多人发言。要求：输出带执行项的会议纪要，并给出可视化数据图表的建议（如果会议中提到了数据）。 测试耗时：语音处理约90秒，文本生成约25秒。

---

这是三个场景里最接近"真实生产力工具"的一次。

中文语音识别准确率体感上相当高，即便有背景噪音和多人交叉发言，它对关键信息的提炼依然准确。它自动识别出了三位主要发言人（用"发言人A/B/C"标注），并且正确区分了"决策事项"和"待讨论事项"。

输出的会议纪要结构如下：

【会议结论】（3条核心决策）
【执行项清单】（责任人 + 截止时间 + 优先级）
【待确认问题】（需要后续跟进的模糊点）
【数据可视化建议】（针对会议中提到的数据）

执行项清单这部分是真正的亮点——它不只是转录，而是主动推断出了隐含的任务分工。比如会议里有人说"这块我来跟"，它会识别出这是一个任务承接，并填入责任人。

图表代码也是真实可跑通的。会议里提到了某功能模块的用户使用时长数据，它直接生成了一段Python matplotlib代码，复制到本地跑，图出来了，格式也对。 失败案例（保留原始输出）：

会议中有一段讨论是关于竞品分析的，发言人B说了一句"他们那边的数据我没拿到，但感觉应该差不多"。Gemini把这句话处理成了一个确定性结论，写进了会议纪要的"数据依据"部分。这是一个典型的幻觉问题：它把"感觉应该"当成了"已知事实"。

这提醒我们：AI做会议纪要，最危险的地方不是漏掉信息，而是把不确定性信息当成确定性结论输出。

📋 可复制Prompt模板（场景二）：

请分析这段会议录音/文字记录，按以下格式输出会议纪要：

1. 会议结论（不超过5条，每条一句话）
2. 执行项清单（格式：任务 | 责任人 | 截止时间 | 优先级高/中/低）
3. 待确认问题（明确标注"尚未决策"或"信息不足"）
4. 如有数据提及，给出可视化建议（Python代码）

特别注意：对于发言中的不确定表述（"感觉""可能""应该"），
请在纪要中保留原始的不确定性，不要转化为确定性结论。

---

场景三：手绘草图 → 产品原型描述

输入材料：用手机在备忘录里随手画的APP界面草图，画的是一个"每日任务打卡"应用的首页，线条歪歪扭扭，文字潦草，有涂改痕迹。要求：生成PRD文档片段 + 前端组件建议。 测试耗时：约55秒。

---

草图识别能力是这次测试里最让我惊喜的部分。

它正确识别出了草图里的：顶部导航栏、任务列表区域、底部Tab栏，以及我潦草写的"今日完成XX%"的进度显示区域。识别准确率体感上超过90%。

生成的前端组件建议非常实用：

- 顶部：AppBar + 日期显示组件
主体：ListView + CheckboxListTile（Flutter）
  或 FlatList + CheckBox（React Native）
进度显示：CircularProgressIndicator
底部：BottomNavigationBar（3个Tab）

这对于一个需要快速启动项目的开发者来说，已经是可以直接参考的起点。

但PRD部分暴露了明显短板。

它生成的PRD格式正确，包含了功能描述、用户故事、验收标准。但内容是"通用打卡应用"的模板，完全没有体现任何业务逻辑的深度。比如它写"用户可以创建任务"，但没有问我：任务是否有分类？是否支持重复任务？打卡是否有激励机制？

这些问题不是AI应该替你回答的，但一个好的PRD应该至少提示你去思考这些问题。它没有。

结论：适合做启动草稿，不适合最终交付。 📋 可复制Prompt模板（场景三）：

这是我手绘的APP界面草图，请基于草图内容：

1. 识别并列出所有可见的UI元素
2. 给出对应的前端组件建议（请指定框架：Flutter/React Native/Web）
3. 生成PRD片段，包含：
- 功能描述
- 用户故事（格式：作为[用户]，我希望[功能]，以便[目的]）
- 以下维度的边界条件（请逐一提问，不要自行假设）：
* 数据结构
* 用户权限
* 异常处理

注意：PRD中的业务逻辑部分，如果草图未提供信息，请以[待确认]标注，
不要自行填充假设内容。

---

第三章：哪里是真突破，哪里是精心设计的演示

用一张表格说清楚：

核心判断框架只有一句话：

输入越结构化，输出越可用。

你给它一张随手拍的糊图，让它"做个视频"，它会给你一个看起来完整但实际上充满假设的方案。你给它同一张图，加上明确的约束条件（目标平台、已有素材、参考风格、禁止假设），输出质量会有质的提升。

这不是AI的问题，这是"提示词工程在多模态时代依然重要"的直接证明。

---

第四章：普通人的实用接入指南

国内用户直接访问Gemini有一定障碍。目前最稳定的接入方式是通过聚合API平台。本文测试使用的是 [api.884819.xyz](https://api.884819.xyz)，支持Gemini全系模型，按量计费，新用户注册即送体验token，国产模型（Deepseek/千问等）完全免费，没有月租。

对于想直接调用API测试本文三个场景的开发者，下面是一个10行以内的可运行示例：

import openai
import base64

国内可用接入点（无需翻墙）
client = openai.OpenAI(
api_key="your_api_key_here",
base_url="https://api.884819.xyz/v1"
)

读取本地图片并转为base64
with open("your_image.jpg", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")

多模态调用示例（图片+文字）
response = client.chat.completions.create(
model="gemini-2.5-pro",
messages=[
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{image_data}"
}
},
{
"type": "text",
"text": "请分析这张图片的视觉元素和情绪氛围，生成一个小红书发布方案。"
}
]
}
]
)

print(response.choices[0].message.content)

完整可运行代码（含场景二语音处理版本）已放在评论区，需要的留言。

注册地址：[api.884819.xyz](https://api.884819.xyz)，用户名+密码直接注册，不需要邮箱验证，注册即可使用。

---

第五章：结论——它改变了什么，没改变什么

一句话结论：Gemini 2.5 Pro是目前多模态理解能力最强的可用模型之一，但它改变的是"信息处理的起点"，而不是"创作的终点"。

三类用户的差异化建议：

内容创作者：把它当"第一稿生成器"。用它快速产出方向和框架，然后用你自己对受众的理解做精修。不要指望它直接出一个可发布的成品，但它能把你从"盯着空白页发呆"的状态里解救出来。 职场效率用户：会议纪要和文档结构化是真实可用的场景，立刻可以部署到工作流里。但要在Prompt里明确要求它"保留不确定性"，否则它会把你同事的"感觉差不多"变成一个板上钉钉的结论写进报告。 开发者：草图→组件建议这个链路值得深度探索。它不能替代你写PRD，但它能在你最早期的设计阶段提供一个"技术可行性的快速验证"。配合上面的API示例，可以快速集成到你自己的工具链里。

---

这次测的是Gemini的多模态创作能力。但有一个问题我在测试过程中一直没想清楚：

当AI能理解图片、声音、文字的时候，"提示词工程"这件事本身是不是要被重写了？

上面三个场景的测试告诉我，Prompt依然重要——甚至在多模态时代，写好Prompt的门槛可能更高了，因为你现在需要同时约束"输入理解"和"输出生成"两个维度。

但我还没想清楚：那些在纯文本时代有效的Prompt技巧，比如"角色扮演""思维链""少样本示例"，在多模态输入场景下还有用吗？还是说，图片本身就是最好的"少样本示例"？

下一篇，我打算系统测一下——在多模态时代，那些你背得滚瓜烂熟的Prompt技巧，哪些还有用，哪些已经过时了。

你最想用多模态AI解决的工作场景是什么？评论区聊聊。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#Gemini #多模态AI #AI测评 #Prompt技巧 #AI工具 #8848AI #人工智能 #内容创作