本文最后更新于 2026-06-06，文章内容可能已经过时。

把 Agent 当同事用：多模态混合输入的真实边界在哪里

你有没有试过，花了5分钟写一个"完美的 prompt"，结果 Agent 给你的答案还不如你直接截图丢过去说"这个看起来哪里不对"来得准？

我有过。而且不止一次。

这件事让我开始怀疑一个被反复强调的信条：写好 prompt 是和 AI 协作的核心能力。这句话没错，但它正在悄悄变得不完整——因为"写好"的定义，在多模态 Agent 普及之后，已经不再等于"写得精确、写得详细"。

---

第一章：为什么「和 Agent 说话」这件事值得认真对待

让我先区分两种截然不同的用户心态。

「搜索框心智」 的用户，把 Agent 当高级搜索引擎。他们相信：输入越精确，输出越好。所以他们会花时间打磨每一句 prompt，补充背景、限定格式、排除歧义——这没有错，但这种心智有一个隐性假设：信息必须通过文字才能传达。 「同事心智」 的用户，把 Agent 当能干的协作者。他们知道：同事不需要你写需求文档，他们能处理模糊信息、补全上下文、容忍你语无伦次。你只需要把情况说清楚，剩下的让他想办法。

现在的多模态 Agent，正在逼近「同事」这个能力边界。你可以丢一张截图说"这页哪里不对"，可以语音说"帮我回李总那封邮件"，可以把白板照片、录音转写、自己补充的几条决策一股脑丢过去——Agent 能处理。

但能处理，不等于一定更好。

为了搞清楚混合输入到底在哪些环节真的省力，我选了3个高频日常任务，每个任务分别用「纯文字」和「文字+截图/语音混合」各跑一遍，记录下每种方式的实际耗时和输出质量。实验主要使用 claude-opus-4-6 和 gemini-3.1-pro-high，下面逐一拆解。

---

第二章：任务一——「帮我改这份文档」的多模态 vs 纯文字对决

任务设定

一份排版混乱的 PPT，第三页有几个明显问题：标题字号过大、颜色和背景撞车、正文行距太密。

纯文字版 prompt：

请帮我优化这份PPT第三页的排版。具体问题是：
1. 标题字号太大（目前约48px），建议降到36px左右
2. 标题颜色是深蓝色(#1a3c6e)，和渐变蓝背景撞色，建议换成白色或浅灰
3. 正文三段文字行距设置为1.0，看起来很挤，建议改成1.5
4. 左上角logo和标题之间没有足够间距
请给出具体的修改建议和理由。

截图混合版 prompt：

[附上PPT第三页截图]
这页看起来哪里不对？帮我找出排版问题，给出修改建议。

实测结论

我分别用两种方式测试，记录了从"开始输入"到"得到有效建议"的时间。

纯文字版：写 prompt 耗时约 4分20秒，输出质量高，建议精准对应我描述的问题
截图混合版：输入耗时约 40秒（截图+一句话），gemini-3.1-pro-high 的图像理解速度明显快于 claude-opus-4-6，前者还额外发现了我没注意到的一个问题——右下角页码字体和正文不统一

截图输入在问题定位环节节省了约80%的描述成本。但这里有一个重要的但是：