把 Agent 当同事用:多模态混合输入的真实边界在哪里

你有没有试过,花了5分钟写一个"完美的 prompt",结果 Agent 给你的答案还不如你直接截图丢过去说"这个看起来哪里不对"来得准?

我有过。而且不止一次。

这件事让我开始怀疑一个被反复强调的信条:写好 prompt 是和 AI 协作的核心能力。这句话没错,但它正在悄悄变得不完整——因为"写好"的定义,在多模态 Agent 普及之后,已经不再等于"写得精确、写得详细"。

---

第一章:为什么「和 Agent 说话」这件事值得认真对待

让我先区分两种截然不同的用户心态。

「搜索框心智」 的用户,把 Agent 当高级搜索引擎。他们相信:输入越精确,输出越好。所以他们会花时间打磨每一句 prompt,补充背景、限定格式、排除歧义——这没有错,但这种心智有一个隐性假设:信息必须通过文字才能传达「同事心智」 的用户,把 Agent 当能干的协作者。他们知道:同事不需要你写需求文档,他们能处理模糊信息、补全上下文、容忍你语无伦次。你只需要把情况说清楚,剩下的让他想办法。

现在的多模态 Agent,正在逼近「同事」这个能力边界。你可以丢一张截图说"这页哪里不对",可以语音说"帮我回李总那封邮件",可以把白板照片、录音转写、自己补充的几条决策一股脑丢过去——Agent 能处理。

但能处理,不等于一定更好。

为了搞清楚混合输入到底在哪些环节真的省力,我选了3个高频日常任务,每个任务分别用「纯文字」和「文字+截图/语音混合」各跑一遍,记录下每种方式的实际耗时和输出质量。实验主要使用 claude-opus-4-6gemini-3.1-pro-high,下面逐一拆解。

---

第二章:任务一——「帮我改这份文档」的多模态 vs 纯文字对决

任务设定

一份排版混乱的 PPT,第三页有几个明显问题:标题字号过大、颜色和背景撞车、正文行距太密。

纯文字版 prompt:
请帮我优化这份PPT第三页的排版。具体问题是:

1. 标题字号太大(目前约48px),建议降到36px左右

2. 标题颜色是深蓝色(#1a3c6e),和渐变蓝背景撞色,建议换成白色或浅灰

3. 正文三段文字行距设置为1.0,看起来很挤,建议改成1.5

4. 左上角logo和标题之间没有足够间距

请给出具体的修改建议和理由。

截图混合版 prompt:
[附上PPT第三页截图]

这页看起来哪里不对?帮我找出排版问题,给出修改建议。

实测结论

我分别用两种方式测试,记录了从"开始输入"到"得到有效建议"的时间。

  • 纯文字版:写 prompt 耗时约 4分20秒,输出质量高,建议精准对应我描述的问题
  • 截图混合版:输入耗时约 40秒(截图+一句话),gemini-3.1-pro-high 的图像理解速度明显快于 claude-opus-4-6,前者还额外发现了我没注意到的一个问题——右下角页码字体和正文不统一

截图输入在问题定位环节节省了约80%的描述成本。但这里有一个重要的但是:

混合输入的真正价值在「诊断」而非「执行」。

Agent 能告诉你哪里不对,但它没法直接帮你改 PPT 文件。诊断完之后,你还是要自己打开 PowerPoint 手动调整。这意味着截图输入节省的时间,只发生在"找问题"这个环

---

想直接用上文提到的模型?[8848AI](https://api.884819.xyz) 按量付费,新用户注册即送体验 token,国产模型(DeepSeek/千问等)完全免费,无月租。