把 Agent 当同事用:多模态混合输入的真实边界在哪里
把 Agent 当同事用:多模态混合输入的真实边界在哪里
你有没有试过,花了5分钟写一个"完美的 prompt",结果 Agent 给你的答案还不如你直接截图丢过去说"这个看起来哪里不对"来得准?
我有过。而且不止一次。
这件事让我开始怀疑一个被反复强调的信条:写好 prompt 是和 AI 协作的核心能力。这句话没错,但它正在悄悄变得不完整——因为"写好"的定义,在多模态 Agent 普及之后,已经不再等于"写得精确、写得详细"。
---
第一章:为什么「和 Agent 说话」这件事值得认真对待
让我先区分两种截然不同的用户心态。
「搜索框心智」 的用户,把 Agent 当高级搜索引擎。他们相信:输入越精确,输出越好。所以他们会花时间打磨每一句 prompt,补充背景、限定格式、排除歧义——这没有错,但这种心智有一个隐性假设:信息必须通过文字才能传达。 「同事心智」 的用户,把 Agent 当能干的协作者。他们知道:同事不需要你写需求文档,他们能处理模糊信息、补全上下文、容忍你语无伦次。你只需要把情况说清楚,剩下的让他想办法。现在的多模态 Agent,正在逼近「同事」这个能力边界。你可以丢一张截图说"这页哪里不对",可以语音说"帮我回李总那封邮件",可以把白板照片、录音转写、自己补充的几条决策一股脑丢过去——Agent 能处理。
但能处理,不等于一定更好。
为了搞清楚混合输入到底在哪些环节真的省力,我选了3个高频日常任务,每个任务分别用「纯文字」和「文字+截图/语音混合」各跑一遍,记录下每种方式的实际耗时和输出质量。实验主要使用 claude-opus-4-6 和 gemini-3.1-pro-high,下面逐一拆解。
---
第二章:任务一——「帮我改这份文档」的多模态 vs 纯文字对决
任务设定
一份排版混乱的 PPT,第三页有几个明显问题:标题字号过大、颜色和背景撞车、正文行距太密。
纯文字版 prompt:请帮我优化这份PPT第三页的排版。具体问题是:
1. 标题字号太大(目前约48px),建议降到36px左右
2. 标题颜色是深蓝色(#1a3c6e),和渐变蓝背景撞色,建议换成白色或浅灰
3. 正文三段文字行距设置为1.0,看起来很挤,建议改成1.5
4. 左上角logo和标题之间没有足够间距
请给出具体的修改建议和理由。
截图混合版 prompt:
[附上PPT第三页截图]
这页看起来哪里不对?帮我找出排版问题,给出修改建议。
实测结论
我分别用两种方式测试,记录了从"开始输入"到"得到有效建议"的时间。
- 纯文字版:写 prompt 耗时约 4分20秒,输出质量高,建议精准对应我描述的问题
- 截图混合版:输入耗时约 40秒(截图+一句话),
gemini-3.1-pro-high的图像理解速度明显快于claude-opus-4-6,前者还额外发现了我没注意到的一个问题——右下角页码字体和正文不统一
截图输入在问题定位环节节省了约80%的描述成本。但这里有一个重要的但是:
混合输入的真正价值在「诊断」而非「执行」。
Agent 能告诉你哪里不对,但它没法直接帮你改 PPT 文件。诊断完之后,你还是要自己打开 PowerPoint 手动调整。这意味着截图输入节省的时间,只发生在"找问题"这个环
---
想直接用上文提到的模型?[8848AI](https://api.884819.xyz) 按量付费,新用户注册即送体验 token,国产模型(DeepSeek/千问等)完全免费,无月租。