Perplexity接入Claude Computer Use实测
Perplexity接入Claude Computer Use实测:AI从"说"变成"做",差距有多大?
你有没有试过让Claude帮你查竞品价格?
先打开Claude,描述需求,等它告诉你"我无法访问网页";再切到浏览器,手动搜索,复制结果,粘贴回Claude;Claude给出分析,你发现数据不够,再去搜一次,再粘贴……来回六七轮,半小时过去了,一张表格还没填完。
这不是Claude不够聪明,是工具链断了。搜索在一边,理解在另一边,操作还得你自己来。
Perplexity接入Claude Computer Use之后,我测了一个下午。结论先说:同一个任务,我少粘贴了5次,总耗时从约40分钟压到了约12分钟。 但这套组合也有它明确的边界,用错场景会让你更烦。
---
第一章:先说清楚这是什么组合,别被标题绕晕
很多报道把这件事写成"Perplexity变聪明了",其实不准确。这里有三个角色,各司其职:
- Perplexity:实时联网搜索引擎,负责从互联网抓取最新信息,这是它的本职工作
- Claude Opus 4.6:Anthropic的旗舰推理模型,负责理解任务、规划步骤、做判断
- Computer Use:Anthropic为Claude开发的能力模块,让Claude能像人一样"看屏幕、移鼠标、点按钮"
三者组合之后,任务链变成了:搜索→理解→操作,一个闭环,不需要人在中间做搬运工。
关键区别在这里:这不是"更聪明的聊天",而是AI从说变成了做。Claude不再只是给你建议,它会直接在浏览器里执行操作。
这个区别听起来微妙,但实际体验差距很大。下面我用一个真实任务来还原。
---
第二章:我实际走了一遍完整流程
任务设定
任务是这样的:整理国内5款主流AI写作工具的定价方案,输出成对比表格,包含免费额度、月付价格、年付折扣三列。
这是一个典型的"重复性网页操作"任务——需要访问多个网站、找到定价页、提取结构化数据、汇总。手动做的话,枯燥且容易出错。
流程还原
Step 1:输入任务描述在Perplexity的对话框里,我用自然语言描述任务,没有写任何特殊指令。系统自动识别这是一个需要联网+操作的复合任务,调起了Computer Use模式。
Step 2:Claude开始规划屏幕上出现了一个虚拟浏览器窗口。Claude先列出了它打算访问的5个目标网站,然后逐一打开。这一步我没有做任何操作,只是在看。
Step 3:逐站抓取数据Claude打开每个网站的定价页,用鼠标滚动页面,遇到折叠的价格方案会点击展开,遇到弹窗会关掉。整个过程像看一个人在操作电脑,但速度比人快。
Step 4:遇到一个问题其中一个网站的定价页需要登录才能查看完整方案。Claude停下来,在对话框里告诉我:"该页面需要登录,我无法获取完整数据,已用公开可见的部分替代,请确认是否继续。"
这个处理方式我觉得是对的——它没有乱猜,也没有直接跳过,而是告知并等待确认。
Step 5:输出表格约8分钟后,Claude输出了一张Markdown格式的对比表格,5款工具,3列数据,其中一款标注了"数据不完整"。
整个过程我的操作:输入一次任务描述,确认一次继续。就这两步。
---
第三章:3个环节,为什么比单独用Claude对话顺手
环节1:实时搜索+操作合并,省掉了"搬运"这个动作
结论:这是效率提升最明显的一环。单独用Claude对话时,你需要自己去搜索,把结果复制过来,Claude才能处理。如果信息不够,你再去搜,再粘贴。每一次"搬运"都是上下文切换,都会打断思路。
这套组合里,Perplexity的搜索能力和Claude的处理能力是直连的。Claude需要什么信息,直接去取,不经过你的手。
为什么有效:减少了人作为"中间件"的参与,任务流不断。 局限提醒:Perplexity的搜索结果质量参差不齐,如果源头数据有误,Claude也会照单全收。---
环节2:多步骤任务的状态保持,不用反复交代上下文
结论:这解决了长任务里最烦人的问题。用Claude做多步骤任务时,有一个经典痛点:做到第三步,Claude忘了第一步的约束条件,你得重新说一遍。上下文窗口越长,这个问题越明显。
Computer Use模式下,Claude维护的是一个"操作状态",而不只是对话历史。它知道自己刚才点了哪个按钮、当前页面是什么、上一步的结果是什么。这个状态是持续的,不会因为对话轮次增加而丢失。
场景还原:在我的测试任务里,Claude访问第4个网站时,主动参照了前3个网站的数据格式,保持了表格列的一致性。我没有提醒它,它自己做到了。 为什么有效:操作状态比对话历史更稳定,Claude不需要"回忆",它在看着屏幕。 局限提醒:任务链过长(超过20步左右)时,状态管理仍然可能出现漂移,需要人工检查节点。---
环节3:出错后的自动重试,不把锅甩给你
结论:这个细节决定了用户体验的下限。网页操作天然不稳定:页面加载慢、按钮位置偏移、弹窗遮挡……单独用Claude对话时,遇到这些情况,Claude只能告诉你"操作失败,请重试",然后等你。
Computer Use有一套内置的重试逻辑。页面没加载完,它会等待后重试;点击偏移,它会重新定位元素;弹窗遮挡,它会先关弹窗再继续。
场景还原:测试中有一个网站加载特别慢,Claude等了约15秒,页面还没完全渲染,它自动刷新了一次,然后继续操作。全程我没有介入。 为什么有效:把"容错"内化到系统里,而不是外包给用户。 局限提醒:重试有次数上限,如果网络持续不稳定,最终还是会失败并告知你。---
第四章:哪些情况下这套流程反而更麻烦
客观说,这套组合不是万能的。以下几个场景,用它反而会让你更烦:
1. 网络延迟高的环境Computer Use的每一步操作都需要截图→分析→执行的循环,对网络延迟非常敏感。如果你的网络不稳定,操作会明显卡顿,原本8分钟的任务可能拖到20分钟,还不如手动做。
2. 涉及隐私敏感信息的任务让AI操作浏览器,意味着它能"看到"屏幕上的所有内容。如果任务涉及银行账户、医疗记录、私人通讯,请不要用这套流程。Anthropic的隐私政策里对Computer Use的数据处理有说明,但"AI看过你的屏幕"这件事本身就是一个风险点,需要你自己权衡。
3. 需要复杂判断的任务Computer Use擅长执行,不擅长判断。"帮我找5款工具的价格"是执行任务,Claude能做好。"帮我判断哪款工具最适合我的团队"是判断任务,Claude给的答案你还是得自己核实。把判断权完全交给AI,在当前阶段仍然是危险的。
4. 一个真实的失败案例我测试了另一个任务:让Claude帮我在某电商平台搜索特定型号的产品,并按销量排序截图。结果:Claude成功打开了网站,成功搜索,但在"按销量排序"这一步,它点击了错误的筛选项,选成了"按价格排序",然后继续截图,完全没有意识到操作有误。
最终输出的截图是错的,而Claude在对话里汇报"任务完成"。
这个案例说明:Computer Use目前对操作结果的自我验证能力还比较弱,它知道自己"做了什么",但不一定知道"做对了没有"。对于结果准确性要求高的任务,人工复核仍然必要。
---
第五章:普通用户怎么上手,门槛在哪
两种接入路径
路径A:通过Perplexity直接体验目前Perplexity的Computer Use功能在Pro订阅用户中逐步开放,需要在设置里手动启用。这是门槛最低的方式,不需要写代码,适合想先感受一下的用户。
限制是:任务类型和操作权限受Perplexity平台约束,不能完全自定义。
路径B:通过API直接调用如果你想自己控制任务逻辑,或者把Computer Use集成到自己的工作流里,需要直接调用Anthropic的API。
下面是一个最小可运行的示例,展示如何发起一个Computer Use请求:
import anthropic
client = anthropic.Anthropic(api_key="your_api_key")
response = client.beta.messages.create(
model="claude-opus-4-5", # 使用支持Computer Use的模型版本
max_tokens=4096,
tools=[
{
"type": "computer_20241022",
"name": "computer",
"display_widthpx": 1280,
"display_height_px": 800,
"display_number": 1,
}
],
messages=[
{
"role": "user",
"content":打开浏览器,访问 example.com,截图并告诉我页面标题是什么。"
}
],
betas=["computer-use-2024-10-22"],
)
print(response.content)
⚠️ 注意:这段代码需要在配置了虚拟显示环境(如 Xvfb)的机器上运行,直接在本地跑会因为没有显示器而报错。Anthropic官方提供了Docker镜像,建议用那个环境测试。
费用预估
Claude Opus 4.6的API定价(参考Anthropic官网,以实际为准):输入约每百万token $15,输出约每百万token $75。
Computer Use任务的token消耗比普通对话高,因为每一步操作都需要截图(图片token)+分析+指令。根据我的测试,完成上文那个"5款工具定价对比"任务,大约消耗了输入token约8000、输出token约2000,折合费用约在$0.27左右(约合人民币2元以内)。
体验版 vs 真正跑任务版的差距:Perplexity的套壳体验适合感受流程,但任务复杂度和自定义程度受限。如果你想跑真实的工作任务,还是需要API路径,成本可控,灵活度高得多。---
如果你想直接调用Claude API而不想绕Perplexity的套壳,可以去 [api.884819.xyz](https://api.884819.xyz) 看——接入方式和官方一致,对国内用户更友好,上面的代码示例直接能跑。新用户注册即送体验token,注册只需要用户名+密码,不需要邮箱验证,国产模型(Deepseek、千问等)完全免费,没有月租,按量付费。
---
写在最后
不给"AI要改变世界"式的大结论。
就说一件实际的事:如果你手头有一个重复性的网页操作任务——比如定期整理竞品信息、批量检查多个页面的某个字段、从多个来源汇总数据——这周可以拿它试一次。走API路径的话,完成一个典型任务的成本大概在2-5元人民币之间,试错成本很低。
用对了场景,它确实省事。用错了场景,它会让你更烦。这篇文章的目的,就是帮你在试之前,先知道边界在哪。
---
这次测的是Computer Use的网页操作场景,浏览器里的事情相对可控。下一篇我想试一个更极端的用法——让AI直接操作本地桌面软件,而不只是浏览器。那个场景的权限边界和安全问题,比今天聊的复杂得多:AI能不能访问你的文件系统?操作出错了怎么回滚?这些问题值得单独说清楚。
---
本文由848AI原创,转载请注明出处。关注848AI,带你从零开始学AI。#AI工具 #Claude #ComputerUse #Perplexity #AI自动化 #848AI #AI实测 #人工智能