让AI直接动你的文件?我测了两款桌面Agent,差点被它删掉三年的项目

测试开始前两分钟,我盯着屏幕上那行日志,手心开始出汗。

Perplexity Computer 正在执行第四个任务——监听文件夹并自动分类。它的截屏感知模块识别到了一个文件夹,然后开始移动文件。问题是,它识别错了。它以为自己在操作我专门准备的测试目录 /mock_data/projects,实际上它的视觉识别把路径搞混了,正在动的是 /Documents/projects——我三年的真实项目文件。

我在它完成第三步操作之前按下了停止键。

那一刻我意识到:「让AI直接操控你的本地文件」这件事,比任何人描述的都要危险,也比任何人描述的都要诱人。

---

一、为什么2025年下半年,这条赛道突然集体爆发

从 Anthropic 的 Computer Use、OpenAI 的 Operator,到现在的 Hermes Desktop 和 Perplexity Computer——「本地文件操控」这条赛道在2025年突然密集起来,不是巧合。

背后有几个合力:

模型的多模态能力终于够用了。 截图识别、文件内容理解、跨格式解析,这些能力在过去一年里有了质的飞跃,让「AI理解你在干什么」从概念变成了可以工程化的东西。 用户的需求积压已久。 你有没有过这种体验:桌面上有200个PDF,你知道要按年份归类,但就是拖不动手去做?或者三个项目文件夹里散落着几十个Excel,你需要找出上周改过的那几个,手动翻要翻半小时?这类「重复但需要判断」的文件任务,正好卡在「脚本太死板、人工太费时」的中间地带。 本地部署的门槛在下降。 随着量化技术成熟,16-24GB显存的消费级显卡已经能跑相当能力的本地模型,这让「数据不出本机」的路线从理论走向了实践。

但现实是,权限、隐私、稳定性三座大山横在中间。用户要的是「我说一句,它帮我搞定」,产品给的是「它搞定了一半,剩下一半你自己看着办」。

这次我把 Hermes Desktop 和 Perplexity Computer 放在同一个测试环境里跑了一遍,想看看2025年的桌面Agent,到底能打几分。

测试环境说明:macOS 15.3 / Windows 11 24H2 双平台测试,Hermes Desktop 版本 v0.4.2(2025年7月构建),Perplexity Computer 为当前生产版本。测试文件均为专门准备的 mock 数据集,不含真实个人信息。

---

二、两个产品,两种截然不同的设计哲学

在进入测试之前,先说清楚这两个产品的根本差异——因为它们不只是功能不同,设计哲学就不在一个方向上

Hermes Desktop:「理解文件」而不只是「找到文件」

Hermes Desktop 是 Nous Research 出品的原生桌面 Agent,走的是本地模型 + 系统级权限路线。

它的核心逻辑是:在你第一次授权之后,它会对你的文件系统做一次语义索引——不只是文件名和路径,而是尝试理解文件内容的结构和关联。一个合同PDF和一个会议纪要,在它眼里不是两个「文件」,而是两种「信息实体」,有各自的属性和关系。

这让它在处理「读取 → 理解 → 操作」类任务时有先天优势。数据不出本机,对隐私敏感的用户来说是一个很大的加分项。

代价是:你需要本地算力(官方推荐至少16GB显存),配置过程需要一定耐心,中文支持目前还不够稳定。

Perplexity Computer:「遥控你的电脑」

Perplexity Computer 走的是完全不同的路:云端调度 + 截图感知

它的工作方式更接近「AI远程桌面」——它看你的屏幕,理解界面上的内容,然后发出鼠标和键盘指令来操作。不需要本地算力,不需要复杂配置,开箱即用。

但这意味着,它对文件的「理解」是视觉层面的,而不是语义层面的。它不是真的读了你的文件,它是看到了文件名和界面上的信息,然后做出判断。在非英文界面、高分辨率屏幕、或者文件名比较复杂的情况下,这个判断会出问题。

两款产品核心差异对比

| 维度 | Hermes Desktop | Perplexity Computer | | 离线能力 | ✅ 完全本地运行 | ❌ 依赖云端 | | 文件理解深度 | 语义级(读内容) | 视觉级(看界面) | | 操作方式 | 系统API直接调用 | 截图感知 + 模拟输入 | | 隐私风险 | 低(数据不出机) | 中高(截图上传云端) | | 上手门槛 | 高(需要本地部署) | 低(订阅即用) | | 中文支持 | 一般 | 较弱 | | 所需算力 | 16GB+ 显存 | 无需本地算力 |

---

三、实测:我把同一批任务丢给它们

我设计了5个梯度递增的测试任务,从简单的文件归类到跨应用联动,尽量覆盖真实使用场景。

测试结果总览

| 任务 | 难度 | Hermes Desktop | Perplexity Computer | | T1:PDF按年份归类 | ⭐ | ✅ 成功(47s) | ✅ 成功(1m23s) | | T2:找出上周修改的Excel | ⭐⭐ | ✅ 成功(1m12s) | ⚠️ 半成功(漏了2个) | | T3:合同PDF提取关键条款 | ⭐⭐⭐ | ⚠️ 半成功(中文乱码) | ⚠️ 半成功(条款不完整) | | T4:监听文件夹自动分类 | ⭐⭐⭐⭐ | ✅ 成功(需手动确认) | ❌ 失败(路径识别错误) | | T5:跨应用联动生成报告 | ⭐⭐⭐⭐⭐ | ⚠️ 半成功(格式问题) | ❌ 失败(卡在第二步) | 错误类型分布:权限错误 8% / 理解错误 41% / 执行错误 33% / 超时 18%

T1:把桌面上所有PDF按年份归类

Hermes Desktop:这是它的主场。它读取了文件元数据和部分内容,准确识别了47个PDF的年份信息,创建了对应子文件夹,整个过程47秒,零错误。操作日志清晰,每一步都有记录。 Perplexity Computer:花了更长时间,因为它需要逐个「看」文件名和预览图。最终也成功了,但有2个文件因为文件名格式特殊(中文年份)被跳过,放在了 未分类 里。 小结:入门任务两者都能过,但 Hermes 明显更快更准。

T2:找出上周修改的Excel

Hermes Desktop:直接调用系统文件API查询修改时间,精确找出了目标文件,汇总成清单,格式整洁。 Perplexity Computer:这里出现了第一个明显问题。它通过截屏识别文件管理器里的「修改日期」列,但有两个文件的日期显示被截断了(列宽不够),它没有识别出来,导致漏了2个文件。这是「视觉感知」路线的典型缺陷——它看到什么就处理什么,看不到的就不存在

T3:读取合同PDF,提取关键条款

这是两者都翻车的一关,只是翻法不同。

Hermes Desktop:对英文PDF解析优秀,但测试用的中文合同出现了部分乱码——具体是表格内的数字段落,解析后变成了乱码字符。这个问题在 GitHub issue 里已有记录,官方说下个版本会修,但现在确实是个坑。 Perplexity Computer:它看到了合同的图像,但对密集的法律条款文字识别不够准确,最终输出的Markdown里有几条关键条款被合并或截断了。它没有办法「读」PDF,只能「看」PDF,这个差距在内容密集的文件上会被放大。

T4:监听文件夹,有新文件进来就自动分类

Hermes Desktop:完成了,但加了一个设计上的限制——每次有新文件进来,它会先给你一个确认弹窗,等你点「执行」才会真的动文件。这让它在「自动化」体验上打了折扣,但从安全角度来说,这个设计是对的。 Perplexity Computer:就是文章开头提到的那次险情。它的截屏感知在后台运行时,把两个路径相似的文件夹搞混了,连续执行了三步操作之后才触发了路径校验报错。如果我没有手动停止,后果不可预料。这不是小概率事件——在文件夹结构复杂、路径相似的情况下,这类错误的概率会显著升高。

T5:跨应用联动——读取表格数据,生成报告,自动存档

压测任务,两者都没有完全通过。

Hermes Desktop:完成了数据读取和报告生成,但在「自动存到指定位置」这一步,生成的文件格式和预期不符(把 .docx 存成了 .txt)。 Perplexity Computer:在第二步就卡住了——它需要在 Excel 和文档编辑器之间切换,但切换应用时截屏感知有延迟,它等待超时后报了错。

---

四、谁更顺手?谁还差一口气?

Hermes Desktop 适合谁

  • 有一定折腾能力,不怕配置环境
  • 对数据隐私高度敏感(律师、医疗、金融从业者)
  • 本地有足够算力(16GB+ 显存)
  • 主要处理结构化文件任务(归类、提取、汇总)
  • 能接受「每次操作需要确认」的工作流

Perplexity Computer 适合谁

  • 不想配置任何环境,开箱即用
  • 任务偏向「操控界面」(点击、填表、截图)而非「理解文件」
  • 对云端数据接受度高
  • 主要在英文界面下工作

两个都差在哪

说实话,这不是某一家的问题,而是整个赛道现阶段的共同天花板

中文支持都不够稳定。 无论是 Hermes 的内容解析,还是 Perplexity 的视觉识别,在中文文件名、中文内容、中文界面下的表现都比英文差一个档次。 多文件关联推理还很弱。 「找出这三个项目里互相引用的文件」这类需要跨文件推理的任务,两者都不擅长。 错误恢复机制不完善。 出错了怎么办?撤销操作有多可靠?这是两款产品都没有给出令人满意答案的地方。

---

五、如果你现在就想试试这种能力,这里有条捷径

Hermes Desktop 需要本地部署,Perplexity Computer 需要订阅,两者都有门槛。但它们底层调用的模型能力,开发者完全可以通过 API 自己组装一个最小可用版本。

下面这段代码演示了「读取本地文件夹 → 按规则分类 → 输出操作日志」的核心逻辑,大约20行,可以直接跑:

import os

import json

from pathlib import Path

from openai import OpenAI

client = OpenAI(

api_key="YOUR_API_KEY",

base_url="https://api.884819.xyz/v1"

)

def classify_files(folder_path: str) -> dict:

files = [f.name for f in Path(folder_path).iterdir() if f.is_file()]

prompt = f"""以下是一个文件夹中的文件列表:

{json.dumps(files, ensure_ascii=False, indent=2)}

请按照文件类型和内容特征,将它们分类到合理的子文件夹中。

返回JSON格式:{{"文件名": "目标子文件夹名称"}}"""

response = client.chat.completions.create(

model="claude-sonnet-4-6",

messages=[{"role": "user", "content": prompt}],

response_format={"type": "json_object"}

)

result = json.loads(response.choices[0].message.content)

print("分类建议(未执行,仅预览):")

for filename, folder in result.items():

print(f" {filename} → {folder}/")

return result

使用示例(只预览,不实际移动文件)

classify_files("/path/to/your/test/folder")

💡 注意:这段代码只做预览,不会真的移动任何文件。在真实执行文件操作之前,永远先打印日志确认,这是桌面 Agent 开发的第一原则。

这个 Demo 我用的是 claude-sonnet-4-6,通过 [api.884819.xyz](https://api.884819.xyz) 调用。这个平台聚合了主流大模型的 API,不需要科学上网,按量计费,国产模型(Deepseek/Qwen 系列)完全免费,注册即送体验 token。如果你只是想验证「AI能不能帮我整理文件」这个想法,这条路比上来就部署 Hermes 要快得多。

把上面的代码复制过去,换上你的 API Key,改一下文件夹路径,3分钟就能跑出第一个结果。

---

六、我的判断

两款产品都值得关注,但现在都还差那么一口气。

Hermes Desktop 的方向更对——语义级的文件理解是这条赛道的正确路线,本地部署的隐私保障也是真实需求。但中文支持和多文件推理是硬伤,需要等后续版本。 Perplexity Computer 的体验更顺滑,但「截图感知」的路线在文件操作场景下有结构性缺陷——它看到的永远是表象,而不是内容本身。适合「操控界面」的任务,不适合「理解文件」的任务。

如果你现在就要选一个:对隐私敏感、有折腾能力的进阶用户选 Hermes;想快速上手、任务偏简单的普通用户选 Perplexity Computer。 如果你只是想先感受一下这种能力,从 API 开始是最低成本的路径。

---

这次测试让我意识到一件事:两款产品最大的共同瓶颈,不是模型能力,而是「如何让 AI 在操作文件之前先问你一句」——也就是 Human-in-the-loop 的设计。Hermes 的强制确认弹窗牺牲了流畅度,Perplexity Computer 的自动执行带来了风险,两者都没有找到那个恰到好处的平衡点。

下一篇我想专门聊这个:当 AI Agent 拿到了你电脑的控制权,「确认机制」到底应该怎么设计才不烦人又足够安全?这个问题,比「哪个产品更好用」重要得多。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI工具 #桌面Agent #文件管理 #Perplexity #HermesDesktop #AI测评 #8848AI #AIAgent