本文最后更新于 2026-06-03，文章内容可能已经过时。

让AI直接动你的文件？我测了两款桌面Agent，差点被它删掉三年的项目

测试开始前两分钟，我盯着屏幕上那行日志，手心开始出汗。

Perplexity Computer 正在执行第四个任务——监听文件夹并自动分类。它的截屏感知模块识别到了一个文件夹，然后开始移动文件。问题是，它识别错了。它以为自己在操作我专门准备的测试目录 /mock_data/projects，实际上它的视觉识别把路径搞混了，正在动的是 /Documents/projects——我三年的真实项目文件。

我在它完成第三步操作之前按下了停止键。

那一刻我意识到：「让AI直接操控你的本地文件」这件事，比任何人描述的都要危险，也比任何人描述的都要诱人。

---

一、为什么2025年下半年，这条赛道突然集体爆发

从 Anthropic 的 Computer Use、OpenAI 的 Operator，到现在的 Hermes Desktop 和 Perplexity Computer——「本地文件操控」这条赛道在2025年突然密集起来，不是巧合。

背后有几个合力：

模型的多模态能力终于够用了。 截图识别、文件内容理解、跨格式解析，这些能力在过去一年里有了质的飞跃，让「AI理解你在干什么」从概念变成了可以工程化的东西。 用户的需求积压已久。 你有没有过这种体验：桌面上有200个PDF，你知道要按年份归类，但就是拖不动手去做？或者三个项目文件夹里散落着几十个Excel，你需要找出上周改过的那几个，手动翻要翻半小时？这类「重复但需要判断」的文件任务，正好卡在「脚本太死板、人工太费时」的中间地带。 本地部署的门槛在下降。 随着量化技术成熟，16-24GB显存的消费级显卡已经能跑相当能力的本地模型，这让「数据不出本机」的路线从理论走向了实践。

但现实是，权限、隐私、稳定性三座大山横在中间。用户要的是「我说一句，它帮我搞定」，产品给的是「它搞定了一半，剩下一半你自己看着办」。

这次我把 Hermes Desktop 和 Perplexity Computer 放在同一个测试环境里跑了一遍，想看看2025年的桌面Agent，到底能打几分。

测试环境说明：macOS 15.3 / Windows 11 24H2 双平台测试，Hermes Desktop 版本 v0.4.2（2025年7月构建），Perplexity Computer 为当前生产版本。测试文件均为专门准备的 mock 数据集，不含真实个人信息。

---

二、两个产品，两种截然不同的设计哲学

在进入测试之前，先说清楚这两个产品的根本差异——因为它们不只是功能不同，设计哲学就不在一个方向上。

Hermes Desktop：「理解文件」而不只是「找到文件」

Hermes Desktop 是 Nous Research 出品的原生桌面 Agent，走的是本地模型 + 系统级权限路线。

它的核心逻辑是：在你第一次授权之后，它会对你的文件系统做一次语义索引——不只是文件名和路径，而是尝试理解文件内容的结构和关联。一个合同PDF和一个会议纪要，在它眼里不是两个「文件」，而是两种「信息实体」，有各自的属性和关系。

这让它在处理「读取 → 理解 → 操作」类任务时有先天优势。数据不出本机，对隐私敏感的用户来说是一个很大的加分项。

代价是：你需要本地算力（官方推荐至少16GB显存），配置过程需要一定耐心，中文支持目前还不够稳定。

Perplexity Computer：「遥控你的电脑」

Perplexity Computer 走的是完全不同的路：云端调度 + 截图感知。

它的工作方式更接近「AI远程桌面」——它看你的屏幕，理解界面上的内容，然后发出鼠标和键盘指令来操作。不需要本地算力，不需要复杂配置，开箱即用。

但这意味着，它对文件的「理解」是视觉层面的，而不是语义层面的。它不是真的读了你的文件，它是看到了文件名和界面上的信息，然后做出判断。在非英文界面、高分辨率屏幕、或者文件名比较复杂的情况下，这个判断会出问题。

两款产品核心差异对比

---

三、实测：我把同一批任务丢给它们

我设计了5个梯度递增的测试任务，从简单的文件归类到跨应用联动，尽量覆盖真实使用场景。

测试结果总览

T1：把桌面上所有PDF按年份归类

Hermes Desktop：这是它的主场。它读取了文件元数据和部分内容，准确识别了47个PDF的年份信息，创建了对应子文件夹，整个过程47秒，零错误。操作日志清晰，每一步都有记录。 Perplexity Computer：花了更长时间，因为它需要逐个「看」文件名和预览图。最终也成功了，但有2个文件因为文件名格式特殊（中文年份）被跳过，放在了 未分类 里。小结：入门任务两者都能过，但 Hermes 明显更快更准。

T2：找出上周修改的Excel

Hermes Desktop：直接调用系统文件API查询修改时间，精确找出了目标文件，汇总成清单，格式整洁。 Perplexity Computer：这里出现了第一个明显问题。它通过截屏识别文件管理器里的「修改日期」列，但有两个文件的日期显示被截断了（列宽不够），它没有识别出来，导致漏了2个文件。这是「视觉感知」路线的典型缺陷——它看到什么就处理什么，看不到的就不存在。

T3：读取合同PDF，提取关键条款

这是两者都翻车的一关，只是翻法不同。

Hermes Desktop：对英文PDF解析优秀，但测试用的中文合同出现了部分乱码——具体是表格内的数字段落，解析后变成了乱码字符。这个问题在 GitHub issue 里已有记录，官方说下个版本会修，但现在确实是个坑。 Perplexity Computer：它看到了合同的图像，但对密集的法律条款文字识别不够准确，最终输出的Markdown里有几条关键条款被合并或截断了。它没有办法「读」PDF，只能「看」PDF，这个差距在内容密集的文件上会被放大。

T4：监听文件夹，有新文件进来就自动分类

Hermes Desktop：完成了，但加了一个设计上的限制——每次有新文件进来，它会先给你一个确认弹窗，等你点「执行」才会真的动文件。这让它在「自动化」体验上打了折扣，但从安全角度来说，这个设计是对的。 Perplexity Computer：就是文章开头提到的那次险情。它的截屏感知在后台运行时，把两个路径相似的文件夹搞混了，连续执行了三步操作之后才触发了路径校验报错。如果我没有手动停止，后果不可预料。这不是小概率事件——在文件夹结构复杂、路径相似的情况下，这类错误的概率会显著升高。

T5：跨应用联动——读取表格数据，生成报告，自动存档

压测任务，两者都没有完全通过。

Hermes Desktop：完成了数据读取和报告生成，但在「自动存到指定位置」这一步，生成的文件格式和预期不符（把 .docx 存成了 .txt）。 Perplexity Computer：在第二步就卡住了——它需要在 Excel 和文档编辑器之间切换，但切换应用时截屏感知有延迟，它等待超时后报了错。

---

四、谁更顺手？谁还差一口气？

Hermes Desktop 适合谁

有一定折腾能力，不怕配置环境
对数据隐私高度敏感（律师、医疗、金融从业者）
本地有足够算力（16GB+ 显存）
主要处理结构化文件任务（归类、提取、汇总）
能接受「每次操作需要确认」的工作流

Perplexity Computer 适合谁

不想配置任何环境，开箱即用
任务偏向「操控界面」（点击、填表、截图）而非「理解文件」
对云端数据接受度高
主要在英文界面下工作

两个都差在哪

说实话，这不是某一家的问题，而是整个赛道现阶段的共同天花板：

中文支持都不够稳定。 无论是 Hermes 的内容解析，还是 Perplexity 的视觉识别，在中文文件名、中文内容、中文界面下的表现都比英文差一个档次。 多文件关联推理还很弱。 「找出这三个项目里互相引用的文件」这类需要跨文件推理的任务，两者都不擅长。 错误恢复机制不完善。 出错了怎么办？撤销操作有多可靠？这是两款产品都没有给出令人满意答案的地方。

---

五、如果你现在就想试试这种能力，这里有条捷径

Hermes Desktop 需要本地部署，Perplexity Computer 需要订阅，两者都有门槛。但它们底层调用的模型能力，开发者完全可以通过 API 自己组装一个最小可用版本。

下面这段代码演示了「读取本地文件夹 → 按规则分类 → 输出操作日志」的核心逻辑，大约20行，可以直接跑：

import os
import json
from pathlib import Path
from openai import OpenAI

client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.884819.xyz/v1"
)

def classify_files(folder_path: str) -> dict:
files = [f.name for f in Path(folder_path).iterdir() if f.is_file()]

prompt = f"""以下是一个文件夹中的文件列表：
{json.dumps(files, ensure_ascii=False, indent=2)}

请按照文件类型和内容特征，将它们分类到合理的子文件夹中。
返回JSON格式：{{"文件名": "目标子文件夹名称"}}"""

response = client.chat.completions.create(
model="claude-sonnet-4-6",
messages=[{"role": "user", "content": prompt}],
response_format={"type": "json_object"}
)

result = json.loads(response.choices[0].message.content)
print("分类建议（未执行，仅预览）：")
for filename, folder in result.items():
print(f"  {filename} → {folder}/")
return result

使用示例（只预览，不实际移动文件）
classify_files("/path/to/your/test/folder")

💡 注意：这段代码只做预览，不会真的移动任何文件。在真实执行文件操作之前，永远先打印日志确认，这是桌面 Agent 开发的第一原则。

这个 Demo 我用的是 claude-sonnet-4-6，通过 [api.884819.xyz](https://api.884819.xyz) 调用。这个平台聚合了主流大模型的 API，不需要科学上网，按量计费，国产模型（Deepseek/Qwen 系列）完全免费，注册即送体验 token。如果你只是想验证「AI能不能帮我整理文件」这个想法，这条路比上来就部署 Hermes 要快得多。

把上面的代码复制过去，换上你的 API Key，改一下文件夹路径，3分钟就能跑出第一个结果。

---

六、我的判断

两款产品都值得关注，但现在都还差那么一口气。

Hermes Desktop 的方向更对——语义级的文件理解是这条赛道的正确路线，本地部署的隐私保障也是真实需求。但中文支持和多文件推理是硬伤，需要等后续版本。 Perplexity Computer 的体验更顺滑，但「截图感知」的路线在文件操作场景下有结构性缺陷——它看到的永远是表象，而不是内容本身。适合「操控界面」的任务，不适合「理解文件」的任务。

如果你现在就要选一个：对隐私敏感、有折腾能力的进阶用户选 Hermes；想快速上手、任务偏简单的普通用户选 Perplexity Computer。 如果你只是想先感受一下这种能力，从 API 开始是最低成本的路径。

---

这次测试让我意识到一件事：两款产品最大的共同瓶颈，不是模型能力，而是「如何让 AI 在操作文件之前先问你一句」——也就是 Human-in-the-loop 的设计。Hermes 的强制确认弹窗牺牲了流畅度，Perplexity Computer 的自动执行带来了风险，两者都没有找到那个恰到好处的平衡点。

下一篇我想专门聊这个：当 AI Agent 拿到了你电脑的控制权，「确认机制」到底应该怎么设计才不烦人又足够安全？这个问题，比「哪个产品更好用」重要得多。

---

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI工具 #桌面Agent #文件管理 #Perplexity #HermesDesktop #AI测评 #8848AI #AIAgent