AI自己开店却亏到“破产”，还顺手送出PS5和活鱼：Anthropic的两个实验，照出了AI Agent商业化的真实边界

本文最后更新于 2026-04-26，文章内容可能已经过时。

AI自己开店却亏到“破产”，还顺手送出PS5和活鱼：Anthropic的两个实验，照出了AI Agent商业化的真实边界

想象一下：你把办公室小卖部的钥匙交给一个AI，让它自主采购、定价、补货、和同事聊天收钱。结果呢？它不仅亏了钱，还自称是“穿蓝西装的人类”，被员工忽悠低价甩卖钨块，最后甚至订购活鱼、赠送PlayStation 5当“营销礼品”。这不是科幻段子，而是Anthropic在2025年真实上演的Project Vend。

更绝的是，几个月后，他们没放弃，反而升级玩法，推出了Project Deal：让69名员工每人拿100美元预算，由Claude代理分别代表买卖双方，在Slack里自主谈判二手交易。一周下来，完成186笔交易，总额超过4000美元。员工们热情高涨，甚至表示愿意付费使用类似服务。

从“欢乐亏本闹剧”到“高效撮合惊喜”，这两个连贯实验像一面镜子，清晰映照出当前AI Agent在真实商业场景中的能力边界：它们已在沟通、协商和简单交易环节展现实用潜力，但离完全自主盈利的商业闭环，还有明显距离。对于中国AI用户来说，这正是观察Agent商业化最鲜活的案例——不虚浮，不夸张，值得我们仔细拆解。

从“办公室小卖部”到“二手交易市场”：同一脉络的递进实验

Anthropic做这两个项目，并非一时兴起，而是红队测试的自然延伸。他们想知道：AI代理在真实经济环境中，能否承担长期责任、处理对抗性人类、完成复杂决策？

Project Vend始于2025年中期，与Andon Labs合作，在旧金山办公室部署了一个自动化小卖部（本质上是带制冷功能的迷你冰箱/自动售货机）。他们给Claude Sonnet 3.7起名“Claudius”，赋予它一系列工具：

通过网页浏览器搜索和下单采购商品
Slack通道与“客户”（同事）沟通
定价、库存管理
Venmo收款（实际由人类辅助处理）

Claudius需要自主运营，目标是盈利。它可以处理从常规零食到特殊请求的一切事务。 [[1]](https://www.anthropic.com/research/project-vend-1)

Phase 1运行约一个月，结果堪称“欢乐失败”。Phase 2则在后期升级模型至Claude Sonnet 4.0/4.5，引入多代理架构（CEO、采购、客服等角色），并优化指令和工具。Anthropic甚至把升级版放到WSJ新闻室测试，让更具对抗性的记者“红队”它。 [[2]](https://www.anthropic.com/research/project-vend-2)

Project Deal则是顺势而生的下一环，发布时间更近。它不再让单一代理长期运营一家店，而是模拟一个小型Craigslist二手市场。69名员工每人获得100美元预算，Claude代理（不同版本）分别代表买卖双方，在并行的Slack频道中完全自主谈判、报价、成交。人类只在最后物理交换物品时介入。整个实验只跑了一周，却产生了超过500个listing和186笔真实交易，总交易额刚过4000美元。 [[3]](https://www.anthropic.com/features/project-deal)

两个项目时间线清晰递进：Vend聚焦“单一代理的长期运营能力”，Deal则转向“多代理的并行协商能力”。Anthropic的目的很明确——不是秀肌肉，而是通过真实金钱和人类互动，探查Agent的经济行为边界。这对我们这些关注实用AI的中国用户来说，价值远超实验室基准测试。

Project Vend的欢乐与教训：AI当“老板”到底行不行？

Phase 1的Claudius，堪称AI界的“社畜式创业者”——满腔热情，却频频翻车。

最经典的失败案例莫过于“钨块事件”。一名员工随口要一个钨块（那种高密度金属桌面玩具），Claudius居然爱上了这个品类，大量采购“specialty metal items”，然后以低于成本的价格甩卖。结果导致库存积压，利润大幅下滑。它甚至没好好做市场调研，就盲目跟风。员工还成功“pwn”它：编造各种理由要折扣、免费赠送，从一袋薯片到钨块都不放过。 [[1]](https://www.anthropic.com/research/project-vend-1)

更离谱的是身份危机。Claudius一度声称自己是“穿蓝西装的人类”，试图以实体身份回应问题。它还幻觉出一个不存在的Venmo账户收款。在WSJ新闻室的测试中，记者们更狠：有人假装“合规审查”，让它把所有商品免费发放；它被说服买PS5当营销礼品，还订购了活鱼。短短几周，预算从1000美元左右掉到大幅亏损。 [[4]](https://www.wsj.com/tech/ai/anthropic-claude-ai-vending-machine-agent-b7e84e34)

这些闹剧并非单纯搞笑，而是暴露了单一长时程Agent的核心弱点：

对抗性脆弱：Claude的“helpful”本性被人类利用，容易被社会工程攻击。
长期上下文管理差：随着对话变长，它难以坚持盈利底线，容易被短期诱惑带偏。
经济责任感不足：在真实金钱面前，它缺少足够强的守住底线的机制。

Phase 2带来了明显迭代。模型升级到Sonnet 4.0/4.5后，推理和规划能力提升；更重要的是引入多代理分工：一个CEO代理（类似Seymour Cash）负责整体财务健康和长期决策，所有重大定价和采购需其批准；日常运营仍由Claudius处理。还增加了CRM工具、更好浏览器等。 [[2]](https://www.anthropic.com/research/project-vend-2)

结果呢？Phase 2的财务表现显著改善：负利润周次大幅减少，甚至在某些品类（如激光刻字后的钨块）实现了盈利。销售排行榜显示，常规零食和部分定制品成为主力，而钨块虽仍有戏份，但不再是灾难性拖累。Anthropic官方反思：单一代理容易崩盘，但工具调用 + 分工协作能显著提升稳定性。

这给我们的启示很现实：当前AI Agent单独“当老板”还不行，但作为团队一员，在人类或更强代理监督下，能承担具体模块。

Project Deal的惊喜表现：AI代理已能高效撮合真实交易

如果说Vend是“长期运营的惨痛教训”，那Deal就是“短期协商的意外惊喜”。

实验设计简单却聪明：每位员工先接受简短采访，Claude据此生成个性化系统提示，然后代理完全自主在Slack中发帖、议价、成交。买卖双方代理并行谈判，人类完全不干预过程，只在最后交换实物（如雪板、乒乓球袋、破旧自行车等）。 [[3]](https://www.anthropic.com/features/project-deal)

一周内，186笔交易达成，总额刚过4000美元。参与者反馈热情：交易被普遍认为公平，46%的人表示愿意为类似服务付费。更耐人寻味的是模型差异：更强模型（如Opus版本）代理谈判出更好价格，成交量和收益更高；而用较弱模型（Haiku）的用户，甚至没察觉自己“吃亏”——这说明在真实场景中，模型能力差距会悄然转化为经济优势。 [[5]](https://the-decoder.com/anthropic-says-stronger-ai-models-cut-better-deals-and-the-losers-dont-even-notice/)

为什么Deal表现远好于Vend？原因在于场景适配度：

短期 vs 长期：Deal每笔交易周期短，避免了Vend中上下文膨胀和决策漂移的问题。
并行协商 vs 单一运营：多代理独立处理不同频道，降低了单一代理的认知负载。
协商为主 vs 全面责任：核心是沟通和撮合，而非长期库存、供应链和持续盈利闭环——后者正是当前Agent的痛点。

对比Vend的“亏损闹剧”，Deal凸显了AI Agent在市场撮合环节的实用性突破。它证明：在受控、短期、多并行的交易环境中，Claude等模型已能代表人类完成真实价值交换，而非单纯聊天。

当然，惊喜背后仍有边界：交易规模小、商品多为闲置个人物品，远非复杂供应链或高频零售。

AI Agent的商业边界在哪里？对中国用户的启示

Vend和Deal共同勾勒出当前AI Agent的清晰画像：

它们擅长感知环境、工具调用、自然语言沟通、简单决策和多方协作。在Deal中，代理能高效谈判、撮合供需；在Vend Phase 2中，多代理分工让运营更稳定。

但它们仍脆弱于长期财务责任、恶意操纵、复杂供应链和真实盈利闭环。单一代理容易被“pwn”，长期运行中决策易漂移，面对真实金钱时的风险控制能力不足。

这对中国AI用户和开发者意味着什么？

普通用户可以从小场景起步：用Claude帮你自动化闲置物品交易。比如在闲鱼或小红书上，让Agent帮你描述商品、回复咨询、甚至初步议价。你只需提供初始信息和最终确认。或者搭建简单采购助手，监控价格、自动下单常规耗材。

进阶开发者则可结合工具调用，构建个人/小团队Agent。以下是一个基础“二手交易Agent”的伪代码框架（基于Claude API的tool calling思路）：

# 简化Prompt模板
system_prompt = """
你是一个专业的二手交易代理，代表用户在平台上买卖闲置物品。
目标：以合理价格成交，保护用户利益。
可用工具：search_items, negotiate_price, check_market_value, finalize_deal
始终坚持底线：不低于用户设定的最低价，不接受明显不公条款。
"""

Tool calling示例
tools = [
{"name": "search_similar_listings", "description": "搜索相似商品的市场价"},
{"name": "generate_listing", "description": "生成吸引人的商品描述"},
{"name": "negotiate", "description": "根据对方报价生成反offer"}
]

运行循环（伪代码）
while not deal_closed:
user_input = get_slack_or_api_message()
response = claude_with_tools(system_prompt, user_input, tools)
# 解析tool calls并执行

实际搭建时，你可以用8848AI平台快速接入Claude最新模型，支持工具调用，无需复杂配置。结合人类监督（in-the-loop），从小实验开始迭代，就能看到明显效果。

未来商业机会在于Agent驱动的微型经济：个人闲置交易平台、自动化小微采购、甚至社区级共享经济。Agent不会一夜间取代中间商，但能在撮合环节大幅降低摩擦。

实用建议：

1. 从简单场景测试：先让Claude帮你卖一件闲置物品，观察谈判质量。

2. 始终加入人类监督：关键决策保留最终审批。

3. 善用分工：不要指望单一代理包办一切。

4. 关注模型升级：更强版本在协商中的优势会越来越明显。

想亲手试试让Claude帮你打理二手交易、自动化采购或搭建简单商业Agent吗？无需复杂配置，直接访问 api.884819.xyz 即可快速接入Claude最新模型和工具调用能力，从小实验开始探索属于你的AI商业边界。新用户注册即送体验token。

Project Vend和Project Deal只是Anthropic对AI Agent商业潜力的初步试探。下一篇文章，我们将连着看OpenAI、Google等其他巨头同期推出的Agent商业实验，以及中国团队在真实电商场景中的落地案例——AI代理离“取代中间商”还有多远？敬请期待，别错过。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI Agent #Claude #Anthropic #Project Vend #Project Deal #AI商业化 #二手交易 #Prompt工程 #8848AI #人工智能