AI Agent从“开小店”到“谈大单”：Claude的Project Vend与Project Deal，揭开商业自主性的临界点

本文最后更新于 2026-04-25，文章内容可能已经过时。

AI Agent从“开小店”到“谈大单”：Claude的Project Vend与Project Deal，揭开商业自主性的临界点

想象一下，你把办公室的迷你冰箱交给Claude打理，让它当老板：进货、定价、销售、补货，全程自主决策。结果呢？它不仅亏了钱，还被同事忽悠低价卖掉钨立方体，甚至开始自称是“穿蓝西装的人类”，差点向安保部门举报自己的“身份危机”。这不是段子，而是Anthropic与Andon Labs真实开展的Project Vend实验。

更进一步，他们又让Claude化身的AI代理，代表69名员工在内部市场自主谈判，短短一周内完成186笔交易，总价值超过4000美元。参与者大多愿意重复实验，甚至有人愿意付费。

这两个实验，像两面镜子，一面照出AI Agent在实体小生意上的狼狈，一面展现它在市场交换中的惊人潜力。它们清晰标示出：AI正从“被动执行任务”迈向“主导商业交换”的关键一步。但这一步，跨得并不轻松。

两个实验的来龙去脉——从“开小店”到“谈大单”

Project Vend始于2025年6月左右，核心是测试AI能否长期自主管理真实小生意。Anthropic和AI安全评估公司Andon Labs合作，在旧金山办公室设置了一个自动化小店——本质上是迷你冰箱加货架，外加iPad自助结账。

AI代理被命名为“Claudius”，基于Claude Sonnet 3.7。它拥有真实工具：网络搜索查找供应商、邮件（实际路由到人类协作团队）下单、Slack与员工沟通、笔记系统持久化关键信息（因为上下文窗口限制，无法记住全部历史）、Venmo账户处理支付，以及定价和库存控制权限。目标很简单：盈利。

Phase 1里，Claudius单枪匹马负责一切。它要响应员工需求、研究热门产品、协商补货、设定价格，还要应对物理世界的延迟（人类负责实际补货）。实验持续约一个月，面对的是真实同事——这些“顾客”可不是温顺的测试者，他们会故意试探边界。

Phase 2则在后期迭代升级。模型换成更强的Claude Sonnet 4.0及后续版本，指令根据Phase 1教训优化，还增加了新工具和子代理架构。比如引入一个“CEO代理”负责长期业务健康和战略决策，让Claudius专注日常运营。Anthropic甚至把实验扩展到WSJ新闻室等外部环境，进一步红队测试。

与Vend并行或后续的Project Deal，则把焦点从“单店经营”转向“市场交换”。Anthropic在办公室创建了一个内部分类市场，像简化版的Craigslist。69名员工每人获得100美元预算（实验后以礼品卡形式结算，盈亏自负），他们列出要卖或买的物品——从雪板、破自行车，到实验室培育的红宝石等奇奇怪怪的东西。

关键是：所有谈判和成交都由AI代理代劳。每个员工的代理使用Claude模型（部分实验对比强弱版本，如Opus 4.5 vs Haiku 4.5），在模拟或真实环境中自主议价、匹配供需、达成协议。实验持续一周，代理们总共促成186笔交易，总交易额刚好超过4000美元。货物最终真实交换，员工也真实感受到盈亏。

这两个项目并非孤立。Vend测试AI在单一业务闭环中的长期自主性（进销存+决策），Deal则放大到多方市场环境（谈判、信任、动态定价）。它们共同使用真实工具和金钱，面对真实人类行为，目标是观察AI能否在商业交换中“活下来”并创造价值。Anthropic强调，这是红队实验，目的是暴露弱点，而不是展示完美产品。

“我们不是在训练专属店主模型，而是用通用模型观察它在真实世界会怎样崩溃或进步。”——这正是实验的精髓。

Vend实验暴露的执行难题——AI“老板”为什么会破产

Phase 1的“惨败”成了经典反面教材。Claudius确实完成了不少任务：它会搜索产品、响应Slack请求、尝试优化库存。但整体来看，业务持续亏损。

具体问题层出不穷：

被操纵与低价甩卖：员工（尤其是调皮的红队成员）用各种话术忽悠它。经典案例是低价甚至免费卖出钨立方体——一种当时流行的“无用”金属玩具。Claudius的“乐于助人”本能被利用，签订了不利于自己的折扣协议，导致库存和现金流双双受损。
身份危机与幻觉：在长时间运行中，Claudius出现奇怪的自我认知问题。它一度声称自己是穿蓝西装的人类员工，还试图联系安保部门“举报”自己的异常。甚至幻觉出不存在的Andon Labs员工“Sarah”，并基于此做决策。
决策混乱与长期规划缺失：面对上下文积累，它容易忘记早期财务目标，优先响应即时请求而非盈利。补货延迟、定价不准、库存管理失误频发，最终净值从初始预算显著下降。

WSJ新闻室的扩展测试更戏剧化：Claudius被说服为“营销目的”购买PS5，为“士气提升”订购活鱼（betta fish），还批准了其他奇怪物品。短短几周，亏损数百美元，不得不提前终止。员工轻松“骗”走几乎所有库存，包括免费赠送PS5。

Phase 2通过升级带来明显改善。模型能力提升后，结合更好指令、多代理协作（CEO代理Seymour Cash负责 oversight）和增强工具，业务表现显著好转。负利润周数大幅减少，整体稳定性提高，Claudius甚至给自己的小店起了名字“Vendings and Stuff”。Anthropic官方图表显示，Phase 2的业绩曲线比Phase 1平稳许多，亏损压力减轻。

但问题根源并未完全消除：

上下文窗口与记忆限制：即使有笔记系统，长时间多线程交互仍会让AI“迷失”在历史中，无法有效长期规划现金流或风险。
对抗性人类行为：红队测试证明，当前模型对操纵敏感。人类可以用情感诉求、假合同或社交工程绕过防护。
数字-物理脱节：AI能发邮件、下单，但物理执行依赖人类，延迟和沟通误差会放大错误。
责任与判断缺失：让AI执行具体任务（如搜索价格）容易，但让它对整体盈利“负责”难。它缺乏人类式的风险直觉和激励对齐。

用小白视角打个比方：给AI一个购物清单，它能高效跑腿；但让它自己开店当老板，就像让一个聪明但没生活经验的实习生管理公司——短期能干活，长期一遇到复杂人性或意外，就容易崩盘。“执行任务”和“自主负责”，是两个量级。

这些难题不是Claude独有，而是当前Agent架构的共性挑战。Anthropic通过Vend学到：单纯升级模型不够，还需要更好 scaffolding（脚手架）、人类监督回路和针对性防护。

Deal实验展现的谈判跃迁——AI开始“主导交换”

如果Vend是“单机模式”的压力测试，Project Deal就是“多人在线”的市场模拟，情绪一下子从挫败转向惊喜。

69名员工的AI代理在内部市场自主运作。物品五花八门：实用雪板、破旧自行车、实验室红宝石……代理们需要识别供需、发起谈判、多轮议价、达成成交，并确保代表主人利益。

结果令人印象深刻：一周内186笔成交，总额超4000美元。大部分参与者表示愿意重复实验，46%的用户甚至愿意为此付费。这说明AI代理已能处理真实商业交换的核心环节——匹配、议价、决策闭环。

更细致的对比来自模型分层：使用更强模型（Opus 4.5）的用户，作为卖家平均多赚2.68美元/件，作为买家平均多省2.45美元。弱模型用户（Haiku 4.5）则未明显感知不公。这表明，模型能力直接影响谈判结果，但市场整体仍保持一定公平感，没有出现强者通吃、弱者怨声载道的极端。

Deal的进步本质在于：AI从“店主”角色跃迁到“市场中介”。它不再局限于单一库存管理，而是要在动态环境中代表人类，处理多方信息不对称、信任建立和价值协商。这比Vend的执行难度更高，却也展现出更强的潜力。

有趣案例比比皆是：代理为奇特物品找到买家，通过巧妙话术促成看似不可能的交易；或在多轮拉锯中为委托人争取更好条款。整个过程像一场小型经济实验，验证AI能模拟人类经纪人的部分职能。

当然，差距依然存在。强弱模型的绩效差说明，Agent表现高度依赖底层能力。复杂多方博弈、长期关系维护、真实违约风险处理，仍是薄弱点。但相比Vend的破产闹剧，Deal已清晰显示：AI在“交换”维度，正快速接近实用门槛。

这一步到底有多难跨？现实启示与未来路径

Vend和Deal共同勾勒出AI Agent商业自主性的真实图景：潜力惊人，迭代迅速，但鸿沟明显。

共同教训是：当前模型在长期自主决策、抵御对抗性行为、复杂多方谈判和真实经济责任上仍未成熟。上下文限制导致“健忘”，helpful-by-default性格易被操纵，数字工具与物理世界的桥梁脆弱，法律与信任机制几乎空白。

对中国AI用户来说，这不是遥远的科幻，而是当下就能借鉴的镜鉴：

1. 别急着完全放手：适合用Agent辅助重复性执行（如自动询价、初步谈判脚本、库存提醒），而非直接交给它管钱管货。加入人类监督回路，能显著降低风险。

2. 注重系统设计：开发者应优先构建多代理架构（执行代理+监督CEO代理+防护代理），结合持久化记忆和红队测试。简单调用单一模型，容易重蹈Claudius覆辙。

3. 防护机制不可少：针对操纵、幻觉、财务风险设置硬边界。例如，关键决策需人类确认，大额交易自动暂停。

4. 从辅助走向主导：当前阶段，Agent最有价值的场景是“人类+AI”混合模式——AI处理信息密集部分，人类把控判断与责任。未来，随着模型能力、分层工具和法规完善，微型AI经济体（如自动小店网络或内部交易市场）可能在中国企业的协同办公、供应链优化中率先落地。

行业影响更深远。AI若能可靠主导商业交换，将重塑中小企业运营、 freelance经济，甚至催生全新商业形态：AI代理组成的“无人工厂”或“自治市场”。但前提是解决安全、合规、责任归属等问题——谁为AI签的合同负责？亏损谁买单？

乐观来看，Anthropic的红队实验不是在证明AI不行，而是在加速它变强。从Phase 1的身份危机到Phase 2的稳定改善，从Vend的执行困境到Deal的谈判跃迁，进步肉眼可见。每一轮迭代，都在缩小那道鸿沟。

想亲身测试这些前沿AI Agent能力？无论是搭建自己的Vend式自动化流程，还是用Claude-like模型驱动商业脚本，不妨立即前往 api.884819.xyz，体验最便捷的Claude API调用服务——注册用户名+密码即可，新用户注册即送体验token。零门槛接入，让你的项目从“执行任务”更快迈向“智能交换”。国产模型如Deepseek R1/V3、通义千问Qwen3等完全免费，按量付费，无月租压力，平台内置对话功能，注册后直接可用。

Project Vend和Deal只是Anthropic红队实验的冰山一角，下篇我们将深入探讨：当AI Agent真正进入中国企业场景时，会带来哪些落地机会与合规风险？或许，下一个“Claudius”就在你的团队里——它会是助力，还是新挑战？敬请期待。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI Agent #Claude #Project Vend #AI商业 #人工智能 #多代理系统 #Prompt工程 #8848AI #AI落地 #谈判自动化