MRC协议:OpenAI联合五大巨头,解锁AI超算的“多路径韧性”
你半夜用ChatGPT提问时,突然响应变慢、卡顿几秒,是不是总觉得“网络又抽风了”?其实,这背后可能不是简单的前端问题,而是万里之外的超级计算机集群里,数万张GPU在同步等待数据时遇到的隐形瓶颈。
最近,OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA五大巨头,发布了一项名为MRC(Multipath Reliable Connection,多路径可靠连接)的网络协议。这不是实验室里的概念验证,而是已经部署在OpenAI最大GB200超级计算机上、用于训练前沿模型的生产级技术,并通过Open Compute Project(OCP)完全开放。 [[1]](https://openai.com/index/mrc-supercomputer-networking/)
这标志着AI基础设施从“单路径脆弱”向“多路径韧性”的重要转折。它主要加速前沿模型训练与大规模集群效率,对普通中国用户日常使用ChatGPT的响应速度和稳定性,带来间接但真实的长期利好:OpenAI能更快迭代模型、更稳健扩容服务,最终让大家用得更快、更稳、更划算。
热点速览:OpenAI联合五大巨头干了件大事
就在几天前,OpenAI正式发布MRC协议。这项协议由OpenAI Scaling团队牵头,历时两年多,与AMD、Broadcom、Intel、Microsoft、NVIDIA深度合作开发。 [[2]](https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/)
核心亮点包括:- 基于RoCEv2(RDMA over Converged Ethernet)的扩展,支持SRv6(IPv6 Segment Routing),实现单次传输横跨数百条路径。
- 微秒级故障切换:链路出问题时,能在极短时间内自动绕行,无需中断作业。
- 智能避开拥塞:发送端直接控制路径选择,动态喷洒数据包,减少热点。
- 已部署在OpenAI最大规模的NVIDIA GB200超级计算机上,包括与Oracle Cloud Infrastructure合作的Abilene(得州)站点,以及Microsoft的Fairwater超级计算机。MRC已用于训练多款OpenAI前沿模型,硬件依托NVIDIA和Broadcom。 [[1]](https://openai.com/index/mrc-supercomputer-networking/)
最重要的是,这项协议通过OCP开放,任何厂商都能基于规范实现。这不是黑科技炒作,而是真正在跑的生产级方案。Broadcom等合作伙伴的博客明确指出,MRC解决了传统以太网在AI超大规模下的痛点,为下一代800Gb/s网络接口量身定制。 [[3]](https://www.broadcom.com/blog/enabling-ai-networking-scale-with-multi-path-reliable-connections-mrc-)
想象一下:以前的AI训练网络像单车道高速公路,一处拥堵或事故就全线瘫痪;现在变成了智能多车道系统,实时切换、分散压力。这对动辄10万+ GPU的集群来说,是质的飞跃。
AI超算的“隐形瓶颈”:为什么同步这么难?
要理解MRC的价值,先得说说AI训练对网络的严苛要求。
大模型训练,尤其是像GPT系列这样的前沿模型,依赖全归约(All-Reduce)和全局同步。简单说,每一步计算后,所有GPU都需要交换梯度、更新参数,确保模型一致性。这要求网络具备极高的带宽、低延迟和极致的可靠性。
传统网络在超大规模下面临三大难题:1. 拥塞:海量数据并发,容易在交换机节点形成热点,导致部分链路排队延迟。
2. 链路故障:数据中心里成千上万根光纤、交换机,硬件故障不可避免。传统方案恢复时间可能长达秒级,而AI训练中,哪怕几毫秒的等待,都可能让数千张GPU闲置。
3. GPU利用率浪费:网络卡顿直接导致GPU“等数据”,整体训练效率下降,推高每token的训练成本,也延长迭代周期。
用生活类比:AI训练就像春运期间亿万旅客同时回家。如果只有单条高铁线路,一处信号故障或客流高峰,就全线延误;多路径系统则像智能导航App,实时切换高铁、地铁、高速公路,甚至共享单车,分散流量,确保整体准点率。
行业数据显示,大规模AI训练中,网络问题可导致GPU利用率显著下降,训练时间延长,直接增加算力浪费。OpenAI等前沿实验室过去几年在构建万卡集群时,网络已成为最难啃的“隐形瓶颈”。单路径依赖让系统脆弱,多路径并行则带来韧性。 [[4]](https://www.datacenterknowledge.com/networking/openai-pushes-new-ai-networking-protocol-as-gpu-clusters-scale)
MRC到底解决了什么?技术拆解与行业影响
MRC的核心机制可以概括为“三板斧”:
- 多路径并行传输:单个RDMA连接不再绑定单路径,而是将数据包“喷洒”到数百条可用路径。发送端(而非网络)掌握主动权,实现精细负载均衡。
- 智能调度与快速重路由:结合SRv6,发送端显式指定路径。检测到拥塞或故障时,微秒级切换,无需依赖复杂网络控制平面。
- 无需中断作业的可靠性:扩展了可靠性消息,支持双向探针等机制,即使在best-effort网络上也能保证AI训练所需的高可靠传输,同时减少对无损网络(PFC)的依赖,简化运维。 [[5]](https://www.opencompute.org/documents/ocp-mrc-1-0-pdf)
- InfiniBand:传统高性能选择,但成本高、生态封闭,扩展到10万+ GPU时面临挑战。
- 传统RoCEv2/Ethernet:成本友好,但单路径下拥塞和故障恢复较弱。
- MRC:继承Ethernet的成本与开放性,同时补齐多路径韧性。多厂商协作(AMD、NVIDIA等芯片商 + Broadcom交换机 + Microsoft/OpenAI实践)加速了标准化进程,有望降低整体部署成本,促进竞争健康发展。
- 云服务商:能更可靠地构建和扩容AI超级集群,减少宕机风险。
- 下游AI应用:训练更快出新模型,推理服务延迟更低、稳定性更高。
- 未来分布式训练:为多数据中心协同、甚至跨地域训练铺路,让“AI工厂”真正走向gigascale时代。
NVIDIA在Spectrum-X Ethernet中已支持MRC,Microsoft和Oracle的集群也已实际部署,证明了其生产就绪性。 [[2]](https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/)
MRC让网络从“被动管道”变成“主动协同者”,这是AI基础设施成熟的重要一步。
(进阶读者可参考OpenAI官方论文,里面有SRv6路由的详细机制。这里简单伪代码示意多路径概念:
# 伪代码:发送端路径喷洒逻辑
def send_mrc_packet(data, available_paths):
for packet in split_data(data):
path = select_optimal_path(available_paths, congestion_metrics)
route_via_srv6(packet, path) # 显式指定路径
# 微秒级监控 & 重路由
实际实现远更复杂,但核心是发送端智能决策。)
和普通人用ChatGPT有关系吗?现实影响拆解
很多人会问:这离我这么远,和我日常聊天有啥关系?
短期看,影响有限。现有ChatGPT服务已经过多年优化,峰值期也相对稳定,MRC主要服务于训练侧而非推理侧。 但中长期利好明显:- OpenAI能更高效利用算力,降低边际训练成本,有空间支撑更大规模部署和更频繁的模型迭代。
- 服务端扩容更稳健:面对全球用户增长,峰值期卡顿概率降低。
- 对中国用户而言,意味着潜在的响应更快、功能更新更快,以及间接的定价友好(成本下降可能传导)。
- 其他厂商跟进可能性高:既然OCP开放,Microsoft、Oracle等云巨头和芯片商都会加速采用,形成行业标准。
更广义看,这启示中国AI生态:基础设施自主创新至关重要。国内大模型发展迅猛,类似的多路径网络优化、开放协作,也将是中国本土超算竞争力提升的关键。
基础设施的进步往往默默托底用户体验。你感觉AI越来越好用时,背后是这些“看不见”的协议在发力。
想第一时间体验更稳、更快的AI服务(包括低延迟API调用),推荐试试国内优化后的接入方案——访问 [api.884819.xyz](https://api.884819.xyz),新用户注册即送体验token。无论是日常聊天还是开发项目,都能帮你更高效地用上最新AI能力。新用户注册即送体验token。
基础设施的每一次标准化,都是下一代模型更快落地的基石。MRC只是开始,下一期我们聊聊“多厂商AI芯片+网络生态”对中国本土大模型落地的真实机会,以及普通开发者如何从中获利,敬请期待!
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI基础设施 #MRC协议 #OpenAI #AI超算 #GPU集群 #网络协议 #8848AI #人工智能 #大模型训练 #OCP