MRC协议：OpenAI联合五大巨头，解锁AI超算的“多路径韧性”

MRC协议：OpenAI联合五大巨头，解锁AI超算的“多路径韧性”

你半夜用ChatGPT提问时，突然响应变慢、卡顿几秒，是不是总觉得“网络又抽风了”？其实，这背后可能不是简单的前端问题，而是万里之外的超级计算机集群里，数万张GPU在同步等待数据时遇到的隐形瓶颈。

最近，OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA五大巨头，发布了一项名为MRC（Multipath Reliable Connection，多路径可靠连接）的网络协议。这不是实验室里的概念验证，而是已经部署在OpenAI最大GB200超级计算机上、用于训练前沿模型的生产级技术，并通过Open Compute Project（OCP）完全开放。 [[1]](https://openai.com/index/mrc-supercomputer-networking/)

这标志着AI基础设施从“单路径脆弱”向“多路径韧性”的重要转折。它主要加速前沿模型训练与大规模集群效率，对普通中国用户日常使用ChatGPT的响应速度和稳定性，带来间接但真实的长期利好：OpenAI能更快迭代模型、更稳健扩容服务，最终让大家用得更快、更稳、更划算。

热点速览：OpenAI联合五大巨头干了件大事

就在几天前，OpenAI正式发布MRC协议。这项协议由OpenAI Scaling团队牵头，历时两年多，与AMD、Broadcom、Intel、Microsoft、NVIDIA深度合作开发。 [[2]](https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/)

核心亮点包括：

基于RoCEv2（RDMA over Converged Ethernet）的扩展，支持SRv6（IPv6 Segment Routing），实现单次传输横跨数百条路径。
微秒级故障切换：链路出问题时，能在极短时间内自动绕行，无需中断作业。
智能避开拥塞：发送端直接控制路径选择，动态喷洒数据包，减少热点。
已部署在OpenAI最大规模的NVIDIA GB200超级计算机上，包括与Oracle Cloud Infrastructure合作的Abilene（得州）站点，以及Microsoft的Fairwater超级计算机。MRC已用于训练多款OpenAI前沿模型，硬件依托NVIDIA和Broadcom。 [[1]](https://openai.com/index/mrc-supercomputer-networking/)

最重要的是，这项协议通过OCP开放，任何厂商都能基于规范实现。这不是黑科技炒作，而是真正在跑的生产级方案。Broadcom等合作伙伴的博客明确指出，MRC解决了传统以太网在AI超大规模下的痛点，为下一代800Gb/s网络接口量身定制。 [[3]](https://www.broadcom.com/blog/enabling-ai-networking-scale-with-multi-path-reliable-connections-mrc-)

想象一下：以前的AI训练网络像单车道高速公路，一处拥堵或事故就全线瘫痪；现在变成了智能多车道系统，实时切换、分散压力。这对动辄10万+ GPU的集群来说，是质的飞跃。

AI超算的“隐形瓶颈”：为什么同步这么难？

要理解MRC的价值，先得说说AI训练对网络的严苛要求。

大模型训练，尤其是像GPT系列这样的前沿模型，依赖全归约（All-Reduce）和全局同步。简单说，每一步计算后，所有GPU都需要交换梯度、更新参数，确保模型一致性。这要求网络具备极高的带宽、低延迟和极致的可靠性。

传统网络在超大规模下面临三大难题：

1. 拥塞：海量数据并发，容易在交换机节点形成热点，导致部分链路排队延迟。

2. 链路故障：数据中心里成千上万根光纤、交换机，硬件故障不可避免。传统方案恢复时间可能长达秒级，而AI训练中，哪怕几毫秒的等待，都可能让数千张GPU闲置。

3. GPU利用率浪费：网络卡顿直接导致GPU“等数据”，整体训练效率下降，推高每token的训练成本，也延长迭代周期。

用生活类比：AI训练就像春运期间亿万旅客同时回家。如果只有单条高铁线路，一处信号故障或客流高峰，就全线延误；多路径系统则像智能导航App，实时切换高铁、地铁、高速公路，甚至共享单车，分散流量，确保整体准点率。

行业数据显示，大规模AI训练中，网络问题可导致GPU利用率显著下降，训练时间延长，直接增加算力浪费。OpenAI等前沿实验室过去几年在构建万卡集群时，网络已成为最难啃的“隐形瓶颈”。单路径依赖让系统脆弱，多路径并行则带来韧性。 [[4]](https://www.datacenterknowledge.com/networking/openai-pushes-new-ai-networking-protocol-as-gpu-clusters-scale)

MRC到底解决了什么？技术拆解与行业影响

MRC的核心机制可以概括为“三板斧”：

多路径并行传输：单个RDMA连接不再绑定单路径，而是将数据包“喷洒”到数百条可用路径。发送端（而非网络）掌握主动权，实现精细负载均衡。
智能调度与快速重路由：结合SRv6，发送端显式指定路径。检测到拥塞或故障时，微秒级切换，无需依赖复杂网络控制平面。
无需中断作业的可靠性：扩展了可靠性消息，支持双向探针等机制，即使在best-effort网络上也能保证AI训练所需的高可靠传输，同时减少对无损网络（PFC）的依赖，简化运维。 [[5]](https://www.opencompute.org/documents/ocp-mrc-1-0-pdf)

对比现有方案：

InfiniBand：传统高性能选择，但成本高、生态封闭，扩展到10万+ GPU时面临挑战。
传统RoCEv2/Ethernet：成本友好，但单路径下拥塞和故障恢复较弱。
MRC：继承Ethernet的成本与开放性，同时补齐多路径韧性。多厂商协作（AMD、NVIDIA等芯片商 + Broadcom交换机 + Microsoft/OpenAI实践）加速了标准化进程，有望降低整体部署成本，促进竞争健康发展。

对行业的影响是多层次的：

云服务商：能更可靠地构建和扩容AI超级集群，减少宕机风险。
下游AI应用：训练更快出新模型，推理服务延迟更低、稳定性更高。
未来分布式训练：为多数据中心协同、甚至跨地域训练铺路，让“AI工厂”真正走向gigascale时代。

NVIDIA在Spectrum-X Ethernet中已支持MRC，Microsoft和Oracle的集群也已实际部署，证明了其生产就绪性。 [[2]](https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/)

MRC让网络从“被动管道”变成“主动协同者”，这是AI基础设施成熟的重要一步。

（进阶读者可参考OpenAI官方论文，里面有SRv6路由的详细机制。这里简单伪代码示意多路径概念：

# 伪代码：发送端路径喷洒逻辑
def send_mrc_packet(data, available_paths):
for packet in split_data(data):
path = select_optimal_path(available_paths, congestion_metrics)
route_via_srv6(packet, path)  # 显式指定路径
# 微秒级监控 & 重路由

实际实现远更复杂，但核心是发送端智能决策。）

和普通人用ChatGPT有关系吗？现实影响拆解

很多人会问：这离我这么远，和我日常聊天有啥关系？

短期看，影响有限。现有ChatGPT服务已经过多年优化，峰值期也相对稳定，MRC主要服务于训练侧而非推理侧。 但中长期利好明显：

OpenAI能更高效利用算力，降低边际训练成本，有空间支撑更大规模部署和更频繁的模型迭代。
服务端扩容更稳健：面对全球用户增长，峰值期卡顿概率降低。
对中国用户而言，意味着潜在的响应更快、功能更新更快，以及间接的定价友好（成本下降可能传导）。
其他厂商跟进可能性高：既然OCP开放，Microsoft、Oracle等云巨头和芯片商都会加速采用，形成行业标准。

更广义看，这启示中国AI生态：基础设施自主创新至关重要。国内大模型发展迅猛，类似的多路径网络优化、开放协作，也将是中国本土超算竞争力提升的关键。

基础设施的进步往往默默托底用户体验。你感觉AI越来越好用时，背后是这些“看不见”的协议在发力。

想第一时间体验更稳、更快的AI服务（包括低延迟API调用），推荐试试国内优化后的接入方案——访问 [api.884819.xyz](https://api.884819.xyz)，新用户注册即送体验token。无论是日常聊天还是开发项目，都能帮你更高效地用上最新AI能力。新用户注册即送体验token。

基础设施的每一次标准化，都是下一代模型更快落地的基石。MRC只是开始，下一期我们聊聊“多厂商AI芯片+网络生态”对中国本土大模型落地的真实机会，以及普通开发者如何从中获利，敬请期待！

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI基础设施 #MRC协议 #OpenAI #AI超算 #GPU集群 #网络协议 #8848AI #人工智能 #大模型训练 #OCP