什么是 AI 数据中心网络?

什么是 AI 数据中心网络?

AI 数据中心网络是指使用人工智能 (AI) 的数据中心网络交换矩阵。它可满足 AI 和机器学习 (ML) 工作负载对网络可扩展性、性能和低延迟的严格要求,这些要求在 AI 训练阶段尤其严苛。

在早期的高性能计算 (HPC) 和 AI 训练网络中,一种高速低延迟专有网络技术 InfiniBand 最初因其在服务器和存储系统之间的快速高效通信而大受欢迎。如今,以太网成为开源替代选择,逐渐在 AI 数据中心网络市场获得了巨大的关注,并有望成为主流技术。

以太网采用率的不断提高有多重原因,但其中最重要的是运维和成本因素。与专有 InfiniBand 网络相比,能够构建并运维以太网的网络专业人才库规模庞大,而且与主要通过英伟达提供的 InfiniBand 技术相比,管理此类网络的工具非常多。

 

AI 数据中心网络可满足哪些人工智能驱动型要求?

事实证明,生成式 AI 在全球范围内都是一项变革性技术。生成式 AI,以及一般意义上的大型深度学习 AI 模型,都对 AI 数据中心网络提出了新要求。AI 模型开发有三个阶段:

  • 第 1 阶段:数据准备 - 收集并整理数据集,以便输入 AI 模型。
  • 第 2 阶段:AI 训练 - 通过让 AI 模型接触大量数据,训练它学会执行特定任务。在此阶段,AI 模型学习训练数据中隐含的模式和关系,以形成虚拟突触来模拟智能。
  • 第 3 阶段:AI 推理 - 在真实世界环境中运行,根据新的未知数据进行预测或作出决策。

第 3 阶段一般由现有数据中心和云网络提供支持。但是,第 2 阶段(AI 训练)需要大量数据和计算资源为其迭代过程提供支持,在此过程中,AI 模型从持续收集的数据中学习,以完善其参数。图形处理单元 (GPU) 非常适合 AI 学习和推理工作负载,但必须以群集形式运行才能保持高效。扩展群集可提高 AI 模型的效率,但也会增加成本,因此使用不影响群集效率的 AI 数据中心网络至关重要。

要训练大型模型,就必须连接许多甚至数万个 GPU 服务器(2023 年每台服务器的成本超过 40 万美元)。因此,优化工作完成时间 (JCT) 以及最大限度减少或消除尾延迟(一种异常 AI 工作负载增加整个 AI 任务完成时间的情况),是优化 GPU 投资回报率的关键所在。在此用例中,AI 数据中心网络必须完全可靠,且不能降低群集效率。   

 

AI 数据中心网络如何运作?

虽然昂贵的 GPU 服务器通常是 AI 数据中心整体成本的主要构成部分,但 AI 数据中心网络至关重要,因为若要最大限度提高 GPU 利用率,就需要一个高性能网络。以太网是一项经过验证的开源技术,最适合在针对 AI 增强的数据中心网络架构中部署这种解决方案。这些增强功能包括拥塞管理、负载平衡和延迟最小化,可优化工作完成时间 (JCT)。最后,简化的管理和自动化可确保可靠性和持续性能。

交换矩阵设计

AI 数据中心网络可采用多种交换矩阵设计;但是,建议使用任意到任意的无阻塞 Clos 交换矩阵,以优化训练框架。从 NIC 到分叶,再到主干,这些交换矩阵均采用 400 Gbps(将提高到 800 Gbps)的一致网速。根据模型大小和 GPU 规模,可使用两层三级无阻塞交换矩阵或三层五级无阻塞交换矩阵。

流量控制和拥塞避免功能

除了交换矩阵容量,其他设计考虑因素也提高了整个交换矩阵的可靠性和效率。这些考虑因素包括具有最佳链路数量、大小适当的交换矩阵互连,以及检测并纠正流量不平衡以避免拥塞和数据包丢失的能力。显式拥塞通知 (ECN)、数据中心量化拥塞通知 (DCQCN) 以及基于优先级的流量控制 (PFC) 可解决流量不平衡问题,实现无损传输。

为减少拥塞,交换机上部署了动态自适应负载平衡功能。动态负载平衡会在交换机本地重新分配流量,实现均匀分配。自适应负载平衡监控流转发和下一跳表,以识别不平衡问题并引导流量远离拥塞路径。

如果无法避免拥塞,ECN 会提前通知应用。在此期间,分叶和主干更新支持 ECN 的数据包,向发送方通知拥塞情况,发送方可就此减缓传输速度,以免数据包在传输过程中被丢弃。如果端点未能及时响应,以太网接收器可通过基于优先级的流量控制 (PFC) 与发送方共享缓冲区可用性的反馈。最后,在拥塞期间,分叶和主干可暂停或限制特定链路上的流量,以减少拥塞并避免数据包丢弃,从而实现特定流量类别的无损传输。

规模和性能

以太网已成为应对高性能计算和 AI 应用严格要求的首选开放标准解决方案。随着时间推移,以太网不断发展(包括目前发展到 800 GbE 和数据中心桥接 (DCB)),变得更快、更可靠、可扩展,成为满足任务关键型 AI 应用所需的高数据吞吐量和低延迟要求的首选。

自动化

自动化是有效的 AI 数据中心网络解决方案的最后一环,但自动化的成效不尽相同。为充分挖掘价值,自动化软件必须提供体验至上的运维。自动化软件可被持续用于 AI 数据中心的设计、部署和管理,还能自动执行 AI 数据中心网络生命周期从第 0 天到第 2 天及以后的运维,并加以验证。这样就能重复并持续验证 AI 数据中心设计和部署,不仅有助消除人为错误,还可以利用遥测和看情况数据来优化性能、简化主动式故障排除并避免中断。   

 

瞻博网络 AI 数据中心网络解决方案基于数十年的网络经验和 AIOps 创新而构建

瞻博网络的 AI 数据中心网络解决方案基于我们数十年的网络经验和 AIOps 创新而构建,完善了开放、快速且易于管理的基于以太网的 AI 网络解决方案。这些大容量、可扩展、无阻塞的交换矩阵可提供最高的 AI 性能和 GPU 利用率并最大限度缩短工作完成时间。瞻博网络 AI 数据中心网络解决方案借助三大基本架构支柱:

  • 可大规模扩展的性能 - 优化工作完成时间,从而提高 GPU 效率
  • 行业标准开放性 - 利用行业驱动的生态系统扩展现有数据中心技术,促进创新并推动长期成本下降
  • 体验至上的运维 - 自动执行后端、前端和存储交换矩阵的 AI 数据中心设计、部署和运维,并加以简化

这些支柱得到以下支持:

  • 大容量、无损的 AI 数据中心网络设计,利用任意到任意无阻塞 Clos 交换矩阵,这是优化 AI 训练框架最通用的拓扑结构
  • 高性能交换机和路由器,包括基于瞻博网络 Express 芯片(用于主干/超级主干)的瞻博网络 PTX 系列路由器,以及基于 Broadcom Tomahawk ASIC(作为提供 AI 服务器连接的分叶交换机)的 QFX 系列交换机
  • 通过流量控制和冲突避免功能提高交换矩阵效率
  • 基于标准的开放式以太网规模和性能,支持 800 GbE
  • 广泛的自动化功能,使用瞻博网络 Apstra® 基于意图的网络软件,可自动执行 AI 数据中心网络生命周期从第 0 天到第 2 天及以后的运维,并加以验证

 

AI 数据中心网络常见问题解答

AI 数据中心网络可解决什么问题?

AI 数据中心网络可满足生成式 AI 以及一般意义上的大型深度学习 AI 模型的性能要求。AI 训练尤其需要大量数据和计算资源为其迭代过程提供支持,在此过程中,AI 模型从持续收集的数据中学习,以完善其参数。图形处理单元 (GPU) 非常适合 AI 学习和推理工作负载,但必须以群集形式运行才能保持高效。扩展群集可提高 AI 模型的效率,但也会增加成本,因此使用不影响群集效率的 AI 数据中心网络至关重要。

要训练大型模型,就必须连接许多甚至数万个 GPU 服务器(2023 年每台服务器的成本超过 40 万美元)。因此,最大限度缩短工作完成时间 (JCT) 以及最大限度减少或消除尾延迟(一种异常 AI 工作负载减缓整个 AI 任务完成时间的情况),是优化 GPU 投资回报率的关键所在。在此用例中,AI 数据中心网络必须完全可靠,且不能降低群集效率。   

对 AI 数据中心网络而言,以太网相比 InfiniBand 有哪些优势?

在早期的高性能计算 (HPC) 和 AI 训练网络中,高速低延迟专有网络技术 InfiniBand 最初因其在服务器和存储系统之间的快速高效通信而大受欢迎。如今,以太网成为开源替代选择,逐渐在现代 AI 数据中心网络市场获得了巨大的关注,并有望成为主流技术。

虽然 InfiniBand 等专有技术可推动进步和创新,但它们价格昂贵,还会在竞争性供需市场无法调节成本的情况下收取溢价。此外,与专有 InfiniBand 网络相比,能够构建并运维以太网的网络专业人才库规模庞大,而且与主要通过英伟达提供的 InfiniBand 技术相比,管理此类网络的工具非常多。

以太网是全球范围内采用率仅次于 IP 的网络技术。以太网变得更快速、更可靠、可扩展,成为处理任务关键型 AI 应用所需的高数据吞吐量和低延迟要求的首选。目前的 800GbE 和以太网桥接 (DCB) 以太网增强功能支持大容量、低延迟和无损数据传输,让以太网交换矩阵成为高优先级和任务关键型 AI 流量的理想选择。

瞻博网络提供哪些 AI 数据中心网络解决方案/产品/技术?

瞻博网络 AI 数据中心网络解决方案提供大容量、无损的 AI 数据中心网络设计,使用任意到任意无阻塞 Clos 交换矩阵,这是优化 AI 训练框架最通用的拓扑结构。该解决方案利用基于标准的开放式高性能以太网交换机和路由器,接口高达 800 GbE。此外,它使用 Juniper Apstra 基于意图的网络软件,可自动执行人工智能数据中心网络生命周期从第 0 天到第 2 天及以后的运维,并加以验证。