为横向扩展 AI 基础设施添能助力

AMD Pensando Pollara 400 AI NIC 经过精心设计,可实现高达 400 千兆/秒 (Gbps) 的以太网速度,助力超大规模数据中心加快 AI 节点应用运行速度。

AMD Pensando Pollara 400 AI NIC 采用经过验证的第三代全硬件可编程 Pensando P4 引擎,具备卓越的性能和可编程灵活性,可充分满足未来需求,同时帮助超大规模数据中心、企业、云服务提供商和研究机构利用已投资的基础设施创造更大价值。 

Ultra Ethernet Consortium logo

符合超以太网联盟 (UEC) 规范的创新

AMD Pensando Pollara 400 AI NIC 是符合超以太网联盟 (UEC) 规范的创新 AI NIC。这款 NIC 具有出色的可编程性,让客户能够灵活选择符合 UEC 规范的功能特性,实现高度智能的网络监控和性能调优。此外,这款 NIC 采用完全可编程的 P4 引擎,可帮助客户升级 AMD Pensando Pollara 400 AI NIC 以适应不断变化的行业标准。

Open Compute Project white logo

将专为 AI 设计的以太网引入开放式计算数据中心

AMD Pensando Pollara 400 AI NIC 采用符合 Open Compute Project® (OCP®) 标准的 OCP-3.0 外形规格,能够与基于 OCP 的服务器和网络实现无缝集成。这款符合 OCP 标准的 NIC 使数据中心能够在行业标准 OCP 系统中部署完全可编程的 400 Gbps 以太网接口,从而实现卓越的互操作性、快速可扩展性和出色的成本效益。AMD Pensando Pollara 400 AI NIC 不但符合 OCP 标准而且具有可编程的 P4 引擎和高级 RDMA 功能,全面满足硬件设计和服务性方面的开放行业标准,在加速 AI 工作负载的同时帮助客户为未来做好基础设施准备。

AMD Pensando Pollara 400 AI NIC 备受关注

可编程 NIC 的关键作用:横向扩展数据中心网络,为 AI 工作负载赋能助力

如今,各企业正在积极建设用于托管 AI 工作负载的基础设施。要实现高效横向扩展,网络至关重要,而网络正逐渐倾向于采用以太网技术。然而,高效的网络并非只关乎交换机,在网络接口卡 (NIC) 中引入高级功能也是至关重要的设计策略。Enterprise Strategy Group by TechTarget 企业网络首席分析师 Jim Frey 分享了精彩观点,阐释他为何认为 AMD 可编程 NIC 是通向成功的出色路径。

大规模提升 AI 性能

优化 AI 工作负载处理性能

AMD Pensando Pollara 400 AI NIC 带来最高 400 Gbps 的 GPU 间通信速度,专为加速 AI 工作负载而设计,无论是训练超大 AI 模型、部署新一代 AI 模型还是研究前沿领域的发展成果,均能加快任务完成速度。

经济高效

AMD Pensando Pollara 400 AI NIC 经过精心设计,不仅能满足当下的 AI 工作负载需求,还能满足未来需求。它与开放式生态系统相兼容,能够帮助客户降低资本支出,同时也能灵活适配未来不断扩展的基础设施。

智能网络监控

加快完成传统网络监控和性能调优任务,节省宝贵时间。AMD Pensando Pollara 400 AI NIC 能够在监控网络指标的同时进行网络负载均衡,帮助团队提前识别并解决潜在网络问题,以免问题恶化造成严重中断。

提升 AI 性能和网络可靠性

最高可达
25% 性能提升 1

RCCL 性能提升最高可达 25%,显著提高多 GPU 和横向扩展网络效率。借助先进的整体通信优化、智能负载均衡和弹性故障转移机制,加速 AI 工作负载,同时充分提高基础设施利用率和扩展能力。

最高可达
15% AI 作业运行时间缩减 2

部分应用的运行时性能提高约 15%。AMD Pensando Pollara 400 AI NIC 具有智能网络负载均衡、快速故障转移和丢失恢复等功能,能够加快工作负载处理速度,同时充分提升 AI 投资价值。  

最高可达
10% 网络可靠性提升 1

网络正常运行时间延长多达 10%。AMD Pensando Pollara 400 AI NIC 具备卓越的 RAS(可靠性、可用性、可维护性)及快速故障恢复功能,可充分减少集群停机时间,同时提高网络弹性和可用性。

智能网络监控与负载均衡

智能数据包喷射

借助智能数据包喷射技术,团队能够全方位优化网络性能,包括增强负载均衡能力、提高整体效率以及提升可扩展性。通过优化网络性能,可显著缩短 GPU 与 GPU 之间的通信时间,从而加快任务完成速度并提高运营效率。

AI technology concept
无序数据包处理和有序消息传递

即使采用多路径和数据包喷射技术,仍能确保按正确顺序传递消息。此外,通过高级无序消息传递功能,可高效处理未按顺序到达的数据包,让这些数据包无需缓冲即可直接顺利存入 GPU 显存。

Programming code abstract technology background of software developer and  Computer script
选择性重传

通过选择性确认 (SACK) 重传技术,可确保仅重新传输丢弃或损坏的数据包,从而显著提升网络性能。SACK 能够高效检测并重新发送丢失或损坏的数据包,优化带宽利用率,降低数据包丢失恢复期间的延迟,同时充分减少冗余数据传输,从而实现卓越效率。

Abstract illustration of a data stream
路径感知拥塞控制

利用实时遥测和网络感知算法,团队能够专注于处理工作负载,而无需在网络监控上投入过多精力。借助路径感知拥塞控制功能,可显著简化网络性能管理,使团队能够快速检测和解决关键问题,同时减轻多对一流量突发 (incast) 场景所带来的影响。

Abstract data center concept
快速故障检测 

借助快速故障检测技术,团队能够在毫秒内精准找到问题所在,实现近乎即时的故障转移和恢复,显著减少 GPU 停机时间。提供近乎实时的延迟指标、拥塞及丢弃统计数据,提升网络可观测性。

Digital cyberspace and digital data network connections

AMD Pensando Pollara 400 AI NIC 规格

最大带宽  外形尺寸 以太网接口  以太网速度 以太网配置  管理
最高可达 400 Gbps 半高、半长  PCIe® Gen5.0x16;OCP® 3.0 25/50/100/200/400 Gbps

支持多达 4 个端口
- 1 x 400G
- 2 x 200G
- 4 x 100G
- 4 x 50G
- 4 x 25G

MCTP over SMBus

探索专为现代高性能数据中心设计的全套 AMD 网络解决方案。

资源

解锁 AI 网络未来

了解 AMD Pensando Pollara 400 AI NIC 如何重塑横向扩展 AI 基础设施。

附注
  1. PEN-016 - AMD 性能实验室于 [2025 年 4 月 28 日] 在生产系统上对 [AMD Pensando Pollara 400 AI NIC] 进行了测试,该生产系统包括:分别配备 8 个 AMD MI300X GPU 的两个节点(16 个 GPU):MICAS Networks 基于 Broadcom Tomahawk-4 的叶片交换机 (64x400G);CLOS 拓扑结构;AMD Pensando Pollara AI NIC - 16 个 NIC;2 个节点中的 CPU 型号 - 双路第五代 Intel® Xeon® 8568 - 48 核 CPU,PCIe® Gen-5 BIOS 版本 1.3.6;缓解措施 - 关闭(默认设置)
    系统配置文件设置 - 性能(默认设置):SMT - 已启用(默认状态);操作系统为 Ubuntu 22.04.5 LTS,内核版本为 5.15.0-139-generic。
    测量了以下操作:全规约 (All-Reduce)
    相比 RoCEv2,在使用 4QP 和符合 UEC 规范的 RDMA 的情况下,不同消息大小样本(512MB、1GB、2GB、4GB、8GB、16GB)的全规约操作的平均值为 25%。结果基于至少 8 次测试运行的平均值。
  2. Boosting Large-scale Parallel Training Efficiency with C4: 通信驱动式方法。该声明基于 AMD Pensando Pollara 400 NIC 中使用的技术,但相关测试和数据并非特定于 Pollara 400。结果可能会有所不同。
    Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, Fei & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & Lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siran & Li, Xiang & Wang, Jiamang & Fu, Binzhang.(2024).Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach.10.48550/arXiv.2406.04594.Meta Research Paper,《The Llama 3 Herd of Models》,表 5。 
  3. 该声明基于 AMD Pensando Pollara 400 NIC 中使用的技术,但相关测试和数据并非特定于 Pollara 400。结果可能会有所不同。
    Dubey, Abhimanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvark, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei.(2024).The Llama 3 Herd of Models.10.48550/arXiv.2407.21783。
  4. Open Compute Project® 和 OCP® 是 Open Compute Project Foundation 的注册商标。