为横向扩展 AI 基础设施添能助力

AMD Pensando Pollara 400 AI NIC 经过精心设计,可实现高达 400 千兆/秒 (Gbps) 的以太网速度,助力超大规模数据中心加快 AI 节点应用运行速度。

AMD Pensando Pollara 400 AI NIC 采用经过验证的第三代全硬件可编程 Pensando P4 引擎,具备卓越的性能和可编程灵活性,可充分满足未来需求,同时帮助超大规模数据中心、企业、云服务提供商和研究机构利用已投资的基础设施创造更大价值。 

Ultra Ethernet Consortium logo

业界卓越的 AI NIC:创新提供符合超以太网联盟 (UEC) 规范的功能特性

AMD Pensando Pollara 400 AI NIC 是符合超以太网联盟 (UEC) 规范的开创性 AI NIC。这款 AMD AI NIC 具有出色的可编程性,让客户能够灵活选择符合 UEC 规范的功能特性,实现高度智能的网络监控和性能调优。此外,AMD Pensando Pollara 400 AI NIC 采用完全可编程的 P4 引擎,可灵活升级以满足新的行业标准,包括 UEC 制定的标准。

备受关注的 AMD AI NIC

可编程 NIC 的关键作用:横向扩展数据中心网络,为 AI 工作负载赋能助力

如今,各企业正在积极建设用于托管 AI 工作负载的基础设施。要实现高效横向扩展,网络至关重要,而网络正逐渐倾向于采用以太网技术。然而,高效的网络并非只关乎交换机,在网络接口卡 (NIC) 中引入高级功能也是至关重要的设计策略。Enterprise Strategy Group by TechTarget 企业网络首席分析师 Jim Frey 分享了精彩观点,阐释他为何认为 AMD 可编程 NIC 是通向成功的出色路径。

大规模提升 AI 性能

优化 AI 工作负载处理性能

AMD Pensando Pollara 400 AI NIC 带来 400 Gbps 的 GPU 间通信速度,专为加速 AI 工作负载而设计,无论是训练超大 AI 模型、部署新一代 AI 模型还是研究前沿领域的发展成果,均能加快任务完成速度。

降低资本支出

AMD Pensando Pollara 400 AI NIC 经过精心设计,不仅能满足当下的 AI 工作负载需求,还能满足未来需求。它与开放式生态系统相兼容,能够帮助客户降低资本支出,同时也能灵活适配未来不断扩展的基础设施。 

智能网络监控

加快完成传统网络监控和性能调优任务,节省宝贵时间。AMD Pensando Pollara 400 AI NIC 能够在监控网络指标的同时进行网络负载均衡,帮助团队提前识别并解决潜在网络问题,以免问题恶化造成严重中断。

智能网络监控与负载均衡

智能数据包喷射

借助智能数据包喷射技术,团队能够全方位优化网络性能,包括增强负载均衡能力、提高整体效率以及提升可扩展性。通过优化网络性能,可显著缩短 GPU 与 GPU 之间的通信时间,从而加快任务完成速度并提高运营效率。

AI technology concept
无序数据包处理和有序消息传递

即使采用多路径和数据包喷射技术,仍能确保按正确顺序传递消息。此外,通过高级无序消息传递功能,可高效处理未按顺序到达的数据包,让这些数据包无需缓冲即可直接顺利存入 GPU 显存。

Programming code abstract technology background of software developer and  Computer script
选择性重传

通过选择性确认 (SACK) 重传技术,可确保仅重新传输丢弃或损坏的数据包,从而显著提升网络性能。SACK 能够高效检测并重新发送丢失或损坏的数据包,优化带宽利用率,降低数据包丢失恢复期间的延迟,同时充分减少冗余数据传输,从而实现卓越效率。

Abstract illustration of a data stream
路径感知拥塞控制

利用实时遥测和网络感知算法,团队能够专注于处理工作负载,而无需在网络监控上投入过多精力。借助路径感知拥塞控制功能,可显著简化网络性能管理,使团队能够快速检测和解决关键问题,同时减轻多对一流量突发 (incast) 场景所带来的影响。 

Abstract data center concept
快速故障检测 

借助快速故障检测技术,团队能够在毫秒内精准找到问题所在,实现近乎即时的故障转移和恢复,显著减少 GPU 停机时间。提供近乎实时的延迟指标、拥塞及丢弃统计数据,提升网络可观测性。 

Digital cyberspace and digital data network connections

提升 AI 性能和网络可靠性

最高可达
15% AI 工作负载处理性能提升 1

部分应用的运行时性能提高约 15%。AMD Pensando Pollara 400 AI NIC 具有智能网络负载均衡、快速故障转移和丢失恢复等功能,能够加快工作负载处理速度,同时充分提升 AI 投资价值。 

最高可达
10% 网络可靠性提升 2

网络正常运行时间延长多达 10%。AMD Pensando Pollara 400 AI NIC 具备卓越的 RAS(可靠性、可用性、可维护性)及快速故障恢复功能,可充分减少集群停机时间,同时提高网络弹性和可用性。  

AMD Pensando Pollara 400 AI NIC 规格

最大带宽  外形尺寸 以太网接口  以太网速度 以太网配置  管理
400 Gbps 半高、半长  PCIe® Gen5.0x16 25/50/100/200/400 Gbps

支持多达 4 个端口
- 1 x 400G
- 2 x 200G
- 4 x 100G
- 4 x 50G
- 4 x 25G

MCTP over SMBus

探索专为现代高性能数据中心设计的全套 AMD 网络解决方案。

资源

解锁 AI 网络未来

了解 AMD Pensando Pollara 400 AI NIC 如何重塑横向扩展 AI 基础设施。

附注
  1. Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, Fei & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & Lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siran & Li, Xiang & Wang, Jiamang & Fu, Binzhang. (2024). Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach. 10.48550/arXiv.2406.04594。Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Drive Approach https://arxiv.org/pdf/2406.04594。该声明基于 AMD Pensando Pollara 400 NIC 中使用的技术,但相关测试和数据并非特定于 Pollara 400。结果可能会有所不同。
  2. Dubey, Abhimanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvark, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei. (2024). The Llama 3 Herd of Models. 10.48550/arXiv.2407.21783。Meta Research Paper,《The Llama 3 Herd of Models》,表 5。  该声明基于 AMD Pensando Pollara 400 NIC 中使用的技术,但相关测试和数据并非特定于 Pollara 400。结果可能会有所不同。