造就橫向擴充 AI 基礎架構

AMD PensandoTM Pollara 400 AI NIC 是專為巨大規模與超巨大規模資料中心設計,加速橫跨 AI 節點執行的應用程式,乙太網路速度最高可達 400 Gbps。

AMD Pensando Pollara 400 AI NIC 是以經過實證的第 3 代全硬體可程式化 Pensando P4 引擎為基礎,提供業界領先的效能與可彈性滿足未來需求的可程式化功能,幫助超大規模業者、企業、雲端服務供應商及研究學者發揮基礎架構投資最大效益。 

Ultra Ethernet Consortium logo

業界首創支援超級乙太網路聯盟 (UEC) 功能的 AI NIC

AMD Pensando™ Pollara 400 AI NIC 是業界首創支援超級乙太網路聯盟 (UEC) 標準的 AI NIC。基於其可程式化的特性,NIC 讓客戶能夠選用 UEC 功能,來為網路監測與效能調整提供智慧功能。NIC 透過完全可程式化 P4 引擎,讓客戶能因應業界新標準的推出,升級任何外型規格的 AMD Pensando Pollara 400 AI NIC。

Open Compute Project white logo

為開放式運算資料中心提供專為 AI 設計的乙太網路

AMD Pensando™ Pollara 400 AI NIC 現在提供 Open Compute Project® (OCP®) 標準 OCP-3.0 外型規格,可實現與 OCP 架構伺服器及網路的緊密整合。透過符合 OCP 標準,NIC 讓資料中心可為所有業界標準 OCP 系統部署完全可程式化的 400 Gbps 乙太網路介面,發揮卓越的互通性、快速的擴充性和成本效益。OCP 相容的 AMD Pensando Pollara 400 AI NIC,利用可程式化 P4 引擎和先進的 RDMA 功能,協助客戶讓基礎架構為未來建置作好準備並加速 AI 工作負載,同時符合有利於硬體設計和維護檢修的開放式業界標準。

AMD Pensando™ Pollara 400 AI NIC 專題文章

NIC 可程式化功能在 AI 資料中心網路的橫向擴充上所扮演的關鍵角色

全球各地都在為了執行 AI 工作負載而著手擴充基礎架構。為有效擴充,網路扮演了關鍵性的角色,且這些網路大多傾向採用乙太網路。然而,有效的網路並非只在於交換器:在網路介面卡內建進階功能,也是不可或缺的重要設計策略。TechTarget 的企業網路首席分析師 Jim Frey 分享他的觀點,解釋為何他認為 AMD 可程式化 NIC 是通往成功的最佳化途徑。

大規模加速 AI 效能

AI 工作負載效能

顯示卡對等速度高達 400 Gbps 的 AMD Pensando™ Pollara 400 AI NIC 除了能縮短工作完成時間,還能訓練最大型的 AI 模型,部署新一代的 AI 模型,或利用為加速 AI 工作負載而設計的網路功能來研究最尖端技術。

具成本效益

AMD Pensando™ Pollara 400 AI NIC 是為滿足現在與未來 AI 工作負載需求而設計,相容於開放式生態系統,讓客戶能在保有未來基礎架構擴充彈性的同時,達到降低 CapEx 的成果。

智慧型網路監測

節省傳統網路監測與效能調整工作所需要的時間。AMD Pensando™ Pollara 400 AI NIC 平衡網路負載的同時亦能監測網路狀況,讓團隊主動辨識並解決潛在的網路問題,防止問題惡化成為重大障礙。

提升 AI 效能和網路可靠性

高達
25% 效能提升 1

在 RCCL 效能方面達到最高 25% 的改善,大幅提升多顯示卡與橫向擴充式網路的效率。具備進階集體通訊最佳化、智慧型負載平衡,以及具韌性的容錯移轉機制,可在加速 AI 工作負載的同時,極大化基礎架構的使用率和擴充能力。

高達
15% 的 AI 工作執行時間減少幅度 2

將特定應用程式執行效能增強約 15%。AMD Pensando Pollara 400 AI NIC 的功能包括智慧網路負載平衡、快速容錯移轉和丟包復原,可幫助加速工作負載,同時讓 AI 投資發揮最大效益。  

高達
10% 改善網路可靠性 1

獲得多達 10% 的網路工作時間改善。AMD Pensando Pollara 400 AI NIC 的尖端技術 RAS 和快速錯誤復原功能,能將叢集停機時間降到最低,同時提升網路韌性與可用性。

智慧型網路監測與負載平衡

智慧封包噴灑

智慧封包噴灑可以強化負載平衡,增強整體效率與擴充性,讓團隊流暢地最佳化網路效能。網路效能改善後,可大幅縮短顯示卡對等通訊時間,進而加速完成工作並提升營運效率。

AI technology concept
暫停服務封包處理和依序訊息遞送

協助確保訊息即使在採用多路徑和封包噴灑技術時,也能依正確順序遞送。進階的暫停服務訊息遞送功能可以高效率處理不符順序送達的資料封包,將資料流暢置入顯示卡記憶體而無需緩衝處理。

Programming code abstract technology background of software developer and  Computer script
選擇性重新傳輸

用選擇性確認 (SACK) 重新傳輸來提升網路效能,協助確保僅有被捨棄或已損毀的封包會重新傳輸。SACK 能有效率地偵測並重新傳送遺失或受損的封包,進而最佳化頻寬使用率,幫助降低丟包復原的延遲,並且將贅餘的資料傳輸減至最少以獲卓越效率。

Abstract illustration of a data stream
路徑感知壅塞控制

運用即時遙測和網路感知演算法,把精神放在工作負載上,而非網路監測。路徑感知壅塞控制功能可簡化網路效能管理,讓團隊快速偵測並解決重大問題,同時協助緩解聚歛壅塞 (incast) 的影響。

Abstract data center concept
快速故障偵測 

藉由快速偵測錯誤,團隊能在幾毫秒內精準找出問題,實現幾近即時的容錯移轉復原,並協助大幅縮短顯示卡停機時間。利用近乎即時的延遲指標、壅塞和封包捨棄統計資料,提升網路可觀察性。

Digital cyberspace and digital data network connections

AMD Pensando™ Pollara 400 AI NIC 規格

最大頻寬  外型規格 乙太網路介面  乙太網路速度 乙太網路組態  管理
高達 400 Gbps 半高、半長  PCIe® Gen5.0x16;OCP® 3.0 25/50/100/200/400 Gbps

最多支援 4 個連接埠
- 1 個 400 G
- 2 個 200 G
- 4 個 100 G
- 4 個 50 G
- 4 個 25 G

MCTP 經由 SMBus

探索專為高效能現代資料中心所設計的全套 AMD 網路解決方案。

資源

開啟 AI 網路的未來

瞭解 AMD Pensando Pollara 400 AI NIC 如何能轉型您的橫向擴充 AI 基礎架構。

尾註
  1. PEN-016 - 截至 [2025 年 4 月 28 日] 為止,AMD 效能實驗室在生產環境的系統上,針對 [AMD Pensando™ Pollara 400 AI NIC] 所執行的測試,此系統的配置與組態如下:2 個 8xMI300X AMD 顯示卡節點(16 個顯示卡):MICAS Networks 的 Broadcom Tomahawk-4 型分葉交換器 (64x400G);CLOS 拓撲架構;AMD Pensando Pollara AI NIC – 16 個 NIC;2 個節點中每個節點的處理器型號 - 雙插槽第 5 代 Intel® Xeon® 8568 - 48 核心處理器,搭載 PCIe® Gen-5;BIOS 版本 1.3.6;緩解 - 關(預設)
    系統設定檔設定 - 效能(預設)SMT - 啟用(預設);作業系統 Ubuntu 22.04.5 LTS,內核 5.15.0-139-generic。
    本測試量測的作業為: Allreduce
    與採用 RoCEv2 相比,採用支援 UEC 的 RDMA 時,All-Reduce 作業在 4QP 的條件下,平均效能提升 25%。本測試使用了數種不同大小的訊息作為樣本:512 MB、1 GB、2 GB、4 GB、8 GB、16 GB)的。結果是以各組訊息大小的平均值為基礎,每組測試都至少執行過 8 次。
  2. Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Drive Approach(利用 C4 提升大規模平行訓練效率:一套通訊導向的方法)。此主張反映出 AMD Pensando Pollara 400 NIC 中使用的技術,不過測試和資料非專指 Pollara 400。結果可能會有所不同。
    Jianbo Dong、Bin Luo、Jun Zhang、Pengcheng Zhang、Fei Feng、Yikai Zhu、Ang Liu、Zian Chen、Yi Shi、Hairong Jiao、Gang Lu、Yu Guan、Ennan Zhai、Wencong Xiao、Hanyu Zhao、Man Yuan、Siran Yang、Xiang Li、Jiamang Wang、Binzhang Fu。(2024)。Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach(利用 C4 提升大規模平行訓練效率:通訊導向的方法)。10.48550/arXiv.2406.04594。Meta Research 論文,《The Llama 3 Herd of Models》(Llama 3 模型群),表格 5。 
  3. 此主張反映出 AMD Pensando Pollara 400 NIC 中使用的技術,不過測試和資料非專指 Pollara 400。結果可能會有所不同。
    Abhimanyu Dubey、Abhinav Jauhri、Abhinav Pandey、Abhishek Kadian、Ahmad Al-Dahle、Aiesha Letman、Akhil Mathur、Alan Schelten、Amy Yang、Angela Fan、Anirudh Goyal、Anthony Hartshorn、Aobo Yang、Archi Mitra、Archie Sravankumar、Artem Korenev、Arthur Hinsvark、Arun Rao、Aston Zhang、Zhiwei Zhao。(2024)。The Llama 3 Herd of Models(Llama 3 模型群)。10.48550/arXiv.2407.21783。
  4. Open Compute Project® 和 OCP® 是 Open Compute Project Foundation 的註冊商標。