造就橫向擴充 AI 基礎架構

AMD PensandoTM Pollara 400 AI NIC 是專為巨大規模與超巨大規模資料中心設計,加速橫跨 AI 節點執行的應用程式,乙太網路速度最高可達 400 Gbps。

AMD Pensando Pollara 400 AI NIC 是以經過實證的第 3 代全硬體可程式化 Pensando P4 引擎為基礎,提供業界領先的效能與可彈性滿足未來需求的可程式化功能,幫助超大規模業者、企業、雲端服務供應商及研究學者發揮基礎架構投資最大效益。 

Ultra Ethernet Consortium logo

業界首創提供超級乙太網路聯盟 (UEC) 功能的 AI NIC

AMD Pensando™ Pollara 400 AI NIC 是業界首創與超級乙太網路聯盟 (UEC) 標準相容的 AI NIC。基於其可程式化的特性,AMD AI NIC™ 讓客戶能夠選用 UEC 功能,來為網路監測與效能調整提供智慧功能。AMD AI NIC 透過完全可程式化 P4 引擎,讓客戶能因應業界新標準的推出,升級任何 AMD Pensando™ Pollara 400 AI NIC,包括由 UEC 訂定的標準。

AMD AI NIC™ 專題文章

NIC 可程式化功能在 AI 資料中心網路的橫向擴充上所扮演的關鍵角色

全球各地都在為了執行 AI 工作負載而著手擴充基礎架構。為有效擴充,網路扮演了關鍵性的角色,且這些網路大多傾向採用乙太網路。然而,有效的網路並非只在於交換器:在網路介面卡內建進階功能,也是不可或缺的重要設計策略。TechTarget 的企業網路首席分析師 Jim Frey 分享他的觀點,解釋為何他認為 AMD 可程式化 NIC 是通往成功的最佳化途徑。

大規模加速 AI 效能

AI 工作負載效能

顯示卡對等速度達 400 Gbps 的 AMD Pensando™ Pollara 400 AI NIC 除了能縮短工作完成時間,還能訓練最大型的 AI 模型,部署新一代的 AI 模型,或利用為加速 AI 工作負載而設計的網路功能來研究最尖端技術。

降低 CapEx

AMD Pensando™ Pollara 400 AI NIC 是為滿足現在與未來 AI 工作負載需求而設計,相容於開放式生態系統,讓客戶能在保有未來基礎架構擴充彈性的同時,達到降低 CapEx 的成果。 

智慧型網路監測

節省傳統網路監測與效能調整工作所需要的時間。AMD Pensando™ Pollara 400 AI NIC 平衡網路負載的同時亦能監測網路狀況,讓團隊主動辨識並解決潛在的網路問題,防止問題惡化成為重大障礙。

智慧型網路監測與負載平衡

智慧封包噴灑

智慧封包噴灑可以強化負載平衡,增強整體效率與擴充性,讓團隊流暢地最佳化網路效能。網路效能改善後,可大幅縮短顯示卡對等通訊時間,進而加速完成工作並提升營運效率。

AI technology concept
暫停服務封包處理和依序訊息遞送

確保訊息即使在採用多路徑和封包噴灑技術時,也能依正確順序遞送。進階的暫停服務訊息遞送功能可以高效率處理不符順序送達的資料封包,將資料流暢置入顯示卡記憶體而無需緩衝處理。

Programming code abstract technology background of software developer and  Computer script
選擇性重新傳輸

用選擇性確認 (SACK) 重新傳輸來提升網路效能,確保僅有被捨棄或已損毀的封包會重新傳輸。SACK 能有效率地偵測並重新傳送遺失或受損的封包,進而最佳化頻寬使用率,幫助降低丟包復原的延遲,並且將贅餘的資料傳輸減至最少以獲卓越效率。

Abstract illustration of a data stream
路徑感知壅塞控制

運用即時遙測和網路感知演算法,把精神放在工作負載上,而非網路監測。路徑感知壅塞控制功能可簡化網路效能管理,讓團隊快速偵測並解決重大問題,同時緩解聚歛壅塞 (incast) 的影響。 

Abstract data center concept
快速故障偵測 

藉由快速偵測錯誤,團隊能在幾毫秒內精準找出問題,實現幾近即時的容錯移轉復原,並大幅縮短顯示卡停機時間。利用近乎即時的延遲指標、壅塞和封包捨棄統計資料,提升網路可觀察性。 

Digital cyberspace and digital data network connections

提升 AI 效能和網路可靠性

高達
15% 加速 AI 工作效能 1

將特定應用程式執行效能增強約 15%。AMD Pensando Pollara 400 AI NIC 的功能包括智慧網路負載平衡、快速容錯移轉和丟包復原,可幫助加速工作負載,同時讓 AI 投資發揮最大效益。 

高達
10% 改善網路可靠性 2

獲得多達 10% 的網路工作時間改善。AMD Pensando Pollara 400 AI NIC 的尖端技術 RAS 和快速錯誤復原功能,能將叢集停機時間降到最低,同時提升網路韌性與可用性。  

AMD Pensando™ Pollara 400 AI NIC 規格

最大頻寬  外型規格 乙太網路介面  乙太網路速度 乙太網路組態  管理
400 Gbps 半高、半長  PCIe® Gen5.0x16 25/50/100/200/400 Gbps

最多支援 4 個連接埠
- 1 個 400 G
- 2 個 200 G
- 4 個 100 G
- 4 個 50 G
- 4 個 25 G

MCTP 經由 SMBus

探索專為高效能現代資料中心所設計的全套 AMD 網路解決方案。

資源

開啟 AI 網路的未來

瞭解 AMD Pensando Pollara 400 AI NIC 如何能轉型您的橫向擴充 AI 基礎架構。

尾註
  1. Jianbo Dong、Bin Luo、Jun Zhang、Pengcheng Zhang、Fei Feng、Yikai Zhu、Ang Liu、Zian Chen、Yi Shi、Hairong Jiao、Gang Lu、Yu Guan、Ennan Zhai、Wencong Xiao、Hanyu Zhao、Man Yuan、Siran Yang、Xiang Li、Jiamang Wang、Binzhang Fu。(2024)。 Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach(利用 C4 提升大規模平行訓練效率:通訊導向的方法)。10.48550/arXiv.2406.04594。Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach(利用 C4 提升大規模平行訓練效率:一套通訊導向的方法)https://arxiv.org/pdf/2406.04594。此主張反映出 AMD Pensando Pollara 400 NIC 中使用的技術,不過測試和資料非專指 Pollara 400。結果可能會有所不同。
  2. Abhimanyu Dubey、Abhinav Jauhri、Abhinav Pandey、Abhishek Kadian、Ahmad Al-Dahle、Aiesha Letman、Akhil Mathur、Alan Schelten、Amy Yang、Angela Fan、Anirudh Goyal、Anthony Hartshorn、Aobo Yang、Archi Mitra、Archie Sravankumar、Artem Korenev、Arthur Hinsvark、Arun Rao、Aston Zhang、Zhiwei Zhao。(2024)。The Llama 3 Herd of Models(Llama 3 模型群)。10.48550/arXiv.2407.21783。Meta Research 論文,《The Llama 3 Herd of Models》(Llama 3 模型群),表格 5。  此主張反映出 AMD Pensando Pollara 400 NIC 中使用的技術,不過測試和資料非專指 Pollara 400。結果可能會有所不同。