スケールアウト AI インフラストラクチャの強化

AMD PensandoTM Pollara 400 AI NIC は、大規模なギガスケールのデータセンターの AI ノードで実行されるアプリケーションを高速化し、最大 400 ギガビット/秒 (Gbps) のイーサネット速度を実現するように設計されています。

完全にハードウェアでプログラム可能として実績ある第 3 世代の Pensando P4 エンジンをベースにした AMD Pensando Pollara 400 AI NIC は、業界をリードするパフォーマンスを発揮。将来の要件に応じて柔軟にプログラム可能で、ハイパースケーラー、企業、クラウド サービス プロバイダー、研究機関にとってインフラ投資効果を最大限に高めることができる選択肢です。 

Ultra Ethernet Consortium logo

Ultra Ethernet Consortium (UEC) 機能に対応する業界初の AI NIC

AMD Pensando™ Pollara 400 AI NIC は、業界初の Ultra Ethernet Consortium (UEC) 互換の AI NIC です。この NIC はプログラム可能なため、ユーザーは UEC 機能を選択して、ネットワーク監視とパフォーマンス調整をインテリジェント化できます。そして、完全にプログラム可能な P4 エンジンを介して、どのフォーム ファクターの AMD Pensando Pollara 400 AI NIC にもアップグレードすることができ、進化する業界標準に適合できます。

Open Compute Project white logo

AI 向けに設計されたイーサネットを Open Compute 準拠のデータセンターに導入

AMD Pensando™ Pollara 400 AI NIC は、OCP® (Open Compute Project®) 標準の OCP-3.0 フォーム ファクターに準拠しており、OCP ベースのサーバーおよびネットワークとシームレスに統合できます。OCP 標準に準拠しているこの NIC は完全にプログラム可能な 400 Gbps イーサネット インターフェイスを業界標準の OCP システムに導入でき、卓越した相互運用性、迅速な拡張性、コスト効率を実現します。OCP 互換の AMD Pensando Pollara 400 AI NIC にはプログラム可能な P4 エンジンと高度な RDMA 機能が搭載されているため、将来的なシステム構築に適したインフラストラクチャの準備、AI ワークロードの高速化、オープンな業界標準に準拠したハードウェア設計と保守性の確保が可能です。

注目の AMD Pensando™ Pollara 400 AI NIC

AI 向けデータセンター ネットワークのスケールアウトにおける NIC のプログラマビリティの重要な役割

AI ワークロードのホスティングに必要なインフラストラクチャの構築が進められています。効果的なスケールアウトを実現するためには、ネットワークが重要な役割を果たし、そのネットワークはイーサネットが主流となっています。それでも、効果的なネットワーキングは、スイッチだけではなく、ネットワーク インターフェイス カードに高度な機能を組み込むことも、設計上の重要な戦略となります。TechTarget の Enterprise Strategy Group に所属するエンタープライズ ネットワーキング担当プリンシパル アナリストである Jim Frey 氏が、なぜ AMD のプログラム可能な NIC が成功への最適な道筋と考えているのか、その見解について説明します。

AI パフォーマンスを大幅に向上

AI ワークロードのパフォーマンス

AMD Pensando™ Pollara 400 AI NIC は GPU 間通信速度が 400 Gbps に達します。そのため、最大規模の AI モデルのトレーニングや、次世代 AI モデルの展開、AI ワークロードの高速化を目的とするネットワーク技術に関する最先端技術の研究において、作業時間を短縮できます。

コスト効果

AMD Pensando™ Pollara 400 AI NIC は、現在の AI ワークロードのニーズに対応するように設計されており、オープン エコシステムと互換性があるため、お客様は設備投資を削減しながら、将来的なインフラストラクチャのスケーラビリティの柔軟さを維持できます。

インテリジェントなネットワーク監視

従来のネットワーク監視作業やパフォーマンス調整作業にかかる時間を短縮できます。AMD Pensando™ Pollara 400 AI NIC は、ネットワークの負荷分散とネットワーク メトリクスを同時に監視することで、チームが潜在的なネットワーク問題を事前に特定し、重大な障害に発展する前に解決できるようにします。

AI パフォーマンスとネットワーク信頼性が向上

最大
25% 性能向上 1

RCCL のパフォーマンスが最大 25% 向上し、マルチ GPU とスケールアウト ネットワークの効率が大幅に向上します。集団通信の高度な最適化、インテリジェントなロード バランシング、耐障害性のあるフェイルオーバー メカニズムにより、AI ワークロードの高速化とインフラストラクチャの使用率および拡張性の最大化を両立します。

最大
15% AI ジョブのランタイム短縮 2

一部のアプリケーションでは、ランタイム パフォーマンスが約 15% 向上します。AMD Pensando Pollara 400 AI NIC は、インテリジェントなネットワーク負荷分散、高速フェイルオーバー、損失回復などの機能を備えており、AI への投資を最大限に有効活用すると同時にワークロードを高速化します。  

最大
10% ネットワークの信頼性の向上 1

ネットワークのアップタイムが最大 10% 向上します。AMD Pensando Pollara 400 AI NIC は、最新の RAS と高速障害復旧機能を備えており、ネットワークの耐障害性と可用性を向上させながら、クラスターのダウンタイムを最小限に抑えます。

インテリジェントなネットワーク監視と負荷分散

インテリジェントなパケット スプレー

インテリジェントなパケット スプレーにより、チームは、負荷分散を強化し、全体的な効率性とスケーラビリティを向上させることで、ネットワーク パフォーマンスをスムーズに最適化できます。ネットワーク パフォーマンスの向上により、GPU 間の通信時間を大幅に短縮できるため、作業の完了時間が短縮され、運用効率が向上します。

AI technology concept
アウトオブオーダー パケットの処理とインオーダー メッセージ配信

マルチパス技術やパケット スプレー技術を用いた場合でも、メッセージが正しい順序で確実に配信されるようにします。高度なアウトオブオーダー メッセージ配信機能は、順番通りには到着しない可能性があるデータ パケットを効率的に処理し、バッファリングなしで GPU メモリにシームレスに直接並べます。

Programming code abstract technology background of software developer and  Computer script
選択的な再送信

選択確認応答 (SACK) による再送により、ドロップしたパケットまたは破損したパケットのみを再送信。ネットワーク パフォーマンスが向上します。SACK は、損失または破損したパケットを効率的に検出して再送信することで、帯域幅の使用率を最適化します。これにより、パケット損失の回復時のレイテンシが抑えられ、冗長的なデータ伝送を最小限に抑えられるため、効率が非常に高くなります。

Abstract illustration of a data stream
パス認識型輻輳制御

リアルタイムのテレメトリおよびネットワーク対応アルゴリズムにより、ネットワーク監視ではなくワークロードに重点を置きます。パス認識型の輻輳制御機能により、ネットワーク パフォーマンス管理が簡素化され、チームは重要な問題を迅速に検出して対処できるようになると同時に、インキャスト シナリオの影響も軽減できます。

Abstract data center concept
迅速な障害検出 

迅速な障害検出により、チームはごく短時間で問題を特定できるため、ほぼ瞬時にフェイルオーバーを復旧し、GPU のダウンタイムを大幅に削減できます。ほぼリアルタイムのレイテンシ メトリクス、輻輳、およびドロップ統計情報による高度なネットワーク監視機能を利用できます。

Digital cyberspace and digital data network connections

AMD Pensando™ Pollara 400 AI NIC の仕様

最大帯域幅  フォーム ファクター イーサネット インターフェイス  イーサネットの速度 イーサネット構成  管理職
最大 400 Gbps 1/2 高さ、1/2 長さ  PCIe® Gen5.0x16、OCP® 3.0 25/50/100/200/400Gbps

最大 4 ポートまでサポート
- 1 x 400G
- 2 x 200G
- 4 x 100G
- 4 x 50G
- 4 x 25G

MCTP over SMBus

高性能の最新データセンター向けに設計された一連の AMD ネットワーク ソリューション群をご紹介します。

リソース

AI ネットワーキングの未来を切り開く

AMD Pensando Pollara 400 AI NIC がスケールアウト AI インフラストラクチャをどのように変革するかについて説明します。

脚注
  1. PEN-016 - [2025 年 4 月 28 日] に AMD パフォーマンス ラボで、次の構成の生産システムを使用して [AMD Pensando™ Pollara 400 AI NIC] のテストを実施しました。2 ノードの 8x MI300X AMD GPU (16 GPU): Micas Networks の Broadcom Tomahawk-4 搭載リーフ スイッチ (64 x 400 G)、Clos トポロジ、AMD Pensando Pollara AI NIC – 16 NIC、2 ノードそれぞれの CPU モデル - デュアル ソケット第 5 世代 Intel® Xeon® 8568 - 48 コア CPU + PCIe® Gen-5、BIOS バージョン 1.3.6。Mitigation = Off (デフォルト)
    システム プロファイル設定 = パフォーマンス (デフォルト)、SMT = 有効 (デフォルト)、OS Ubuntu 22.04.5 LTS、Kernel 5.15.0-139-generic。
    測定対象の操作: オールリデュース
    4QP でのオールリデュース操作で平均 25% 向上。UEC 対応の RDMA と RoCEv2 を異なるメッセージ サイズのサンプル (512 MB、1 GB、2 GB、4 GB、8 GB、16 GB) で比較。結果は 8 回以上のテスト ランの平均に基づいています。
  2. C4 による大規模並列トレーニングの効率化: コミュニケーション主導のアプローチ。本データは、AMD Pensando Pollara 400 NIC に使用されている技術を反映したものですが、テストとデータは Pollara 400 に特化したものではありません。実際の結果と異なる場合があります。
    Dong、Jianbo & Luo、Bin & Zhang、Jun & Zhang、Pengcheng & Feng、Fei & Zhu、Yikai & Liu、Ang & Chen、Zian & Shi、Yi & Jiao、Hairong & Lu、Gang & Guan、Yu & Zhai、Ennan & Xiao、Wencong & Zhao、Hanyu & Yuan、Man & Yang、Siran & Li、Xiang & Wang、Jiamang & Fu、Binzhang。(2024)。C4 による大規模並列トレーニングの効率化: コミュニケーション主導のアプローチ。10.48550/arXiv.2406.04594。Meta 社の研究論文『The Llama 3 Herd of Models』の表 5。 
  3. 本データは、AMD Pensando Pollara 400 NIC に使用されている技術を反映したものですが、テストとデータは Pollara 400 に特化したものではありません。実際の結果と異なる場合があります。
    Dubey、Abhimanyu & Jauhri、Abhinav & Pandey、Abhinav & Kadian、Abhishek & Al-Dahle、Ahmad & Letman、Aiesha & Mathur、Akhil & Schelten、Alan & Yang、Amy & Fan、Angela & Goyal、Anirudh & Hartshorn、Anthony & Yang、Aobo & Mitra、Archi & Sravankumar、Archie & Korenev、Artem & Hinsvark、Arthur & Rao、Arun & Zhang、Aston & Zhao、Zhiwei。(2024)。The Llama 3 Herd of Models。10.48550/arXiv.2407.21783。
  4. Open Compute Project® および OCP® は、Open Compute Project Foundation の登録商標です。