Optimisation de l'infrastructure d'IA scale-out
La carte réseau AMD PensandoTM Pollara 400 AI NIC est conçue pour accélérer les applications exécutées sur les nœuds d'IA dans les centres de données à très grande et à très grande échelle, avec des débits Ethernet allant jusqu'à 400 Gigabit par seconde (Gbit/s).
Basée sur le moteur Pensando P4 de troisième génération éprouvé, entièrement programmable par hardware, la carte réseau AMD Pensando Pollara 400 AI NIC offre des performances de pointe et la flexibilité de programmation nécessaire pour répondre aux exigences futures. Elle permet ainsi d'optimiser les investissements en infrastructure pour les hyperscalers, les entreprises, les fournisseurs de services cloud et les chercheurs.
Première carte réseau d'IA du secteur prenant en charge les fonctionnalités UEC (Ultra Ethernet Consortium)
La carte réseau AMD Pensando™ Pollara 400 AI NIC est la première carte réseau d'IA compatible avec les spécifications de l'Ultra Ethernet Consortium (UEC). Grâce à sa programmabilité, cette carte réseau permettra aux clients de sélectionner les fonctionnalités UEC dans le but d'apporter un surcroît d'intelligence à la surveillance et à l'optimisation des performances du réseau. Grâce au moteur P4 entièrement programmable, la carte réseau permet aux clients de mettre à niveau n'importe quelle carte réseau AMD Pensando Pollara 400 AI NIC, quel que soit son format, afin de répondre aux nouvelles normes industrielles à mesure qu'elles évoluent.
Intégration d'Ethernet conçu pour l'IA aux centres de données de calcul ouvert
La carte réseau AMD Pensando™ Pollara 400 AI NIC est disponible dans un format OCP-3.0 standard Open Compute Project® (OCP®), ce qui permet une intégration transparente avec les serveurs et les réseaux basés sur OCP. Conforme aux normes OCP, cette carte réseau permet aux centres de données de déployer une interface Ethernet 400 Gbit/s entièrement programmable sur les systèmes OCP standard, offrant ainsi une interopérabilité exceptionnelle, une évolutivité rapide et une grande rentabilité. La carte réseau AMD Pensando Pollara 400 AI NIC compatible OCP exploite un moteur P4 programmable et des fonctionnalités RDMA avancées. Elle aide ainsi les clients à préparer leur infrastructure pour les builds futurs et à accélérer les charges de travail liées à l'IA, tout en respectant les normes industrielles ouvertes en matière de Hardware Design et de facilité d'entretien.
La carte réseau AMD Pensando™ Pollara 400 AI NIC sous le feu des projecteurs
Le rôle essentiel de la programmabilité des cartes réseau dans le déploiement des réseaux de centres de données dédiés à l'IA
La mise en œuvre d'infrastructures destinées à héberger des charges de travail d'IA est en cours. Pour un scale-out efficace, les réseaux, qui jouent un rôle essentiel, s'orientent vers l'Ethernet. Mais une mise en réseau efficace ne se limite pas aux commutateurs : l'intégration de fonctionnalités avancées dans les cartes d'interface réseau est une stratégie de conception essentielle. Jim Frey, analyste principal de la mise en réseau d'entreprise chez Enterprise Strategy Group by TechTarget, nous explique pourquoi, selon lui, les cartes réseau programmables AMD représentent la voie la plus rapide vers la réussite.
Accélérez les performances de l'IA à grande échelle
Performances des charges de travail d'IA
Avec des débits de communication GPU-GPU pouvant atteindre 400 Gbit/s, la carte réseau AMD Pensando™ Pollara 400 AI NIC est à même d'accélérer l'exécution des tâches tout en entraînant les modèles d'IA les plus volumineux, en déployant la prochaine génération de modèles d'IA ou en développant des avancées de pointe grâce à une mise en réseau conçue pour accélérer les charges de travail liées à l'IA.
Rentable
Conçue pour répondre aux besoins actuels et futurs des charges de travail d'IA, la carte réseau AMD Pensando™ Pollara 400 AI NIC est compatible avec un écosystème ouvert, ce qui permet aux clients de réduire leurs dépenses d'investissement tout en bénéficiant d'une grande flexibilité en matière d'évolutivité future de leur infrastructure.
Surveillance intelligente du réseau
Gagnez du temps sur les tâches traditionnelles de surveillance du réseau et de réglage des performances. La carte réseau AMD Pensando™ Pollara 400 AI NIC équilibre la charge des réseaux tout en surveillant les mesures réseau, ce qui permet aux équipes d'identifier et de résoudre de manière proactive les problèmes réseau potentiels avant qu'ils ne dégénèrent en perturbations majeures.
Boostez les performances de l'IA et la fiabilité du réseau
Améliorez jusqu'à 25 % les performances RCCL, ce qui augmente considérablement l'efficacité des réseaux multi-GPU et scale-out. Grâce à des optimisations avancées de la communication collective, à un équilibrage intelligent de la charge et à des mécanismes de basculement résilients, accélérez les charges de travail d'IA tout en optimisant l'utilisation de l'infrastructure et les capacités d'évolutivité.
Améliorez les performances d'exécution d'environ 15 % pour certaines applications. Grâce à des fonctionnalités telles que l'équilibrage intelligent de la charge réseau, le basculement rapide et la récupération des pertes, la carte réseau AMD Pensando Pollara 400 AI NIC permet d'accélérer les charges de travail tout en optimisant les investissements dans l'IA.
Bénéficiez d'une disponibilité du réseau supérieure de 10 %. Avec la carte réseau AMD Pensando Pollara 400 AI NIC, limitez les temps d'arrêt des clusters tout en augmentant la résilience et la disponibilité du réseau grâce à des fonctionnalités RAS de pointe et à une récupération rapide en cas de panne.
Surveillance du réseau et équilibrage de charge intelligents
- Pulvérisation de paquets intelligente
- Traitement des paquets dans le désordre et livraison des messages dans l'ordre
- Retransmission sélective
- Contrôle de la congestion en fonction du chemin
- Détection rapide des pannes
Pulvérisation de paquets intelligente
La pulvérisation de paquets intelligente permet aux équipes d'optimiser de manière fluide les performances du réseau en améliorant l'équilibrage de la charge, pour un gain global d'efficacité et d'évolutivité. L'amélioration des performances du réseau permet de réduire considérablement les temps de communication entre les GPU, ce qui accélère l'exécution des tâches et augmente l'efficacité opérationnelle.
Traitement des paquets dans le désordre et livraison des messages dans l'ordre
Aidez à garantir que les messages sont livrés dans le bon ordre, même lorsque vous utilisez des techniques de multipathing et de pulvérisation de paquets. La fonctionnalité avancée d'acheminement des messages dans le désordre traite efficacement les paquets de données qui peuvent arriver dans le désordre, en les plaçant directement dans la mémoire du GPU sans avoir besoin de les mettre en mémoire tampon.
Retransmission sélective
Améliorez les performances du réseau grâce à la retransmission avec accusé de réception sélectif (SACK), qui garantit que seuls les paquets perdus ou corrompus sont retransmis. Le SACK détecte et renvoie efficacement les paquets perdus ou endommagés, optimisant ainsi l'utilisation de la bande passante, contribuant à réduire le temps de latence pendant la récupération des paquets perdus et minimisant les transmissions de données redondantes pour une efficacité exceptionnelle.
Contrôle de la congestion en fonction du chemin
Concentrez-vous sur les charges de travail, et non sur la surveillance du réseau, grâce à la télémétrie en temps réel et aux algorithmes orientés réseau. La fonction de contrôle de la congestion en fonction du chemin simplifie la gestion des performances réseau, permettant aux équipes de détecter et de résoudre rapidement les problèmes critiques tout en contribuant à atténuer l'impact des scénarios incast.
Détection rapide des pannes
Grâce à la détection rapide des pannes, les équipes peuvent identifier les problèmes en quelques millisecondes, ce qui permet une reprise quasi instantanée et contribue à réduire considérablement les temps d'arrêt des GPU. Bénéficiez d'une observabilité réseau améliorée grâce à des mesures de temps de latence en temps quasi réel et à des statistiques sur la congestion et les pertes.
Spécifications de la carte réseau AMD Pensando™ Pollara 400 AI NIC
| Bande passante maximale | Format | Interface Ethernet | Débits Ethernet | Configurations Ethernet | Gestion |
| Jusqu'à 400 Gbit/s | Demi-hauteur, demi-longueur | PCIe® Gen5.0x16 ; OCP® 3.0 | 25/50/100/200/400 Gbit/s | Prend en charge jusqu'à 4 ports |
MCTP sur SMBus |
Découvrez la gamme complète de solutions réseau AMD conçues pour les centres de données modernes hautes performances.
Ressources
Débridez l'avenir de la mise en réseau pour l'IA
Découvrez comment la carte réseau AMD Pensando Pollara 400 AI NIC peut transformer votre infrastructure d'IA scale-out.
Notes de bas de page
- PEN-016 - Tests réalisés par AMD Performance Labs le [28 avril 2025] sur la [carte réseau AMD Pensando™ Pollara 400 AI NIC], sur un système de production comprenant : 2 nœuds de 8 GPU AMD MI300X (16 GPU) : Commutateur leaf Broadcom Tomahawk-4 (64x400G) du réseau MICAS ; Topologie CLOS ; AMD Pensando Pollara AI NIC – 16 cartes réseau ; Modèle de CPU dans chacun des 2 nœuds - Double socket de 5e génération Intel® Xeon® 8568 - CPU 48 cœurs avec PCIe® Gen 5 version BIOS 1.3.6 ; Atténuation - Désactivée (par défaut)
Paramètres du profil système - Performances (par défaut) SMT - activé (par défaut) ; système d'exploitation Ubuntu 22.04.5 LTS, noyau 5.15.0-139-generic.
Les opérations suivantes ont été mesurées : Allreduce
Moyenne de 25 % pour les opérations All-Reduce avec 4QP et utilisation de RDMA compatible UEC par rapport à RoCEv2 pour plusieurs échantillons de tailles de messages différentes (512 Mo, 1 Go, 2 Go, 4 Go, 8 Go, 16 Go). Les résultats sont basés sur la moyenne d'au moins 8 exécutions de test.
- Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Drive Approach. Cette affirmation fait référence à la technologie utilisée dans les cartes réseau AMD Pensando Polara 400, mais les tests et les données ne sont pas spécifiques à cette carte en particulier. Les résultats peuvent varier.
Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, FEI & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siman & Li, Xiang & Wang, Jiamang & Fu, Binzhang. (2024). Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach. 10.48550/arXiv.2406.04594.Document de recherche Meta, « The Llama 3 Herd of Models », tableau 5.
- Cette affirmation fait référence à la technologie utilisée dans les cartes réseau AMD Pensando Polara 400, mais les tests et les données ne sont pas spécifiques à cette carte en particulier. Les résultats peuvent varier.
Dubey, Abhihanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvik, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei. (2024). The Llama 3 Herd of Models. 10.48550/arXiv.2407.21783.
- Open Compute Project® et OCP® sont des marques déposées de l'Open Compute Project Foundation.
- PEN-016 - Tests réalisés par AMD Performance Labs le [28 avril 2025] sur la [carte réseau AMD Pensando™ Pollara 400 AI NIC], sur un système de production comprenant : 2 nœuds de 8 GPU AMD MI300X (16 GPU) : Commutateur leaf Broadcom Tomahawk-4 (64x400G) du réseau MICAS ; Topologie CLOS ; AMD Pensando Pollara AI NIC – 16 cartes réseau ; Modèle de CPU dans chacun des 2 nœuds - Double socket de 5e génération Intel® Xeon® 8568 - CPU 48 cœurs avec PCIe® Gen 5 version BIOS 1.3.6 ; Atténuation - Désactivée (par défaut)
Paramètres du profil système - Performances (par défaut) SMT - activé (par défaut) ; système d'exploitation Ubuntu 22.04.5 LTS, noyau 5.15.0-139-generic.
Les opérations suivantes ont été mesurées : Allreduce
Moyenne de 25 % pour les opérations All-Reduce avec 4QP et utilisation de RDMA compatible UEC par rapport à RoCEv2 pour plusieurs échantillons de tailles de messages différentes (512 Mo, 1 Go, 2 Go, 4 Go, 8 Go, 16 Go). Les résultats sont basés sur la moyenne d'au moins 8 exécutions de test. - Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Drive Approach. Cette affirmation fait référence à la technologie utilisée dans les cartes réseau AMD Pensando Polara 400, mais les tests et les données ne sont pas spécifiques à cette carte en particulier. Les résultats peuvent varier.
Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, FEI & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siman & Li, Xiang & Wang, Jiamang & Fu, Binzhang. (2024). Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach. 10.48550/arXiv.2406.04594.Document de recherche Meta, « The Llama 3 Herd of Models », tableau 5. - Cette affirmation fait référence à la technologie utilisée dans les cartes réseau AMD Pensando Polara 400, mais les tests et les données ne sont pas spécifiques à cette carte en particulier. Les résultats peuvent varier.
Dubey, Abhihanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvik, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei. (2024). The Llama 3 Herd of Models. 10.48550/arXiv.2407.21783. - Open Compute Project® et OCP® sont des marques déposées de l'Open Compute Project Foundation.