Potenciar la infraestructura de IA de escalabilidad horizontal

La AI NIC AMD PensandoTM Pollara 400 está diseñada para acelerar las aplicaciones que se ejecutan en nodos de IA en los centros de datos de megaescala y gigaescala, con velocidades de Ethernet que llegan hasta los 400 Gigabit por segundo (Gb/s).

Creada con el motor comprobado Pensando P4 de tercera generación totalmente programable por hardware, la AI NIC AMD Pensando Pollara 400 ofrece un rendimiento líder en la industria con la flexibilidad de programarla para cumplir con los requisitos futuros, lo que ayuda a maximizar las inversiones en infraestructura para hiperescaladores, empresas, proveedores de servicios en la nube e investigadores. 

Ultra Ethernet Consortium logo

La primera AI NIC de la industria que ofrece funciones de Ultra Ethernet Consortium (UEC)

La AI NIC AMD Pensando™ Pollara 400 es la primera NIC con IA de la industria compatible con Ultra Ethernet Consortium (UEC). Con su programabilidad, la AMD AI NIC™ permite a los clientes seleccionar las funciones de UEC para llevar inteligencia al monitoreo de red y al ajuste del rendimiento. A través del motor P4 totalmente programable, la AMD AI NIC permite a los clientes actualizar cualquier AI NIC AMD Pensando™ Pollara 400 para cumplir con los nuevos estándares de la industria, incluidos los establecidos por UEC.

AMD AI NIC™ en el punto de mira

El papel fundamental de la programabilidad de NIC en la escalabilidad horizontal para la IA de las redes de centros de datos

Se están construyendo infraestructuras para alojar cargas de trabajo de IA. En la escalabilidad horizontal efectiva, las redes juegan un papel fundamental, y esas redes se están inclinando hacia Ethernet. Sin embargo, la creación de redes efectivas no se trata solo de interruptores: la creación de funcionalidades avanzadas en tarjetas de interfaz de red es una estrategia de diseño esencial. Jim Frey, analista principal de Redes Empresariales en Enterprise Strategy Group by TechTarget, comparte su perspectiva sobre por qué cree que las NIC programables de AMD representan un camino optimizado hacia el éxito.

Acelera el rendimiento de IA a escala

Rendimiento en cargas de trabajo de IA

Con velocidades de comunicación de GPU a GPU de 400 Gb/s, la AI NIC AMD Pensando™ Pollara 400 puede acelerar los tiempos de finalización de los trabajos, a la vez que capacita los modelos de IA más grandes, implementa el modelo de IA de próxima generación o investiga avances de vanguardia con redes diseñadas para acelerar las cargas de trabajo de IA.

Gasto de capital más bajo

Diseñada para satisfacer las necesidades de las cargas de trabajo de IA del presente y el futuro, la AI NIC AMD Pensando™ Pollara 400 es compatible con un ecosistema abierto, lo que permite a los clientes reducir el gasto de capital al tiempo que se mantienen flexibles ante la escalabilidad de la infraestructura futura. 

Monitoreo de red inteligente

Ahorra tiempo en las tareas tradicionales de monitoreo de red y ajuste de rendimiento. La AI NIC AMD Pensando™ Pollara 400 equilibra las cargas de las redes mientras monitorea las métricas, lo que permite a los equipos identificar y abordar de forma proactiva los posibles problemas de red antes de que crezcan y se conviertan en interrupciones críticas.

Monitoreo de red inteligente y equilibrio de carga

Distribución de paquetes inteligente

La distribución de paquetes inteligente permite a los equipos optimizar sin interrupciones el rendimiento de la red mejorando el equilibrio de carga y aumentando la eficiencia general y la escalabilidad. El rendimiento mejorado de la red puede reducir significativamente los tiempos de comunicación de GPU a GPU, lo que lleva a una finalización de los trabajos más rápida y una mayor eficiencia operativa.

AI technology concept
Manejo de paquetes fuera de orden y entrega de mensajes en orden

Asegúrate de que los mensajes se entreguen en el orden correcto, incluso cuando se emplean técnicas de creación de varias rutas y de distribución de paquetes. La función avanzada de entrega de mensajes fuera de orden procesa de manera eficiente los paquetes de datos que pueden llegar fuera de secuencia al colocarlos directamente en la memoria de la GPU sin interrupciones y sin necesidad de almacenamiento en búfer.

Programming code abstract technology background of software developer and  Computer script
Retransmisión selectiva

Aumenta el rendimiento de la red con la retransmisión de reconocimiento selectivo (SACK), que garantiza que solo se retransmitan los paquetes perdidos o dañados. SACK detecta y reenvía de manera eficiente los paquetes perdidos o dañados, lo que optimiza la utilización del ancho de banda y ayuda a reducir la latencia durante la recuperación de pérdidas de paquetes y a minimizar la transmisión de datos redundante para lograr una eficiencia excepcional.

Abstract illustration of a data stream
Control de congestión con reconocimiento de rutas

Concéntrate en las cargas de trabajo, no en el monitoreo de red, con telemetría en tiempo real y algoritmos con reconocimiento de red. La función de control de congestión con reconocimiento de rutas simplifica la gestión del rendimiento de la red, lo que les permite a los equipos detectar y abordar rápidamente los problemas críticos al tiempo que mitigan el impacto de los casos de incast. 

Abstract data center concept
Detección rápida de fallos 

Con la detección rápida de fallos, los equipos pueden identificar los problemas en milisegundos, lo que permite que la recuperación de las conmutaciones por errores sea casi instantánea y reduce significativamente el tiempo de inactividad de la GPU. Aprovecha la observabilidad de red elevada con las métricas de latencia casi en tiempo real y las estadísticas de congestión y caída. 

Digital cyberspace and digital data network connections

Aumenta el rendimiento de IA y la confiabilidad de la red

Hasta
15 % más de rapidez en el rendimiento de trabajo de IA 1

Mejora el rendimiento en tiempo de ejecución en ≈un 15 % para ciertas aplicaciones. Con funciones que incluyen el equilibrio de carga de red inteligente y la recuperación rápida de conmutaciones por errores y pérdidas, la AI NIC AMD Pensando Pollara 400 ayuda a acelerar las cargas de trabajo al tiempo que maximiza las inversiones en IA. 

Hasta
10 % de mejora de la confiabilidad de la red 2

Gana hasta un 10 % de tiempo de actividad de la red mejorado. Con la AI NIC AMD Pensando Pollara 400, minimizas el tiempo de inactividad del clúster mientras aumentas la resistencia y la disponibilidad de la red con RAS (reliability, availability and serviceability, confiabilidad, disponibilidad y facilidad de mantenimiento) de última generación y recuperación rápida ante fallos.  

Especificaciones de la AI NIC AMD Pensando™ Pollara 400

Ancho de banda máximo  Formato Interfaz Ethernet  Velocidades de Ethernet Configuraciones de Ethernet  Administración
400 Gb/s Altura media, longitud media  PCIe® Gen 5.0 x16 25/50/100/200/400 Gb/s

Admite hasta 4 puertos
- 1 unidad de 400 G
- 2 unidades de 200 G
- 4 unidades de 100 G
- 4 unidades de 50 G
- 4 unidades de 25 G

MCTP en SMBus

Explora el conjunto completo de soluciones de redes de AMD diseñadas para centros de datos modernos de alto rendimiento.

Recursos

Desbloquea el futuro de las redes de IA

Descubre cómo la AI NIC AMD Pensando Pollara 400 puede transformar tu infraestructura de IA de escalabilidad horizontal.

Notas al pie
  1. Dong, Jianbo y Luo, Bin y Zhang, Jun y Zhang, Pengcheng y Feng, Fei y Zhu, Yikai y Liu, Ang y Chen, Zian y Shi, Yi y Jiao, Hairong y Lu, Gang y Guan, Yu y Zhai, Ennan y Xiao, Wencong y Zhao, Hanyu y Yuan, Man y Yang, Siran y Li, Xiang y Wang, Jiamang y Fu, Binzhang. (2024). Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach. 10.48550/arXiv.2406.04594. Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach https://arxiv.org/pdf/2406.04594. La afirmación refleja la tecnología utilizada en las NIC AMD Pensando Pollara 400, sin embargo, las pruebas y los datos no son específicos de Pollara 400. Los resultados pueden variar.
  2. Dubey, Abhimanyu y Jauhri, Abhinav y Pandey, Abhinav y Kadian, Abhishek y Al-Dahle, Ahmad y Letman, Aiesha y Mathur, Akhil y Schelten, Alan y Yang, Amy y Fan, Angela y Goyal, Anirudh y Hartshorn, Anthony y Yang, Aobo y Mitra, Archi y Sravankumar, Archie y Korenev, Artem y Hinsvark, Arthur y Rao, Arun y Zhang, Aston y Zhao, Zhiwei. (2024). The Llama 3 Herd of Models. 10.48550/arXiv.2407.21783. Artículo de investigación de Meta, “The Llama 3 Herd of Models”, Tabla 5.  La afirmación refleja la tecnología utilizada en las NIC AMD Pensando Pollara 400, sin embargo, las pruebas y los datos no son específicos de Pollara 400. Los resultados pueden variar.