Un nuevo estándar en el rendimiento de la IA

Se espera que los clientes que invierten en aceleradores de IA lleguen a cifras de USD 500 000 millones para el 2028; en tan solo cuatro años, los aceleradores valdrán la mitad de un billón de dólares para las empresas. Los niveles de productividad, mejora y revolución que la IA está aportando a las empresas es incomparable, y los líderes de negocios lo saben. Es por eso que ya han invertido miles de millones, lo que ha transformado la forma en que trabajan. Millones de personas ya confían en los aceleradores AMD Instinct™ todos los días mediante el uso de aplicaciones que se ejecutan con modelos populares de IA, como GPT 4, Llama 3.1 405B y muchos de los más de un millón de modelos de código abierto en la plataforma Hugging Face.

Ese nivel de productividad se disparará. De hecho, con el lanzamiento de los nuevos aceleradores AMD Instinct™ MI325X, AMD se asegura de que ocurra antes de lo esperado.

Aceleradores AMD Instinct™ MI325X

Donde la memoria amplia se combina con el rendimiento líder

Los aceleradores AMD Instinct™ MI325X establecen un nuevo estándar cuando se trata del rendimiento de los modelos generativos de IA y los centros de datos. Fabricados con una arquitectura AMD CDNA™ de 3.ª generación, están diseñados para ofrecer un rendimiento y una eficiencia excepcionales en una amplia gama de tareas exigentes de IA, incluidos modelos de entrenamiento e inferencia. 

Tales aplicaciones de IA intensiva requieren mucha memoria, por lo que tendrás en tus manos 256 GB de capacidad de memoria de última generación HBM3e y 6 TB/s de ancho de banda líderes en la industria. Junto con la potencia de procesamiento y la amplia compatibilidad con los tipos de datos necesarios, los aceleradores AMD Instinct MI325X ofrecen los niveles de rendimiento que las empresas necesitan para prácticamente cualquier solución de IA1.

Cuando se comparan los aceleradores AMD Instinct MI325X con los productos de la competencia, se pueden observar mejoras de hasta 1,4 veces en el rendimiento de inferencia líder en modelos como Mixtral 8x7B, Mistral 7B y Meta Llama-3.1 70B2, 3, 4.

Si bien los números de rendimiento aumentan y la productividad lo hace junto con ellos, los clientes disfrutarán de la capacidad de memoria líder en la industria y los beneficios que ofrece; esto permite a los clientes utilizar menos GPU con grandes modelos de lenguaje de IA, se pueden utilizar clústeres más pequeños para lograr los mismos resultados o mejores que con los productos de la generación anterior5. En resumen, se genera una implementación más pequeña, implementaciones simplificadas y contribuciones a ahorros de energía. Los aceleradores AMD Instinct MI325X son la opción clara para las empresas que desean un rendimiento extremo sin un TCO extremo.

La plataforma de AMD Instinct™ MI325X

Una base líder de procesamiento inigualable

En la actualidad, los grandes modelos de lenguaje y la IA generativa requieren tres cosas para entregar resultados rápidos: aceleración rápida en varios tipos de datos, gran memoria y ancho de banda para manejar grandes conjuntos de datos y ancho de banda de E/S intensivo.

Con la plataforma que aloja estos nuevos aceleradores, los clientes obtienen las tres. La nueva placa base estándar de la industria (UBB 2.0) aloja hasta ocho aceleradores AMD Instinct™ MI325X y 2 TB de memoria HBM3e para ayudar a procesar incluso los modelos de IA más exigentes, y con ocho conexiones de E/S de host x16 PCIe® de 5.ª generación y la tecnología de malla AMD Infinity Fabric™ que proporciona conectividad directa entre cada acelerador, los cuellos de botella de datos son cosa del pasado.

En comparación con plataformas similares de la competencia, la plataforma MI325X ofrece 1,8 veces capacidad de memoria, 1,3 veces ancho de banda de memoria y un gran salto en el rendimiento de inferencia hasta 1,4 veces más alto. 6, 7, 8

Para los clientes que buscan actualizar desde la infraestructura de AMD Instinct existente, los aceleradores AMD Instinct MI325X ofrecen compatibilidad inmediata con la plataforma AMD Instinct™ MI300X, lo que permite que el tiempo de lanzamiento al mercado sea más rápido y minimiza los costosos cambios de infraestructura. 

Acelerador

Arquitectura

Memoria

Ancho de banda de memoria

Rendimiento FP8

Rendimiento FP16

AMD Instinct™ MI325X

AMD CDNA™ 3

256 GB de memoria HBM3e

6 TB/s

2,6 PF

1,3 PF


Plataforma AMD ROCm™

Aceleración de la inferencia y entrenamiento de la IA con software abierto

Los aceleradores AMD Instinct™ MI325X aprovechan la potencia del software AMD ROCm™, la base de la informática acelerada de AMD, lo que permite capacidades increíbles para los usuarios, ya sea que estén trabajando en aplicaciones de IA de última generación, modelos de IA de vanguardia u optimizando simulaciones complejas.

Los clientes que optan por aceleradores AMD pueden disfrutar de la compatibilidad desde el primer momento para marcos estándar de la industria, incluidos PyTorch y TensorFlow, lo que simplifica la migración e implementación de modelos de IA y requiere cambios mínimos de código. Además, la versión más reciente de AMD ROCm mejora aún más el entrenamiento en 1,8 veces y el rendimiento de inferencia de la GPU en 2,4 veces en aceleradores AMD Instinct, con compiladores, bibliotecas y compatibilidad de tiempo de ejecución optimizados, lo que ayuda a garantizar una rápida convergencia de modelos, predicciones precisas de modelos y una utilización increíblemente eficiente de la GPU9, 10.

¿Deseas obtener más información acerca de los aceleradores AMD Instinct™ MI325X? Visita AMD.com, o comunícate con tu representante de AMD para obtener más información y consultar disponibilidad.

AMD Arena


Mejora tus conocimientos de los productos AMD con capacitaciones sobre AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ y mucho más.

Artículos relacionados

Notas al pie
  1. Cálculos realizados por los laboratorios de rendimiento de AMD al 26 de septiembre del 2024, con base en las especificaciones o estimaciones actuales. El acelerador AMD Instinct™ MI325X OAM tendrá una capacidad de memoria HBM3e de 256 GB y un rendimiento teórico máximo del ancho de banda de memoria de GPU de 6 TB/s. Los resultados reales basados en silicio para producción pueden variar. Los resultados más altos publicados sobre el acelerador GPU NVidia Hopper H200 (141 GB) SXM arrojaron como resultado 141 GB de capacidad de memoria HBM3e y un rendimiento de ancho de banda de memoria de GPU de 4,8 TB/s.  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Los resultados más altos publicados sobre el acelerador GPU NVidia Blackwell HGX B100 (192 GB) 700 W arrojaron como resultado 192 GB de capacidad de memoria HBM3e y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s. Los resultados publicados más altos sobre el acelerador de GPU NVidia Blackwell HGX B200 (192 GB) arrojaron como resultado una capacidad de memoria HBM3e de 192 GB y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s. Especificaciones de Nvidia Blackwell en https://resources.nvidia.com/en-us-blackwell-architecture. MI325-001A

  2. MI325-004: Según las pruebas realizadas el 28/9/24 por los laboratorios de rendimiento de AMD en las que se midió el rendimiento generado por el texto para el modelo Mixtral-8x7B mediante el uso de un tipo de datos FP16. La prueba se realizó con una longitud de entrada de 128 tokens y una longitud de salida de 4096 tokens para el acelerador de GPU AMD Instinct™ MI325X y el acelerador de GPU NVIDIA H200 SXM. 1 MI325X a 1000 W con rendimiento de vLLM en comparación con 1 H200 a 700 W con TensorRT-LLM v0.13. Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede cambiar según el uso de los controladores más recientes y las optimizaciones. MI325-004

  3. MI325-005: Según las pruebas realizadas el 28/9/24 por el laboratorio de rendimiento de AMD en las que se midió la latencia general del modelo Mistral-7B con el uso de un tipo de datos FP16. La prueba se realizó con una longitud de entrada de 128 tokens y una longitud de salida de 128 tokens para el acelerador de GPU AMD Instinct™ MI325X y el acelerador de GPU NVIDIA H200 SXM. Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede cambiar según el uso de los controladores más recientes y las optimizaciones. MI325-005

  4. MI325-006: Según las pruebas realizadas el 28/9/24 por el laboratorio de rendimiento AMD en las que se midió la latencia general del modelo Llama 3.1-70B con el uso de un tipo de datos FP8. La prueba se realizó con una longitud de entrada de 2048 tokens y una longitud de salida de 2048 tokens para las siguientes configuraciones del acelerador de GPU AMD Instinct™ MI325X y el acelerador de GPU NVIDIA H200 SXM. Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede cambiar según el uso de los controladores más recientes y las optimizaciones. MI325-006

  5. MI325-003A: Estimaciones calculadas con base en el tamaño de la memoria únicamente de GPU en comparación con la memoria requerida por el modelo en parámetros definidos más un 10 % de sobrecarga. Los cálculos dependen de los tamaños de memoria del modelo publicado y, a veces, preliminar. Los resultados de PaLM 1, Llama 3.1 405B, Mixtral 8x22B y Samba-1 se calcularon en MI325X y H200 debido a la disponibilidad del sistema o de las piezas.

    Resultados (calculados):
    GPU requeridas: MI325X en comparación con H200
    PaLM-1 (540B) 5 9
    Llama 3.1 (405B) 4 7
    Mixtral 8x22B (141B) 2 3
    Samba-1 (1T) 9 16

    Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede cambiar según el uso de los controladores más recientes y las optimizaciones.

  6. MI325-001A: Cálculos realizados por los laboratorios de rendimiento de AMD al 26 de septiembre del 2024, con base en las especificaciones o estimaciones actuales. El acelerador AMD Instinct™ MI325X OAM tendrá una capacidad de memoria HBM3e de 256 GB y un rendimiento teórico máximo del ancho de banda de memoria de GPU de 6 TB/s. Los resultados reales basados en silicio para producción pueden variar. Los resultados más altos publicados del acelerador de GPU NVidia Hopper H200 (141 GB) SXM arrojaron como resultado 141 GB de capacidad de memoria HBM3e y un rendimiento de ancho de banda de memoria de GPU de 4,8 TB/s:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Los resultados más altos publicados sobre el acelerador GPU NVidia Blackwell HGX B100 (192 GB) 700 W arrojaron como resultado 192 GB de capacidad de memoria HBM3e y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s. Los resultados publicados más altos sobre el acelerador de GPU NVidia Blackwell HGX B200 (192 GB) arrojaron como resultado una capacidad de memoria HBM3e de 192 GB y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s. Especificaciones de Nvidia Blackwell en https://resources.nvidia.com/en-us-blackwell-architecture.

  7. MI325-002: Los cálculos realizados por los laboratorios de rendimiento de AMD al 28 de mayo del 2024 para la GPU AMD Instinct™ MI325X alcanzaron 1307,4 TFLOPS de máximo teórico de precisión media (FP16), 1307,4 TFLOPS de máximo teórico de precisión de formato Bfloat16 (BF16), 2614,9 TFLOPS de máximo teórico de precisión de formato de 8 bits (FP8) y 2614,9 TOPS de rendimiento de punto flotante INT8. El rendimiento real variará según las especificaciones finales y la configuración del sistema.
    Resultados publicados sobre la GPU Nvidia H200 SXM (141 GB): 989,4 TFLOPS de máximo teórico de precisión media de tensor (tensor FP16), 989,4 TFLOPS de máximo teórico de precisión de formato de tensor Bfloat16 (tensor BF16), 1978,9 TFLOPS de máximo teórico de precisión de 8 bits (FP8), 1978,9 TOPS de máximo teórico de rendimiento de punto flotante INT8. Nvidia publicó el rendimiento de BFLOAT16 Tensor Core, FP16 Tensor Core, FP8 Tensor Core e INT8 Tensor Core usando escasez; a los efectos de comparación, AMD convirtió estos números a no escasez/densidad dividiéndolos por dos, y estos números aparecen arriba.
    Fuente de Nvidia H200: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 y https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024

    Nota: Las GPU NVIDIA H200 tienen el mismo rendimiento de FLOPS publicado que los productos H100 https://resources.nvidia.com/en-us-tensor-core. MI325-002

  8. MI325-014: Según las pruebas realizadas el 8/10/24 por el laboratorio de rendimiento de AMD en las que se midió el rendimiento generado por el texto para el modelo Llama 3.1-405B con el uso de un tipo de datos FP8. La prueba se realizó utilizando una longitud de entrada de 128 tokens y una longitud de salida de 2048 tokens para las siguientes configuraciones de la plataforma AMD Instinct™ MI325X con 8xGPU y la plataforma GPU NVIDIA H200 HGX. Plataforma MI325X con ocho GPU con rendimiento vLLM en comparación con resultados publicados por NVIDIA. Configuraciones: Plataforma MI325X con ocho GPU. Configuración: Dell PowerEdge XE9680 con dos procesadores Intel Xeon Platinum 8480+, ocho GPU AMD Instinct MI325X (256 GiB, 1000 W), Ubuntu 22.04 y una compilación preliminar de ROCm 6.3 en comparación con los resultados publicados por Nvidia para TensorRT-LLM v0.13 se capturaron de: https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md 3039,7 tokens de salida/s. Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede cambiar según el uso de los controladores más recientes y las optimizaciones. MI325-014

  9. MI300-61: Mediciones realizadas por el equipo de administración de productos de IA de AMD en la GPU AMD Instinct™ MI300X para comparar el rendimiento de grandes modelos de lenguaje (LLM) con metodologías de optimización habilitadas y deshabilitadas a partir del 28/9/24 en Llama 3.1-70B y Llama 3.1-405B y vLLM 0.5.5.

    Configuración del sistema:
    Procesador AMD EPYC 9654 de 96 núcleos, ocho AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Lun 1 Jul 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, frecuencia turbo: activada. El rendimiento puede variar según los factores que incluyen, entre otros, las diferentes versiones de configuraciones, vLLM y los controladores.

  10. MI300-62: Pruebas realizadas por laboratorios internos de rendimiento de AMD al 29 de septiembre del 2024, comparación de rendimiento de inferencia entre el software ROCm 6.2 y el software ROCm 6.0 en los sistemas con ocho GPU AMD Instinct™ MI300X junto con Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B y modelos Qwen 72B. El rendimiento de ROCm 6.2 con vLLM 0.5.5 se midió en comparación con el rendimiento con ROCm 6.0 con vLLM 0.3.3, y las pruebas se realizaron en tamaños de lote de 1 a 256 y longitudes de secuencia de 128 a 2048.

    Configuraciones:
    Servidor de CPU AMD EPYC™ 9534 de 1P con ocho GPU AMD Instinct™ MI300X (192 GB, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA por socket), 1,5 TiB (24 DIMM, 4800 mts de memoria, 64 GiB/DIMM), almacenamiento de cuatro Micron 7450 de 3,49 TB, versión del BIOS: 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS con Linux kernel 5.15.0-119-genérico.
    frente a
    servidor con CPU AMD EPYC 9534 de 1P con ocho GPU AMD Instinct™ MI300X (192 GB, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA por socket), 1,5 TiB, 24 DIMM, 4800 mts de memoria, 64 GiB/DIMM), almacenamiento de cuatro Micron 7450 de 3,49 TB, versión del BIOS: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS con Linux kernel 5.15.0-119-genérico.

    Los fabricantes de servidores pueden variar las configuraciones, lo que arroja resultados diferentes. El rendimiento puede variar según factores que incluyen, entre otros, diferentes versiones de configuraciones, vLLM y controladores.

    DESCARGO DE RESPONSABILIDAD: La información que se presenta aquí solamente se ofrece con fines informativos y está sujeta a cambios sin previo aviso. Si bien se han tomado todos los recaudos necesarios en la preparación de este documento, su contenido puede contener imprecisiones técnicas, omisiones y errores tipográficos, y AMD no está obligado a actualizarlo ni corregirlo. Advanced Micro Devices, Inc. no realiza declaraciones ni otorga garantías con respecto a la exactitud o integridad del contenido de este documento, ni asume responsabilidad de ningún tipo, incluidas las garantías implícitas de no violación, comerciabilidad o idoneidad para un fin específico, respecto del funcionamiento o el uso de hardware, software u otros productos de AMD descritos aquí. Este documento no otorga ninguna licencia referente a derechos de propiedad intelectual, incluidas las implícitas o que surjan de un impedimento legal. Los términos y las limitaciones aplicables a la compra o el uso de productos AMD son los que se establecen en un acuerdo firmado entre las partes o los Términos y condiciones de venta estándar de AMD. GD-18u.

    © 2024 Advanced Micro Devices, Inc. Todos los derechos reservados. AMD, el logotipo de la flecha de AMD, EPYC, Instinct, ROCm y sus combinaciones son marcas comerciales de Advanced Micro Devices, Inc. Los demás nombres se proporcionan solo con fines de identificación y pueden ser marcas comerciales de sus respectivos propietarios. Algunas tecnologías AMD pueden requerir activación o habilitación por parte de terceros. Las funciones compatibles pueden variar según el sistema operativo. Confirma las funciones específicas con el fabricante del sistema. Ninguna tecnología o producto puede ser completamente seguro.