Aceleradores para cómputo de alto rendimiento

EVOLUCIÓN, ADAPTACIÓN Y APRENDIZAJE

Una nueva era de cómputo heterogéneo para la inteligencia de las máquinas y HPC ha llegado de la mano de los procesadores de servidor EPYC™ y los aceleradores de GPU Radeon Instinct™.

AMD EPYC™Radeon Instinct™

Impulso en una nueva era de cómputo de escalamiento horizontal para HPC y aprendizaje profundo

Acelerar realmente el ritmo del aprendizaje profundo y abordar las necesidades amplias de los centros de datos requiere de una combinación de cómputo de alto rendimiento y aceleración por GPU optimizados para controlar cantidades masivas de datos con un gran volumen de computación de punto flotante que se pueda distribuir entre muchos núcleos. Actualmente, los diseñadores de sistemas grandes también necesitan la habilidad de diseñar sistemas eficaces con la flexibilidad y la amplitud de configurar sistemas que enfrenten el desafío de las cargas de trabajo sumamente exigentes de hoy.

AMD otorga esas capacidades a los diseñadores, lo que les permite elevar los estándares en las densidades de cómputo alcanzables a través de diseños de servidores optimizados con mayor rendimiento, menor latencia y mejor eficiencia en un entorno abierto y flexible. Gracias a la incorporación de los nuevos servidores basados en el procesador EPYC con aceleradores por GPU Radeon Instinct, combinados con la plataforma de software abierto ROCm, AMD marca el inicio de una nueva era de cómputo heterogéneo para HPC y aprendizaje profundo.

Aceleradores de servidor Radeon Instinct™ MI25

AMD cambia las reglas del juego con la presentación de Radeon Instinct, su nueva familia de productos basada en estándares abiertos. Los aceleradores Radeon Instinct, combinados con nuestro enfoque de cómputo heterogéneo basado en un ecosistema abierto, subenel listón en cuanto al rendimiento alcanzable, la eficiencia y la flexibilidad necesarios para diseñar sistemas capaces de hacer frente a las cargas de trabajo centradas en los datos de la actualidad.​

El nuevo acelerador Radeon Instinct MI25, basado en la arquitectura “Vega” de última generación de AMD, con su potente motor de cómputo en paralelo, es el principal acelerador de capacitación del mundo para aplicaciones de aprendizaje profundo a gran escala y es un caballo de batalla para las cargas de trabajo de HPC con un rendimiento de punto flotante máximo de 24,6 TFLOPS en FP16 y 12,3 TFLOPS en FP32.1 Al combinar esta potencia con la plataforma de software abierto ROCm y la arquitectura de memoria de la GPU más avanzada del mundo (HBM2 de 16 GB y ancho de banda de memoria de hasta 484 Gb/s), se obtiene la solución definitiva para las cargas de trabajo de cómputo de la actualidad.​

Puntos destacados de Radeon Instinct MI25:

  • Basado en “Vega”, la arquitectura de última generación de AMD con la arquitectura de memoria de la GPU más avanzada del mundo​
  • Rendimiento superior en FP16 y FP32 para HPC y aprendizaje profundo
  • Plataforma de software abierto ROCm para escalamiento en bastidor de clase HPC
  • Compatibilidad con BAR grande para mGPU punto a punto
  • Tecnologías de virtualización de hardware MxGPU SR-IOV para optimizar el uso del centro de datos

Nivel superior de rendimiento y densidad de cómputo por nodo cuando se combinan los nuevos servidores basados en procesador AMD EPYC™ con los aceleradores Radeon Instinct MI25

OBTENER Más información


 

Plataforma de software abierto ROCm

La plataforma de software abierto ROCm ofrece una base de fuente abierta para los diseños de sistemas de centro de datos de calidad mundial y para los sistemas de cómputo heterogéneo de clase HPC. La plataforma ROCm proporciona controladores, compiladores, herramientas y bibliotecas Linux® con rendimiento optimizado. La filosofía de diseño de software presente en ROC ofrece un enfoque con opciones de programación, minimalismo y desarrollo de software modular para un cómputo de aceleración por GPU optimizado.

Gracias a la combinación de este enfoque con la tecnología de MxGPU virtualizada de hardware seguro de AMD, los desarrolladores ahora pueden cambiar el modo en que diseñan los sistemas para alcanzar niveles de eficiencia más altos e impulsar un uso y capacidades optimizados del centro de datos.

Elementos de base de ROCm:
HSA Foundation logo ​ ROCm Platform logo
  • Controlador abierto desatendido Linux® de 64 bits y pila enriquecida de tiempo de ejecución del sistema para el cómputo a hiperescala y de clase HPC
  • Cómputo de múltiples GPU que admite la comunicación de entrada y salida entre nodo y servidor a través de RDMA con compatibilidad directa de sincronización de pares RDMA en el controlador
  • Modelo de programación más simple para brindar control a los desarrolladores cuando es necesario
  • Compiladores heterogéneos reales de HCC C++ de origen único para abarcar todo el sistema y no un solo dispositivo
  • Herramienta de conversión HIP CUDA con opciones de plataforma para usar la API de cómputo de GPU

La plataforma de software abierto ROCm proporciona una base sólida para implementaciones de centros de datos de inteligencia de las máquinas y HPC a gran escala con un controlador Linux abierto optimizado y un tiempo de ejecución del sistema ROCr enriquecido que no depende del lenguaje y usa masivamente la API de tiempo de ejecución de la arquitectura de sistema heterogéneo (HSA). Esto brinda una base sólida para ejecutar lenguajes de programación como HCC C++, OpenCL™ de Khronos Group, Anaconda Python de Continuum y la herramienta de conversión HIP CUDA.2

AMD mantiene un enfoque abierto para extender la compatibilidad de las características esenciales que se requieren para la aceleración de clase NUMA a sus aceleradores por GPU Radeon™ para las implementaciones de HPC y aprendizaje profundo. La plataforma ROCm ahora admite la nueva familia de productos de los aceleradores por GPU Radeon Instinct. También se siguen admitiendo las otras tarjetas gráficas AMD FirePro™ Serie S, Radeon™ Serie RX y Radeon™ Pro Duo. Visita el sitio web de ROCm para obtener una lista completa de las tarjetas de GPU compatibles.

OBTENER Más información


 

Compatibilidad con OpenCL™, OpenMP y OpenACC

OpenCL

AMD continúa admitiendo estos estándares en las ofertas de productos más recientes3. Creemos que la mayoría de las personas en la comunidad de HPC desean estándares abiertos como la mejor forma de ejecutar sus proyectos y simulaciones. AMD se compromete a respaldar este objetivo y trabaja arduamente con la comunidad para impulsar el progreso de los estándares abiertos.

 Aceleradores AMD FirePro™ Serie S

AMD FirePro™ S9300 x2

​Acelera las cargas de trabajo de HPC más complejas en análisis de datos o procesamiento sísmico con el acelerador por GPU de cómputo de precisión simple más rápido del mundo, GPU para servidores AMD FirePro™ S9300 x24,5 Aprovecha las diversas herramientas y bibliotecas disponibles, incluidas las herramientas ROCm, en nuestra página de desarrolladores en http://www.gpuopen.com/.

Uno de nuestros clientes, CGG, realizó una prueba recientemente. CGG es líder en la geociencia de punta y recientemente realizó una comparación de modelado de ecuación de onda interna en diferentes aceleradores por GPU, incluida la nueva GPU AMD FirePro™ S9300 x2. A medida que la complejidad de la ecuación de onda aumentaba, la ventaja de rendimiento también crecía a favor de la GPU AMD FirePro™ S9300 x2, hasta el punto en que duplicaba la rapidez de cualquier otra tarjeta hasta entonces probada.6

Wave Table 

Gráfico proporcionado por CGG

Aceleradores AMD FirePro™ S9100, S9150 y S9170

Aquellas personas que buscan un mayor rendimiento de precisión doble pueden optar por el acelerador AMD FirePro™ Serie S9100. AMD FirePro™ S9150, que impulsó la supercomputadora n.º 1 en la lista Green500 de 2014, supera con facilidad la competencia al ofrecer más del 50 % del rendimiento de precisión doble que su producto par Tesla K40. 7

Mira este video, una entrevista del Dr. David Rohr y el profesor Lindenstruth, donde hablan sobre el grupo L-CSC, la supercomputadora n.º 1 en la lista Green500 de 2014.

 

 

DGEMM, o la multiplicación matriz-matriz general de precisión doble, mide el índice de ejecución del punto flotante para la multiplicación matriz-matriz real de precisión doble. Existen muchas aplicaciones reales que aprovechan las operaciones de matriz de precisión doble. Estas incluyen dinámica de fluidos computacional, modelado estructural y análisis de elementos infinito, y dinámica molecular.

Con la implementación de AMD OpenCL BLAS, podemos alcanzar 2 TFLOPS de rendimiento DGEMM sostenido con la GPU AMD FirePro™ S9150, mientras que Tesla K40 alcanza 1,3 TFLOPS de DGEMM.

La GPU AMD FirePro™ S9170 es ideal para aquellas personas que necesitan mayor capacidad de multiplicación matriz-matriz, donde es posible aprovechar la amplia memoria de GDDR5 de 32 GB que posee esta tarjeta. Nvidia K80 y K40, con una memoria de 24 GB y 12 GB, respectivamente, no pueden computar matrices que sean mayores que lo que su pequeña memoria incorporada puede ejecutar.

 Especificaciones de AMD FirePro™ Serie S

Soluciones de GPU AMD FirePro™ para cómputos de alto rendimiento para servidores

Desde la investigación académica en dinámica de fluidos de cómputo hasta la industria de gas y petróleo que analiza el procesamiento sísmico y la simulación de reservorios, las GPU de servidor de Serie S AMD FirePro™ proporcionan una pila completa de productos que puede cumplir prácticamente con cualquiera de sus necesidades. Con un moderno rendimiento de cómputo de precisión simple y precisión doble, las GPU de servidor AMD FirePro son la solución para cualquier proyecto de cómputos complejos que requieren capacidades masivas de procesamiento paralelo en una GPU.​4​

​S9100​S9150S9170​​​​S9300 X2​
AMD FirePro™ S9300 x2
PROCESADORES DE TRANSMISIÓN GCN​2560​2816​2816​​8192​
PRECISIÓN SIMPLE (GFLOPS)​4220​5070​5240​​​​​13900​
​PRECISIÓN DOBLE  (GFLOPS)​2110​2530​2620​​870​
MEMORIA INTEGRADA​GDDR5 de 12 GB​GDDR5 de 16 GB​​GDDR5 de 32​ GB​​​​​​8 ​GB HBM​
​ECC​Sí (externo)​Sí (externo)Sí (externo)​​​No​
ANCHO DE BANDA DE MEMORIA (GB/S):​320​320​320​​1024​
INTERFAZPCIe 3.0, ranura doble​PCIe 3.0, ranura doble​PCIe 3.0, ranura doble​PCIe 3.0, ranura doble​
POTENCIA MÁX.​225W​235W​2​75W​300W​
​REFRIGER-ACIÓN​Difusor de calor pasivo​Difusor de calor pasivo​Difusor de calor pasivo​Difusor de calor pasivo​
RECOMENDADO PARA

Flujos de trabajo de precisión doble tales como:

Grupos académicos y gubernamentales

Gas y petróleo: simulación de reservorios

​Flujos de trabajo de precisión doble tales como:

Grupos académicos y gubernamentales

Gas y petróleo: simulación de reservorios

​Flujos de trabajo de precisión doble tales como:

Grupos académicos y gubernamentales

Gas y petróleo: simulación de reservorios​

​​Cargas de trabajo de precisión simple como:

Dinámica molecular

Geociencia

Redes neurales profundas y aprendizaje de máquina

 Dónde comprar

Los aceleradores AMD FirePro™ están disponibles en diversos OEM y SI, incluidos Dell, HPE y SuperMicro, entre otros.

Dell ​ ​ ​ ​​ ​HPE
 ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​ SuperMicro ​ ​ ​ ​​ 
​​

Para obtener más información sobre los servidores Dell equipados con la GPU AMD FirePro™, visita www.amd.com/dell-server

Para los servidores HPE equipados con la GPU AMD FirePro™, visita www.amd.com/hpe

  

  

  

  

  

Notas a pie de página