El NLHPC de Chile aumenta el rendimiento de las investigaciones con AMD

El Laboratorio Nacional de Computación de Alto Rendimiento de Chile duplicó su rendimiento de investigación científica por vatio con las CPU AMD EPYC™ y las GPU AMD Instinct™

La computación de alto rendimiento está impulsando la investigación académica en todo el mundo. Un país de América del Sur que desempeña un papel destacado es Chile, gracias a su Laboratorio Nacional de Computación de Alto Rendimiento (NLHPC, alojado en el Centro de Modelado Matemático [CMM] de la Universidad de Chile). Al igual que todas las instituciones que dependen de fondos públicos, el NLHPC necesita el mejor rendimiento que pueda obtener mientras se mantiene dentro de los objetivos nacionales de sostenibilidad. Las CPU AMD EPYC™ y las GPU AMD Instinct™ entregaron todo lo que el NLHPC requería en su implementación más reciente de computación de alto rendimiento.

“Llevamos 15 años proporcionando recursos informáticos a la comunidad científica de Chile”, dice Ginés Guerrero, jefe ejecutivo del NLHPC. “La Universidad de Chile es el socio principal, pero otras 44 universidades están asociadas con nosotros hoy en día y alojan prácticamente a todos los investigadores científicos de Chile. Nos financia la Agencia Nacional de Investigación y Desarrollo (ANID) del país”. La amplia gama de sus cargas de trabajo hace que los requisitos informáticos del NLHPC sean particularmente complejos. “La cantidad y la diversidad de usuarios es un reto. Nuestros 500 usuarios provienen de 40 áreas diferentes de investigación, como química cuántica, bioinformática, astronomía, nanotecnología y física”.

Universidad de Chile Case Study
Los procesadores AMD han permitido que el centro de datos del NLHPC duplique el rendimiento por vatio

Rendimiento dos veces mayor por vatio

“Una de las cargas de trabajo más intensas está relacionada con abordar el cambio climático y el descubrimiento de nuevos materiales”, dice Guerrero. “Por ejemplo, los investigadores están investigando material fotovoltaico que captura la energía solar de manera más eficiente. La astronomía también es muy importante en Chile. Tenemos uno de los mejores cielos para estudiar las estrellas. Tenemos muchos telescopios muy destacados que cuentan con financiamiento internacional. En astrocomputación, observamos la formación de galaxias. Se escribieron muchos documentos sobre agujeros negros muy profundos y sobre las imágenes obtenidas de telescopios. Esto incluye ALeRCE (Automatic Learning for the Rapid Classification of Events, Aprendizaje Automático para la Clasificación Rápida de Eventos), que es un corredor astronómico que maneja todas las imágenes de los telescopios. Estas deben analizarse en tiempo real, para que ALeRCE pueda enviar alertas de cualquier cambio, como supernovas”.

“Siendo el Laboratorio Nacional de Computación de Chile, debemos estar al día con lo que está sucediendo en el hardware de computación de alto rendimiento”, dice Guerrero. “El equipo de AMD nos ha informado de manera proactiva sobre los avances más recientes en su tecnología. Cuando empezamos a buscar CPU AMD EPYC de 4.ª generación, el equipo nos puso al día con respecto a las capacidades AVX‑512 de la CPU. También nos preocupaba cambiar las GPU, ya que habíamos usado nuestro proveedor anterior durante mucho tiempo. Por lo tanto, el equipo de AMD nos comunicó con ingenieros estadounidenses que nos ayudaron a hacer la transición sin interrupciones una vez que comenzamos a integrar las GPU de AMD en nuestro sistema”.

El NLHPC probó los procesadores AMD EPYC de 4.ª generación y las GPU AMD Instinct MI210. “Cuando instalamos los servidores y ejecutamos las pruebas, nos sorprendieron los resultados”, dice Guerrero. Durante el proceso de licitación, el rendimiento fue el factor clave, pero la eficiencia energética desempeñó un papel importante. “Nuestras pruebas fueron muy diversas. Habíamos compilado al menos 100 cargas de trabajo. Todos los usuarios dijeron que el rendimiento era mucho mejor con las CPU AMD EPYC, y también empleamos la evaluación comparativa LINPACK. Cuando ejecutamos esto en la arquitectura anterior, vimos que el rendimiento era hasta un 60 por ciento más bajo que el máximo teórico. Gracias al clúster actual con tecnología de CPU AMD EPYC de 4.ª generación, obtuvimos más del 100 por ciento del máximo teórico. La energía que necesitaba el clúster anterior también era el doble de la nueva para los mismos resultados. Con las CPU AMD EPYC, obtuvimos cuatro veces más rendimiento con LINPACK con solo el doble de energía”.

Universidad de Chile Case Study
Las CPU AMD EPYC aceleran la investigación del NLHPC sobre el funcionamiento del universo.

Impulsar el progreso científico de Chile

“Con las CPU AMD EPYC, muchas de nuestras cargas de trabajo podrían ejecutarse de inmediato”, dice Guerrero. “Pero una vez que recompilamos aplicaciones con GNU Complier Collection o AMD Optimizing C/C++ Compiler, obtuvimos un rendimiento mucho mejor que el código de nuestro compilador anterior. Con las GPU AMD Instinct, era necesario utilizar un nuevo software. Así que implementamos los contenedores que fueron proporcionados por el AMD Infinity Hub. Las plataformas disponibles con el software AMD ROCm™ fueron la mejor opción para esta conversión”.

El nuevo clúster del NLHPC ejecuta 27 servidores Lenovo ThinkSystem SR645 V3 con CPU dobles AMD EPYC 9754 de 4.ª generación de 128 núcleos y 768 GB de memoria cada una, para un total de 6912 núcleos para nodos de procesamiento y acceso. Sus dos servidores de GPU Lenovo ThinkSystem SR675 V3 ejecutan CPU dobles AMD EPYC 9224 de 4.ta generación de 24 núcleos con seis GPU AMD Instinct MI210 cada una, lo que constituye 12 aceleradores. El sistema de refrigeración por agua Neptune, de Lenovo, se utilizó para mantener las temperaturas de funcionamiento de la CPU y la GPU durante cargas de trabajo de IA intensivas.

“Lo más importante para nosotros es poder contribuir al progreso científico de Chile”, dice Guerrero. “Cuantos más recursos podamos ofrecer, mayor será el impacto que tendrá en toda la comunidad”. Los comentarios de los científicos de Chile han sido muy positivos. “Un usuario que ejecuta el Modelo WRF (Weather Research & Forecasting, Investigación y Pronóstico Meteorológicos) nos dijo que su carga de trabajo se estaba ejecutando mucho más rápido que antes. El modelo NAMD (Nanoscale Molecular Dynamics, Dinámicas Moleculares de Nanoescala) fue otra aplicación de software que mostró un gran rendimiento”.

Universidad de Chile Case Study
El NLHPC aprovecha el rendimiento de las CPU AMD EPYC para la ciencia del clima de procesamiento intensivo.

Hacia un futuro brillante de la investigación con AMD

El nuevo clúster está mejorando la forma en que los investigadores implementan sus cargas de trabajo. “Si tenemos muchos núcleos en un servidor, podemos ejecutar tareas de memoria compartida”, dice Guerrero. “Con las CPU AMD EPYC, ahora podemos usar 256 núcleos en una sola tarea. La mayoría de nuestros usuarios no usan MPI. Ejecutan tareas de memoria compartida. Si tienen más de 200 núcleos en un servidor, pueden usar 200 unidades de procesamiento. Esto era imposible cuando solo teníamos servidores con 40 núcleos, como nuestras CPU anteriores. Es un excelente beneficio”. Los aceleradores AMD Instinct del NLHPC también están ofreciendo un mayor rendimiento por vatio. “Con las GPU AMD Instinct MI210, podemos ejecutar más operaciones de punto flotante por segundo con más eficiencia energética. La mayoría de nuestros usuarios emplean esa tecnología para la dinámica molecular”.

“Suelo usar una frase que dice: ʻSi no procesas, no compitesʹ”, explica Guerrero. “Si no invertimos en informática y avanzamos, seremos menos competitivos en el escenario mundial”. En Chile, hay una competencia que destina USD 7 millones a la compra de infraestructura utilizando más GPU para cargas de trabajo emergentes como la IA, y por supuesto, vamos a participar en esta competencia. “Con la IA actual, hay países que invierten enormes cantidades de dinero para aumentar la capacidad informática. Esto tiene un impacto para la industria, el Estado, la investigación y todos los ciudadanos. Estados Unidos, Europa y China son los líderes, pero en América Latina todavía queda mucho por hacer y estamos trabajando sin parar para garantizar que se consigan avances.

Guerrero ve un futuro brillante en el que la relación entre el NLHPC y AMD los llevará a esta próxima fase. “En la lista del Top 500 de todas las supercomputadoras del mundo, está claro que los procesadores AMD están ganando terreno”, dice Guerrero. “Están cada vez más presentes. Si nos fijamos en lo que está sucediendo a nivel mundial, deberíamos considerar la integración de la tecnología AMD porque los resultados que hemos obtenido son muy positivos. AMD ha hecho un trabajo sensacional. La arquitectura es impecable. Esto significa un avance general para que la sociedad tenga una mejor informática. La colaboración entre el NLHPC y el equipo de ingeniería de AMD fue la clave para ofrecer la mejor solución con más rendimiento y la mejor eficiencia energética. Realmente ha sido increíble”.

Universidad de Chile Case Study
Las GPU AMD Instinct brindaron la aceleración que necesitaba el NLHPC para las cargas de trabajo de dinámica molecular

Acerca del cliente


El Laboratorio Nacional de Computación de Alto Rendimiento (NLHPC) de Chile es el principal centro de supercomputación del país. Proporciona recursos informáticos avanzados para apoyar la investigación científica, la innovación y el desarrollo tecnológico. El NLHPC sirve a la comunidad científica nacional, agencias gubernamentales e industrias, fomentando la colaboración e impulsando avances en áreas como el modelado climático, la astrofísica y la genómica. Su misión es democratizar el acceso a la computación de alto rendimiento y, así, posibilitar la investigación de vanguardia y contribuir al progreso científico y económico de Chile. Para obtener más información, visita nlhpc.cl.

Perfil del caso de estudio


  • Sector:
    Investigación científica
  • Desafíos:
    Mejorar el rendimiento y el consumo de energía para la investigación científica en Chile
  • Solución:
    Implementar servidores Lenovo ThinkSystem SR675 V3 y SR645 V3 con tecnología de procesadores AMD EPYC de 4.ª generación y GPU AMD Instinct
  • Resultados:
    El doble de rendimiento con el mismo consumo energético que la infraestructura anterior del centro de datos
  • Tecnología AMD utilizada:
    CPU AMD EPYC 9754 de 4.ª generación (nodos de procesamiento y acceso) y AMD EPYC 9224 (host de GPU)
    GPU AMD Instinct MI210
  • Socio tecnológico:
Lenovo

¿Deseas obtener más información sobre lo que AMD puede hacer por tu centro de datos?