O NLHPC do Chile impulsionou o desempenho da pesquisa com a AMD
O National Laboratory for HPC no Chile dobrou seu desempenho em pesquisa científica por watt com as CPUs AMD EPYC™ e as GPUs AMD Instinct™
A computação de alto desempenho está impulsionando a pesquisa acadêmica em todo o mundo. Um país na América do Sul que desempenha um papel de destaque é o Chile por meio do NLHPC (National Laboratory for HPC), sediado no CMM (Mathematical Modeling Center) da Universidad de Chile. Como todas as instituições que dependem de financiamento público, o NLHPC precisa do melhor desempenho possível, mantendo-se dentro das metas nacionais de sustentabilidade. As CPUs AMD EPYC™ e as GPUs AMD Instinct™ entregaram tudo o que o NLHPC precisava em sua mais recente implantação de HPC.
"Há 15 anos fornecemos recursos de computação à comunidade científica no Chile", afirma Ginés Guerrero, diretor executivo do NLHPC. "A Universidad de Chile é nossa principal parceira, mas atualmente temos outras 44 universidades associadas, contemplando praticamente todos os pesquisadores científicos no Chile. Somos financiados pela Agência Nacional de Pesquisa e Desenvolvimento (ANID) do país." A ampla variedade de cargas de trabalho torna os requisitos de computação do NLHPC particularmente complexos. "O número e a diversidade de usuários são desafiadores. Nossos 500 usuários vêm de 40 áreas diferentes de pesquisa, como química quântica, bioinformática, astronomia, nanotecnologia e física."

Desempenho dobrado por watt
"Uma das cargas de trabalho mais intensas está relacionada à abordagem das mudanças climáticas e à descoberta de novos materiais", diz Guerrero. "Por exemplo, os pesquisadores estão investigando materiais fotovoltaicos que capturam a energia solar de forma mais eficiente. A astronomia também é muito importante no Chile. Temos um dos melhores céus para estudar as estrelas. Temos vários telescópios muito importantes financiados internacionalmente. Na astroinformática, observamos a formação das galáxias. Muitos artigos foram escritos sobre buracos negros supermassivos e sobre as imagens obtidas por telescópios. Isso inclui o ALeRCE (Automatic Learning for the Rapid Classification of Events), que é um corretor astronômico que processa todas as imagens dos telescópios. Elas precisam ser analisadas em tempo real, para que o ALeRCE possa enviar alertas de quaisquer alterações, como supernovas."
"Como Laboratório Nacional de Computação no Chile, devemos nos manter atualizados com o que está acontecendo no hardware de HPC", diz Guerrero. "A equipe da AMD tem sido muito proativa em nos informar sobre os mais recentes avanços em sua tecnologia. Quando começamos a analisar as CPUs AMD EPYC de 4a geração, a equipe nos informou sobre os recursos AVX-512 da CPU. Também estávamos preocupados em trocar de GPUs, já que usávamos nosso fornecedor anterior há muito tempo. Então, a equipe da AMD nos colocou em contato com engenheiros dos EUA para ajudar a fazer uma transição suave quando começássemos a integrar as GPUs AMD ao nosso sistema."
O NLHPC testou os processadores AMD EPYC de 4a geração e as GPUs AMD Instinct MI210. "Quando estávamos instalando os servidores e executando os testes, ficamos surpresos com os resultados", afirma Guerrero. Durante o processo de licitação, o desempenho foi o principal fator, mas a eficiência energética desempenhou um papel importante. "Nossos testes foram muito diversificados. Compilamos pelo menos 100 cargas de trabalho. Todos os usuários disseram que o desempenho era muito melhor com as CPUs AMD EPYC, e também utilizamos o valor de referência LINPACK. Quando executamos isso na arquitetura anterior, vimos que o desempenho era até 60% menor do que o máximo teórico. Com o cluster atual equipado com CPUs AMD EPYC de 4a geração, obtivemos mais de 100% do máximo teórico. A energia que o cluster anterior necessitava também era o dobro do novo cluster para obter os mesmos resultados. Com as CPUs AMD EPYC, obtivemos quatro vezes mais desempenho com o LINPACK com apenas o dobro da energia."

Impulsionando o progresso científico do Chile
"Com as CPUs AMD EPYC, muitas de nossas cargas de trabalho puderam ser executadas imediatamente", diz Guerrero. "Mas, depois que recompilamos os aplicativos com o GNU Compiler Collection ou o AMD Optimizing C/C++ Compiler, obtivemos um desempenho muito melhor do que o código do nosso compilador anterior. Com as GPUs AMD Instinct, foi necessário usar um novo software. Por isso, implantamos os contêineres fornecidos pelo AMD Infinity Hub. As plataformas disponíveis com o software AMD ROCm™ foram a melhor escolha para essa conversão."
O novo cluster do NLHPC executa 27 servidores Lenovo ThinkSystem SR645 V3 com CPUs AMD EPYC 9754 duplas de 128 núcleos de 4a geração e 768 GB de memória cada, totalizando 6.912 núcleos para nós de computação e acesso. Seus dois servidores de GPU Lenovo ThinkSystem SR675 V3 executam CPUs AMD EPYC 9224 duplas de 24 núcleos de 4a geração com seis GPUs AMD Instinct MI210 cada, totalizando 12 aceleradores. O sistema de resfriamento a água Neptune da Lenovo foi usado para manter as temperaturas operacionais da CPU e da GPU durante as intensas cargas de trabalho de IA.
"O mais importante para nós é poder contribuir para o progresso científico do Chile", afirma Guerrero. "Quanto mais recursos pudermos oferecer, maior será o impacto em toda a comunidade." O feedback dos cientistas do Chile tem sido extremamente positivo. "Um usuário que executa o modelo WRF (Weather Research & Forecasting) nos disse que sua carga de trabalho estava sendo executada muito mais rapidamente do que antes. O modelo NAMD (Nanoscale Molecular Dynamics) foi outro aplicativo de software que apresentou ótimo desempenho."

Rumo a um futuro de pesquisa brilhante com a AMD
O novo cluster está melhorando a forma como os pesquisadores implementam suas cargas de trabalho. "Se tivermos muitos núcleos em um servidor, poderemos executar tarefas de memória compartilhada", diz Guerrero. "Com as CPUs AMD EPYC, agora podemos usar 256 núcleos em uma única tarefa. A maioria de nossos usuários não usa MPI. Eles iniciam tarefas de memória compartilhada. Se eles tiverem mais de 200 núcleos em um servidor, poderão usar 200 unidades de computação. Isso era impossível quando tínhamos apenas servidores com 40 núcleos, como nossas CPUs anteriores. Essa é uma grande vantagem." Os aceleradores AMD Instinct do NLHPC também estão oferecendo maior desempenho por watt. "Com as GPUs AMD Instinct MI210, podemos executar mais operações de ponto flutuante por segundo com mais eficiência de energia. A maioria dos nossos usuários emprega essa tecnologia para a dinâmica molecular."
"Costumo usar uma frase que pode ser traduzida do espanhol como 'se você não computa, você não compete'", declara Guerrero. "Se não investirmos em computação e não avançarmos, seremos menos competitivos no cenário mundial." No Chile, há uma competição que oferece US$ 7 milhões para a compra de infraestrutura usando mais GPUs para cargas de trabalho emergentes, como IA, e é claro que participaremos dessa competição. "Atualmente, com a IA, vemos países investindo enormes quantias de dinheiro para aumentar a capacidade de computação. Isso tem um impacto para o setor, para o estado, para a pesquisa e para todos os cidadãos. Os EUA, a Europa e a China são os líderes, mas na América Latina ainda há muito a ser feito, e estamos trabalhando incansavelmente para que tenhamos progresso.
Guerrero vê um futuro brilhante para o relacionamento entre o NLHPC e a AMD para entregar essa próxima fase. "Na lista dos 500 supercomputadores mais potentes do mundo, está claro que os processadores AMD estão ganhando espaço", diz Guerrero. "Eles estão cada vez mais presentes. Se você observar o que está acontecendo globalmente, deve considerar a integração da tecnologia AMD, pois os resultados que obtivemos são muito positivos. A AMD fez um trabalho sensacional. A arquitetura é impecável. Isso significa um avanço geral para a sociedade ter uma computação melhor. A colaboração entre o NLHPC e a equipe de engenharia da AMD foi fundamental para oferecer a melhor solução com mais desempenho e a melhor eficiência de energia. Foi realmente incrível."

Sobre o cliente
O NLHPC (National Laboratory for High Performance Computing) do Chile é o principal centro de supercomputação do país. Ele fornece recursos avançados de computação para apoiar a pesquisa científica, a inovação e o desenvolvimento tecnológico. O NLHPC atende à comunidade científica nacional, órgãos governamentais e setores, promovendo a colaboração e impulsionando avanços em áreas como modelagem climática, astrofísica e genômica. Sua missão é democratizar o acesso à HPC, possibilitando pesquisas de ponta e contribuindo para o progresso científico e econômico do Chile. Para obter mais informações, visite nlhpc.cl.
Perfil do estudo de caso
- Setor:
Pesquisa científica - Desafios:
Melhorar o desempenho e o consumo de energia para pesquisas científicas no Chile - Solução:
Implantar servidores Lenovo ThinkSystem SR675 V3 e SR645 V3 equipados com CPUs AMD EPYC de 4ª geração e GPUs AMD Instinct - Resultados:
O dobro do desempenho com o mesmo consumo de energia da infraestrutura de data center anterior - Resumo da tecnologia AMD:
CPUs AMD EPYC 9754 de 4ª geração (nós de computação e acesso) e AMD EPYC 9224 (host de GPU)
GPUs AMD Instinct MI210 - Parceiro de tecnologia:

