Aceleradores para computação de alto desempenho (HPC)

EVOLUINDO, ADAPTANDO-SE E APRENDENDO

Chegou uma nova era da computação heterogênea para a inteligência de máquinas e HPC com os processadores para servidor EPYC™ e aceleradores de GPU Radeon Instinct™

AMD EPYC™Radeon Instinct™

Rumo a uma nova era de computação de escalabilidade horizontal para HPC e deep learning

Agilizar o ritmo do deep learning e atender às amplas necessidades dos datacenters exige uma combinação de computação de alto desempenho e aceleração de GPU otimizada. Só assim é possível lidar com volumes gigantescos de dados, com muita computação de pontos flutuantes que podem ser espalhados por vários núcleos. Os criadores de grandes sistemas de hoje também precisam projetar sistemas eficientes com flexibilidade e abertura para configurar sistemas que deem conta do desafio das cargas de trabalho exigentes de hoje.

A AMD está dando esses recursos aos criadores de sistemas, para que possam subir o nível das densidades computacionais viáveis por meio de designs de servidores otimizados com desempenho mais alto, latências mais baixas e melhor eficiência em um ambiente aberto e flexível. Com a introdução do novo processador EPYC baseado em servidores com aceleradores de GPU Radeon Instinct, combinado com nossa plataforma de software aberto ROCm, a AMD está expandindo uma nova era da computação heterogênea para HPC e Deep Learning.

Aceleradores para servidores Radeon Instinct™ MI25

A AMD está virando o jogo com a introdução de sua linha de produtos Radeon Instinc baseada em padrões abertos. Os aceleradores Radeon Instinct, junto com nossa abordagem de ecossistema aberto para a computação heterogênea, elevam o patamar do desempenho viável, das eficiências e da flexibilidade necessária para projetar sistemas capazes de atender aos desafios das cargas de trabalho de hoje centradas em dados.

O novo acelerador Radeon Instinct MI25, baseado na arquitetura “Vega” da AMD de última geração, com um motor potente de computação paralela, é o melhor acelerador de treinamento do mundo para aplicações de deep learning de grande escala e é o cavalo de batalha para as cargas de trabalho de HPC, oferecendo um desempenho de ponto flutuante em pico de 24,6 TFLOPS de FP16 e 12,3 TFLOPS de FP32.1 Reúna essa potência com a plataforma de software aberto ROCm e a arquitetura de memória da GPU mais avançada do mundo, 16 GB de HBM2 e até 484 GB/s de largura de banda da memória, e o resultado é a melhor solução para as cargas de trabalho de computação de hoje.​

Destaques do Radeon Instinct MI25:

  • Criado com a arquitetura “Vega” da AMD de última geração com a arquitetura de memória de GPU mais avançada do mundo
  • Desempenho superior de FP16 e FP32 para HPC e Deep Learning
  • Plataforma de software de ROCm de código aberto para escala de rack de categoria HPC
  • Suporte amplo de BAR para P2P da mGPU
  • Tecnologias de virtualização de hardware MxGPU SR-IOV para uso otimizado no datacenter

Maior densidade computacional e desempenho por nó quando combinada com os novos servidores baseados nos processadores AMD EPYC™ e aceleradores Radeon Instinct MI25.

SAIBA MAIS


 

Plataforma de software aberto ROCm

A plataforma de software aberto ROCm oferece uma estrutura em código aberto para computação heterogênea de categoria HPC e projetos de sistema de datacenter de nível internacional. A plataforma ROCm oferece drivers, compiladores, ferramentas e bibliotecas Linux® com desempenho otimizado. A filosofia do design do software da ROCm oferece opções de programação, minimalismo e uma abordagem de desenvolvimento de software modular para permitir uma computação do acelerador da GPU mais otimizada.

Essa abordagem combinada com as tecnologias de MxGPU de hardware virtualizado e seguro da AMD permite agora que os criadores de sistemas consigam mais eficiências e maior aproveitamento do uso e capacidades do datacenter aprimorado.​

Elementos básicos da ROCm:

HSA Foundation logo ​ ROCm Platform logo
  • Driver Linux® Headless aberto de 64 bits e tempo de execução do sistema enriquecido e otimizado para computação de Hyperscale e HPC
  • Computação de múltiplas GPUS que permitem a comunicação para dentro e para fora do nó do servidor por meio do RDMA com peer-sync do RDMA direto no driver
  • Modelo de programação mais simples, o que dá aos desenvolvedores o controle que eles precisam
  • Compiladores heterogêneos de C++ de única fonte de verdadeiro HCC que atendem a todo o sistema, não só a um único dispositivo
  • Ferramenta de conversão do HIP CUDA que oferece à plataforma a opção de usar APIs de computação da GPU

A plataforma de software aberto ROCm oferece uma base sólida para utilizações em datacenters de HPC e inteligência de máquinas com o driver Linux aberto otimizado e o ROCr System Runtime, que é independente da linguagem e faz um uso intenso da API de tempo de execução do HSA (arquitetura de sistema heterogêneo). Isso proporciona uma base sólida para executar linguagens de programação como C++ da HCC, OpenCM™ da Khronos Group, a Anaconda Python da Continuum e a ferramenta de conversão HIP CUDA.2

A AMD continua a adotar o código aberto para ampliar a compatibilidade com recursos críticos para a aceleração de categoria NUMA para nossos aceleradores de GPU Radeon™ e para implantações de HPC e deep learning. A plataforma ROCm agora suporta nossa linha de produtos de aceleradores de GPU Radeon Instinct, além de ser compatível com várias outras placas de vídeo como AMD FirePro™ Série S, Radeon™ Série RX e Radeon™ Pro Duo. Visite o site do ROCm para ver uma lista completa de placas de GPU compatíveis.

SAIBA MAIS


 

Suporte para OpenCL™, OpenMP e OpenACC

OpenCL

A AMD continua a suportar esses padrões nos nossos últimos produtos3. Acredit​​​​​​​​amos que a maioria das pessoas na comunidade de Computação de Alto Desempenho quer os padrões abertos, pela forma como eles tratam de maneira real seus projetos e simulações. Pensando nisso, a AMD está empenhada em apoiar este objetivo, trabalhando intensamente com a comunidade para fomentar o uso dos padrões abertos. ​​

​​​

 Aceleradores AMD FirePro™ Série S

AMD FirePro™ S9300 x2

​Acelere suas cargas de trabalho de HPC mais complexas no processamento sísmico ou de análise de dados no acelerador de GPU de computação de precisão única mais rápido do mundo, a GPU para servidores AMD FirePro™ S9300 x2.4,5 Aproveite as vantagens das inúmeras ferramentas e bibliotecas disponíveis, como as ferramentas de ROCm, da página do nosso desenvolvedor http://www.gpuopen.com/.

Um dos nossos clientes, a CGG, realizou um teste recentemente. A CGG é líder em geociências de ponta e recentemente realizou uma avaliação de desempenho patentada da modelagem de equação de ondas em vários aceleradores de GPU, incluindo a nova GPU AMD FirePro™ S9300 x2. À medida que a complexidade da equação de onda aumentava, a vantagem do desempenho também crescia a favor da GPU AMD FirePro™ S9300 x2, até um ponto em que era 2 vezes mais rápida do que qualquer outra placa testada.6

Wave Table 

Gráfico fornecido pela CGG

Aceleradores AMD FirePro™ S9100, S9150 e S9170

Para quem está procurando um excelente desempenho de dupla precisão pode contar com a série de aceleradores AMD FirePro™ S9100. O AMD FirePro™ S9150, que aciona o supercomputador nº 1 da lista Green500 de 2014, ganha facilmente da concorrência oferecendo 50% melhor desempenho de precisão dupla do que o Tesla K40 usado na comparação.7

Assista à entrevista em vídeo do Dr. David Rohr e professor Lindenstruth falando sobre o cluster L-CSC, o supercomputador número 1 na lista Green500 de 2014.

​​​
​​​

O DGEMM, sigla em inglês para a multiplicação matriz-matriz geral de dupla precisão, mede a taxa de execução do ponto flutuante para multiplicação de matriz quadrada real de dupla precisão. Existem muitas aplicações no mundo real que aproveitam a vantagem das operações de matriz de dupla precisão, tais como as dinâmicas de fluido computacional, modelagem estrutural e análise de elementos finitos e dinâmica molecular.

Com nossa implantação do AMD OpenCL BLAS, conseguimos alcançar 2 TFLOPS de desempenho permanente do DGEMM com a GPU AMD FirePro™ S9150, ao passo que o Tesla K40 alcançou um DGEMM de 1,3 TFLOPS.

A GPU AMD FirePro™ S9170 é ótima para as pessoas que precisam de grandes recursos de multiplicação de matrizes, nos quais se pode aproveitar a enorme memória GDDR5 de 32 GB que esse chip processa. O Nvidia K80 e K40, com memória de 24 GB e 12 GB, respectivamente, não são capazes de computar matrizes maiores do que sua menor memória incorporada pode processar. ​​​

​​​

 Especificações do AMD FirePro™ Série S

Soluções em GPU para servidor AMD FirePro™ para Computação de alto desempenho

Desde a pesquisa acadêmica em dinâmica de fluidos computacional até setores de petróleo e gás em busca de processamento sísmico e simulação de reservatórios, as GPUs para servidor AMD FirePro™ Série S proporcionam uma completa linha de produtos que pode atender a praticamente qualquer de suas necessidades. Com desempenho computacional de ponta com precisão simples e dupla, as GPUs para servidor AMD FirePro representam a solução para qualquer projeto computacionalmente complexo que requeira enormes capacidades de processamento em paralelo de uma GPU.4

​S9100​S9150​S9170​​S9300 x2​
AMD FirePro™ S9300 x2
​​PROCESSA-DORES EM FLUXO GCN​2560​2816​2816​​8192
​PRECISÃO SIMPLES (GFLOPS)​4220​5070​5240​​13900
​PRECISÃO DUPLA  (GFLOPS)​2110​2530​2620​​870​
​MEMÓRIA INCORPORADA​GDDR5 de 12 GB​GDDR5 de 16 GB​GDDR5 de 32​ GB8GB HBM​
​ECCSim (externo)​Sim (externo)​​Sim (externo)​​Não
LARGURA DE BANDA DE MEMÓRIA (GB/S)​320​320​320​1024​
​INTERFACEPCIe 3.0, slot duplo​PCIe 3.0, slot duplo​PCIe 3.0, slot duploPCIe 3.0, slot duplo​
POTÊNCIA MÁXIMA​225 W​235 W2​75 W300 W​
REFRIGERAÇÃO​Dissipador de
calor passivo
Dissipador de
calor passivo
​Dissipador de
calor passivo
Dissipador de
calor passivo​​
​RECOMENDADA PARA

Fluxos de trabalho
de precisão dupla,
como:

Clusters acadêmicos e governamentais

Petróleo e gás – simulação de reservatório

Fluxos de trabalho
de precisão dupla,
como:

Clusters acadêmicos e governamentais

Petróleo e gás – simulação de reservatório

Fluxos de trabalho
de precisão dupla,
como:

Clusters acadêmicos e governamentais

Petróleo e gás – simulação de reservatório​

​​Cargas de trabalho
de precisão simples,
como:

Dinâmica molecular

Geociências

Redes neurais
profundas ou ​aprendizado de
máquina

​​

 Onde comprar

Os aceleradores AMD FirePro™ estão disponíveis em diversos OEMs e integradores de sistemas, como a Dell, HPE e SuperMicro, entre outros. ​

Dell ​ ​ ​ ​​ ​HPE
 ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​ SuperMicro ​ ​ ​ ​​ 
​​

Para mais informações sobre os servidores da Dell equipados com GPUs AMD FirePro™, acesse ​www.amd.com/dell-server

Para informações sobre servidores HPE equipados com GPUs AMD FirePro™, acesse ​​ www.amd.com/hpe

 

 

 

 

 

Notas de rodapé