Radeon Instinct and Epyc

Aceleradores para computação de alto desempenho (HPC)

Chegou uma nova era da computação heterogênea para a inteligência de máquinas e HPC com os processadores para servidor EPYC™ e aceleradores de GPU Radeon Instinct™

Rumo a uma nova era de computação de escalabilidade horizontal para HPC e deep learning

Agilizar o ritmo do deep learning e atender às amplas necessidades dos datacenters exige uma combinação de computação de alto desempenho e aceleração de GPU otimizada. Só assim é possível lidar com volumes gigantescos de dados, com muita computação de pontos flutuantes que podem ser espalhados por vários núcleos. Os criadores de grandes sistemas de hoje também precisam projetar sistemas eficientes com flexibilidade e abertura para configurar sistemas que deem conta do desafio das cargas de trabalho exigentes de hoje.

A AMD está dando esses recursos aos criadores de sistemas, para que possam subir o nível das densidades computacionais viáveis por meio de designs de servidores otimizados com desempenho mais alto, latências mais baixas e melhor eficiência em um ambiente aberto e flexível. Com a introdução do novo processador EPYC baseado em servidores com aceleradores de GPU Radeon Instinct, combinado com nossa plataforma de software aberto ROCm, a AMD está expandindo uma nova era da computação heterogênea para HPC e Deep Learning.

Aceleradores para servidores Radeon Instinct™ MI25

A AMD está virando o jogo com a introdução de sua linha de produtos Radeon Instinc baseada em padrões abertos. Os aceleradores Radeon Instinct, junto com nossa abordagem de ecossistema aberto para a computação heterogênea, elevam o patamar do desempenho viável, das eficiências e da flexibilidade necessária para projetar sistemas capazes de atender aos desafios das cargas de trabalho de hoje centradas em dados.

O novo acelerador Radeon Instinct MI25, baseado na arquitetura “Vega” da AMD de última geração, com um motor potente de computação paralela, é o melhor acelerador de treinamento do mundo para aplicações de deep learning de grande escala e é o cavalo de batalha para as cargas de trabalho de HPC, oferecendo um desempenho de ponto flutuante em pico de 24,6 TFLOPS de FP16 e 12,3 TFLOPS de FP32.1 Reúna essa potência com a plataforma de software aberto ROCm e a arquitetura de memória da GPU mais avançada do mundo, 16 GB de HBM2 e até 484 GB/s de largura de banda da memória, e o resultado é a melhor solução para as cargas de trabalho de computação de hoje.​

Destaques do Radeon Instinct MI25:

  • Criado com a arquitetura “Vega” da AMD de última geração com a arquitetura de memória de GPU mais avançada do mundo
  • Desempenho superior de FP16 e FP32 para HPC e Deep Learning
  • Plataforma de software de ROCm de código aberto para escala de rack de categoria HPC
  • Suporte amplo de BAR para P2P da mGPU
  • Tecnologias para hardware de MxGPU para utilização otimizada em datacenters

Maior densidade computacional e desempenho por nó quando combinada com os novos servidores baseados nos processadores AMD EPYC™ e aceleradores Radeon Instinct MI25.

Desempenho de HPC ligada à memória do EPYC™

O processador AMD EPYC oferece excelente desempenho para cargas de trabalho de HPC ligada à memória.

HSA and Rocm logos

Plataforma de software aberto ROCm

A plataforma de software aberto ROCm oferece uma estrutura em código aberto para computação heterogênea de categoria HPC e projetos de sistema de datacenter de nível internacional. A plataforma ROCm oferece drivers, compiladores, ferramentas e bibliotecas Linux® com desempenho otimizado. A filosofia do design do software da ROCm oferece opções de programação, minimalismo e uma abordagem de desenvolvimento de software modular para permitir uma computação do acelerador da GPU mais otimizada.

Essa abordagem combinada com as tecnologias de MxGPU de hardware virtualizado e seguro da AMD permite agora que os criadores de sistemas consigam mais eficiências e maior aproveitamento do uso e capacidades do datacenter aprimorado.​

Elementos básicos da ROCm:

  • Driver Linux® Headless aberto de 64 bits e tempo de execução do sistema enriquecido e otimizado para computação de Hyperscale e HPC
  • Computação de múltiplas GPUS que permitem a comunicação para dentro e para fora do nó do servidor por meio do RDMA com peer-sync do RDMA direto no driver
  • Modelo de programação mais simples, o que dá aos desenvolvedores o controle que eles precisam
  • Compiladores heterogêneos de C++ de única fonte de verdadeiro HCC que atendem a todo o sistema, não só a um único dispositivo
  • Ferramenta de conversão do HIP CUDA que oferece à plataforma a opção de usar APIs de computação da GPU

A plataforma de software aberto ROCm oferece uma base sólida para utilizações em datacenters de HPC e inteligência de máquinas com o driver Linux aberto otimizado e o ROCr System Runtime, que é independente da linguagem e faz um uso intenso da API de tempo de execução do HSA (arquitetura de sistema heterogêneo). Isso proporciona uma base sólida para executar linguagens de programação como C++ da HCC, OpenCM™ da Khronos Group, a Anaconda Python da Continuum e a ferramenta de conversão HIP CUDA.2

A AMD continua a adotar o código aberto para ampliar a compatibilidade com recursos críticos para a aceleração de categoria NUMA para nossos aceleradores de GPU Radeon™ e para implantações de HPC e deep learning. A plataforma ROCm agora suporta nossa linha de produtos de aceleradores de GPU Radeon Instinct, além de ser compatível com várias outras placas de vídeo como AMD FirePro™ Série S, Radeon™ Série RX e Radeon™ Pro Duo. Visite o site do ROCm para ver uma lista completa de placas de GPU compatíveis.

OpenCL logo

Suporte para OpenCL™, OpenMP e OpenACC

A AMD continua a suportar esses padrões nos nossos últimos produtos3. Acredit​amos que a maioria das pessoas na comunidade de Computação de Alto Desempenho quer os padrões abertos, pela forma como eles tratam de maneira real seus projetos e simulações. Pensando nisso, a AMD está empenhada em apoiar este objetivo, trabalhando intensamente com a comunidade para fomentar o uso dos padrões abertos. ​​

Notas de rodapé
  1. Cálculos de TFLOPS: Os cálculos de FLOPS são feitos pegando o clock do motor do estado mais alto de DPM e multiplicando-o pelos números de unidades computacionais por GPU. Depois, multiplica-se esse número pelo número de processadores de streams existentes em cada unidade computacional. Então, esse número é multiplicado por 2 FLOPS por clock para o FP32. Para calcular o TFLOPS para FP16, foram usados 4 FLOPS por clock. A taxa de TFLOPS do FP64 é calculada usando a razão de 1/16.
  2. Está prevista a compatibilidade com o Python, mas isso ainda está em desenvolvimento.
  3. Algumas placas da série S podem não oferecer suporte a todos os padrões relacionados. Consulte as especificações de produto de cada placa para obter mais detalhes sobre as APIs compatíveis.