Radeon Instinct and Epyc

고성능 컴퓨팅을 위한 가속기

인공 지능 및 HPC의 새로운 이기종 컴퓨팅 시대가 EPYC™ 서버버 프로세서 및 Radeon Instinct™ GPU 가속기와 함께 도래.

HPC 및 딥 러닝을 위한 새로운 확장 컴퓨팅 시대 촉진

딥 러닝의 속도를 가속화하고 데이터센터의 광범위한 니즈를 해결하려면 수많은 코어로 분산될 수 있는 많은 부동 소수점 연산과 함께 고성능 컴퓨팅(HPC)과 방대한 데이터를 처리하도록 최적화된 GPU 가속화의 조합이 필요합니다. 오늘날 대형 시스템 설계자는 현재 직면하고 있는 매우 어려운 작업을 수행할 수 있는 시스템을 구성할 수 있도록 유연성과 개방성을 갖춘 효율적인 시스템을 설계할 수 있는 능력도 필요합니다.

AMD는 설계자들에게 이러한 능력을 부여하며, 개방되고 유연한 환경에서 고성능, 지연 현상 감소, 효율성 증대로 서버 설계를 최적화하여 성취 가능한 컴퓨팅 밀도의 기준을 높일 수 있도록 해줍니다. Radeon Instinct GPU 가속기가 탑재된 새로운 EPYC 프로세서 기반 서버의 출현과 AMD ROCm 개방형 소프트웨어 플랫폼과의 결합을 통해 AMD는 HPC 및 딥 러닝을 위한 새로운 이기종 컴퓨팅 시대를 앞당기고 있습니다.

Radeon Instinct™ MI25 서버 가속기

AMD가 개방형 표준 기반 Radeon Instinct 제품군의 출시로 게임에 변화를 불러일으키고 있습니다.​​ 이기종 컴퓨팅에 대한 개방형 생태계 접근법과 결합된 Radeon Instinct 가속기는 오늘날 데이터 중심의 작업 문제를 해결할 수 있는 시스템을 설계하는 데 필요한 성취 가능한 성능, 효율성, 유연성을 한 단계 업그레이드시켜줍니다.​

AMD의 차세대 “Vega” 아키텍처에 기반한 새로운 Radeon Instinct MI25 가속기는 강력한 병렬 컴퓨팅 엔진이 탑재되어 대규모 딥 러닝 응용 프로그램에 적합한 최고의 교육 가속기이며, FP16의 24.6 TFLOPS 및 FP32의 12.3 TFLOPS 피크 부동 소수점 성능을 발휘하는 HPC 작업용 도구입니다.1 이러한 성능을 개방형 ROCm 소프트웨어 플랫폼, 세계 최고의 GPU 메모리 아키텍처, 16GB HBM2, 최대 484 GB/s 메모리 대역폭과 결합하면 오늘날 컴퓨팅 작업에 필요한 최적의 솔루션을 구축할 수 있습니다.​

Radeon Instinct MI25 하이라이트:

  • 세계에서 가장 앞선 GPU 메모리 아키텍처가 포함된 AMD의 차세대 "Vega" 아키텍처를 기반으로 설계
  • HPC 및 딥 러닝을 위한 우수한 FP16 및 FP32 성능
  • HPC 수준의 랙 확장을 위한 ROCm 개방형 소프트웨어 플랫폼
  • mGPU 피어 간 대형 BAR 지원
  • 최적화된 데이터센터 이용을 위한 MxGPU 하드웨어 기술

새로운 AMD EPYC™ 프로세서 기반 서버와 Radeon Instinct MI25 가속기를 결합할 경우 노드당 우수한 컴퓨팅 밀도 및 성능

EPYC™ 메모리에 의해 결정되는 HPC 성능

AMD EPYC 프로세서는 메모리에 의해 결정되는 HPC 작업에 뛰어난 성능을 발휘합니다.

HSA and Rocm logos

ROCm 개방형 소프트웨어 플랫폼

ROCm 개방형 소프트웨어 플랫폼은 HPC 수준의 이기종 컴퓨팅과 세계적 수준의 데이터센터 시스템 설계를 위한 오픈 소스 토대를 제공합니다. ROCm 플랫폼은 성능이 최적화된 Linux® 드라이버, 컴파일러, 도구, 라이브러리를 제공합니다. ROCm의 소프트웨어 설계 철학은 더욱 최적화된 GPU 가속기 컴퓨팅을 위해 프로그래밍 선택, 미니멀리즘, 모듈식 소프트웨어 개발 접근 방식을 제공합니다.

AMD의 보안 하드웨어 가상화 MxGPU 기술과 결합되어 시스템 설계자가 효율성이 더 뛰어난 시스템을 설계하는 방법을 변경하고 최적화된 데이터센터 이용률과 역량을 갖추도록 해줍니다.

ROCm 기본 요소:

  • Hyperscale 및 HPC 수준의 컴퓨팅에 최적화된 개방형 헤드리스 Linux® 64비트 드라이버와 리치 시스템 런타임 스택
  • 드라이버에서 다이렉트 RDMA 피어 동기화 지원으로 RDMA를 통해 서버 노드 커뮤니케이션 참여 및 종료를 지원하는 Multi-GPU 컴퓨팅
  • 필요한 경우 개발자가 제어할 수 있는 간단한 프로그래밍 모델
  • 단일 장치가 아닌 시스템 전체를 관리하는 HCC 트루 싱글 소스 C++ 이기종 컴파일러
  • GPU 컴퓨팅 API를 이용할 수 있도록 플랫폼 선택 옵션을 제공하는 HIP CUDA 변환 도구

ROCm 개방형 소프트웨어 플랫폼은 언어와 무관하고 이기종 시스템 아키텍처(HSA) 런타임 API를 많이 사용하는 최적화된 개방형 Linux 드라이버 및 리치 ROCr 시스템 런타임과 함께 대규모 인공 지능 및 HPC 데이터센터 구축을 위한 튼튼한 토대를 제공합니다. 이러한 방식은 HCC C++, Khronos Group의 OpenCL™, Continuum의 Anaconda Python, HIP CUDA 변환 도구 등 프로그래밍 언어를 실행할 수 있는 튼튼한 토대를 제공합니다.​2

AMD는 개방형 방식을 지속적으로 도입하여 HPC 및 딥 러닝 구축을 위해 NUMA 수준의 가속화에 필요한 핵심 기능의 지원을 Radeon™ GPU 가속기까지 확대하고 있습니다. 또한, ROCm 플랫폼은 이제 새로 출시된 Radeon Instinct GPU 가속기 제품군을 지원할 뿐만 아니라 그 외 다수의 AMD 파이어프로(FirePro)™ S 시리즈, Radeon™ RX 시리즈, Radeon™ Pro Duo 그래픽 카드도 지속적으로 지원하고 있습니다. 지원되는 GPU 카드의 전체 목록은 ROCm 웹 사이트를 방문하세요.

OpenCL logo

OpenCL™, OpenMP, OpenACC 지원

 

AMD는 이러한 표준을 최신 제품군을 통해 지속적으로 지원합니다3. 대부분의 HPC 커뮤니티는 사실상 프로젝트와 시뮬레이션을 실행하는 방식으로 공개 표준을 원한다고 믿고 있으며 AMD는 이러한 목표를 지지하고 있고 공개 표준을 발전시키기 위해 공동체와 협력하고 있습니다.

보충설명
  1. TFLOPS 계산: FLOPS는 가장 높은 DPM 상태에서의 엔진 클럭에 GPU당 xx개의 CU를 곱해서 계산합니다. 그런 다음, 이 값에 각 CU에 있는 xx개의 스트림 프로세서 수를 곱합니다. 그런 다음, FP32의 경우 이 값에 클럭당 2 FLOPS를 곱합니다. FP16 TFLOPS의 경우 클럭당 4 FLOPS를 사용했습니다. FP64 TFLOPS 속도는 1/16 속도를 사용하여 계속합니다.
  2. Python 지원은 예정되어 있지만 아직 개발 중에 있습니다.
  3. 일부 S 시리즈 카드는 명시된 일부 표준을 지원하지 않을 수 있습니다. 지원 API에 대한 자세한 내용은 각 카드의 제품 사양을 참조하십시오.