고성능 컴퓨팅을 위한 가속기

진화, 적응, 학습

인공 지능 및 HPC의 새로운 이기종 컴퓨팅 시대가 EPYC™ 서버버 프로세서 및 Radeon Instinct™ GPU 가속기와 함께 도래.

AMD EPYC™Radeon Instinct™

HPC 및 딥 러닝을 위한 새로운 확장 컴퓨팅 시대 촉진

딥 러닝의 속도를 가속화하고 데이터센터의 광범위한 니즈를 해결하려면 수많은 코어로 분산될 수 있는 많은 부동 소수점 연산과 함께 고성능 컴퓨팅(HPC)과 방대한 데이터를 처리하도록 최적화된 GPU 가속화의 조합이 필요합니다. 오늘날 대형 시스템 설계자는 현재 직면하고 있는 매우 어려운 작업을 수행할 수 있는 시스템을 구성할 수 있도록 유연성과 개방성을 갖춘 효율적인 시스템을 설계할 수 있는 능력도 필요합니다.

AMD는 설계자들에게 이러한 능력을 부여하며, 개방되고 유연한 환경에서 고성능, 지연 현상 감소, 효율성 증대로 서버 설계를 최적화하여 성취 가능한 컴퓨팅 밀도의 기준을 높일 수 있도록 해줍니다. Radeon Instinct GPU 가속기가 탑재된 새로운 EPYC 프로세서 기반 서버의 출현과 AMD ROCm 개방형 소프트웨어 플랫폼과의 결합을 통해 AMD는 HPC 및 딥 러닝을 위한 새로운 이기종 컴퓨팅 시대를 앞당기고 있습니다.

Radeon Instinct™ MI25 서버 가속기

AMD는 이러한 개방형 표준 기반 Radeon Instinct 제품군의 출현과 함께 고객에게 데이터센터의 새로운 HPC 및 인공 지능 역량 시대를 선보임으로써 게임 환경을 변화시키고 있습니다. 이기종 컴퓨팅에 대한 개방형 생태계 접근법과 결합된 Radeon Instinct 가속기는 오늘날 데이터 중심의 작업 문제를 해결할 수 있는 시스템을 설계하는 데 필요한 성취 가능한 성능, 효율성, 유연성을 한 단계 업그레이드시켜줍니다.

AMD의 차세대 “Vega” 아키텍처에 기반한 새로운 Radeon Instinct MI25 가속기는 강력한 병렬 컴퓨팅 엔진이 탑재되어 대규모 딥 러닝 응용 프로그램에 적합한 최고의 교육 가속기이며, FP16의 24.6 TFLOPS 및 FP32의 12.3 TFLOPS 피크 부동 소수점 성능을 발휘하는 HPC 작업용 도구입니다.1 이러한 강력한 성능을 개방형 ROCm 소프트웨어 플랫폼, 세계에서 가장 앞선 GPU 메모리 아키텍처, 16GB HBM2, 최대 484GB/s 메모리 대역폭과 결합하면 오늘날 데이터 중심의 작업에 적합한 최고의 솔루션을 구축할 수 있습니다.

Radeon Instinct MI25 하이라이트:

  • 세계에서 가장 앞선 GPU 메모리 아키텍처 및 차세대 컴퓨팅 엔진이 포함된 AMD의 차세대 “Vega” 아키텍처를 기반으로 설계
  • HPC 및 딥 러닝을 위한 우수한 FP16 및 FP32 성능
  • HPC 수준의 랙 확장을 위한 ROCm 개방형 소프트웨어 플랫폼
  • mGPU 피어 간 대형 BAR 지원
  • 최적화된 데이터센터 이용을 위한 MxGPU SR-IOV 가상화 기술

새로운 AMD EPYC™ 프로세서 기반 서버와 Radeon Instinct MI25 가속기를 결합할 경우 노드당 우수한 컴퓨팅 밀도 및 성능

개방형 ROCm 소프트웨어 플랫폼은 세계적 수준의 데이터센터 시스템 설계 토대에 성능이 최적화된 Linux® 드라이버, 컴파일러, 도구, 라이브러리를 제공하고 AMD의 보안 하드웨어 가상화 MxGPU 기술과 결합되어 고객이 더 높은 효율성을 얻도록 시스템을 설계하는 방법을 변경하고 최적화된 데이터센터 이용률과 역량을 갖추도록 해줍니다.

자세히 알아보기


 

ROCm 개방형 소프트웨어 플랫폼

ROCm 개방형 소프트웨어 플랫폼은 HPC 수준의 이기종 컴퓨팅을 위한 오픈 소스 토대를 제공합니다. ROCm의 소프트웨어 설계 철학은 더욱 최적화된 GPU 가속기 컴퓨팅을 위해 프로그래밍 선택, 미니멀리즘, 모듈식 소프트웨어 개발 접근 방식을 제공합니다.

ROCm 기본 요소:

HSA Foundation logo ​ ROCm Platform logo
  • Hyperscale 및 HPC 수준의 컴퓨팅에 최적화된 개방형 헤드리스 Linux® 64비트 드라이버와 리치 시스템 런타임 스택
  • 드라이버에서 다이렉트 RDMA 피어 동기화 지원으로 RDMA를 통해 서버 노드 커뮤니케이션 참여 및 종료를 지원하는 Multi-GPU 컴퓨팅
  • 필요한 경우 개발자가 제어할 수 있는 간단한 프로그래밍 모델
  • 단일 장치가 아닌 시스템 전체를 관리하는 HCC 트루 싱글 소스 C++ 이기종 컴파일러
  • GPU 컴퓨팅 API를 이용할 수 있도록 플랫폼 선택 옵션을 제공하는 HIP CUDA 변환 도구

ROCm 개방형 소프트웨어 플랫폼은 언어와 무관하고 이기종 시스템 아키텍처(HSA) 런타임 API를 많이 사용하는 최적화된 개방형 Linux 드라이버 및 리치 ROCr 시스템 런타임과 함께 대규모 인공 지능 및 HPC 데이터센터 구축을 위한 튼튼한 토대를 제공합니다. 이러한 방식은 HCC C++, Khronos Group의 OpenCL™, Continuum의 Anaconda Python, HIP CUDA 변환 도구 등 프로그래밍 언어를 실행할 수 있는 튼튼한 토대를 제공합니다.2

AMD는 개방형 방식을 지속적으로 도입하여 HPC 및 딥 러닝 구축을 위해 NUMA 수준의 가속화에 필요한 핵심 기능의 지원을 Radeon™ GPU 가속기까지 확대하고 있습니다. 또한, ROCm 플랫폼은 이제 새로 출시된 Radeon Instinct GPU 가속기 제품군을 지원할 뿐만 아니라 그 외 다수의 AMD 파이어프로(FirePro)™ S 시리즈, Radeon™ RX 시리즈, Radeon™ Pro Duo 그래픽 카드도 지속적으로 지원하고 있습니다. 지원되는 GPU 카드의 전체 목록은 ROCm 웹 사이트를 방문하세요.

자세히 알아보기


 

OpenCL™, OpenMP, OpenACC 지원

OpenCL

AMD는 이러한 표준을 최신 제품군을 통해 지속적으로 지원합니다3. 대부분의 HPC 커뮤니티는 사실상 프로젝트와 시뮬레이션을 실행하는 방식으로 공개 표준을 원한다고 믿고 있으며 AMD는 이러한 목표를 지지하고 있고 공개 표준을 발전시키기 위해 공동체와 협력하고 있습니다.

 AMD 파이어프로(FirePro)™ S 시리즈 가속기

AMD FirePro™ S9300 x2

데이터 분석이나 지진 분석에서의 복잡한 HPC 작업을 세계에서 가장 빠른 단정밀도 컴퓨팅 GPU 가속기인 AMD 파이어프로(FirePro)™ S9300 x2 서버 GPU에서 가속하세요.4,5 개발자 페이지 http://www.gpuopen.com/?sessionGUID=19a21a7b-29e9-525c-9876-67ad3aeb2e79&webSyncID=79e9a94d-12cd-1236-3665-5eacc850c9cd&sessionGUID=e8485a29-c782-b424-5038-bdc37a33c4e8에서 ROCm 도구 등 수많은 도구와 라이브러리를 활용해 보세요.

최근에 AMD의 고객사인 CGG에서 시험을 했습니다. CGG는 최첨단 지구과학 분야의 선두업체이며, 새로 출시된 AMD 파이어프로(FirePro)™ S9300 x2 GPU가 포함된 몇 가지 GPU 가속기를 벤치마킹한 독점 파동 방정식 모델링을 최근에 실시했습니다. 파동 방정식이 점점 복잡해짐에 따라 AMD 파이어프로(FirePro)™ S9300 x2 GPU가 다른 카드에 비해 2배나 빠른 성능 우위를 보였습니다.6

Wave Table 

CGG에서 제공한 차트

AMD 파이어프로(FirePro)™ S9100, S9150, S9170 가속기

뛰어난 배정밀도 성능을 원한다면 AMD 파이어프로(FirePro)™ S9100 시리즈 가속기를 추천합니다. AMD 파이어프로(FirePro)™ S9150은 2014년 Green500 목록에서 최고의 슈퍼컴퓨터로 선정되었으며, 경쟁 대상인 Tesla K40보다 50% 뛰어난 배정밀도 성능을 발휘하여 경쟁업체를 가볍게 물리쳤습니다. 7

2014년 Green500에서 1위를 차지한 슈퍼컴퓨터 L-CSC 클러스터에 관한 David Rohr 박사와 Lindenstruth 교수의 인터뷰 비디오를 시청해 보세요.

 

 

DGEMM(배정밀도 일반 행렬-행렬) 곱셈은 배정밀도 실제 행렬-행렬 곱셈의 유동 소수점 실행률을 측정합니다. 배정밀도 행렬 작업을 활용한 실제 사례가 많이 있습니다. 여기에는 계산 유체 역학, 유한 요소 분석법, 구조적 모델링, 분자 역학이 포함됩니다.

AMD는 OpenCL BLAS 이행을 통해 AMD 파이어프로(FirePro)™ S9150 GPU에서 2 TFLOPS의 지속 가능한 DGEMM 성능을 발휘하지만, Tesla K40은 1.3 TFLOPS DGEMM만 발휘합니다.

AMD 파이어프로(FirePro)™ S9170 GPU는 대규모 행렬-행렬 곱셈 기능이 필요한 경우에 적합하며, 카드에 내장된 32GB GDDR5 메모리를 활용합니다. 24GB와 12GB 메모리가 각각 장착된 Nvidia K80과 K40은 내장된 메모리 용량보다 큰 행렬은 계산할 수 없습니다.

 AMD 파이어프로(FirePro)™ S 시리즈 사양

고성능 컴퓨팅을 위한 AMD 파이어프로™ 서버 GPU 시뮬레이션

전산 유체 역학의 학문적 연구부터 지진 처리와 저유층 시뮬레이션을 이용하는 석유 및 가스 산업에 이르기까지 AMD 파이어프로™ S-시리즈 서버 GPU는 어떤 요구도 실용적으로 충족시킬 수 있는 완벽한 제품 포트폴리오를 제공합니다. 첨단 단정도 및 배정도 컴퓨팅 성능을 발휘하는 AMD 파이어프로 서버 GPU는 GPU의 대량 병렬 처리 성능이 요구되는 복잡한 연산 프로젝트에서 확실한 솔루션입니다.4​

​S9100​S9150S9170​S9300 X2​
​GCN 스트림 프로세서​2560​2816​2816​8192​
단정도(GFLOPS)​4220​5070​5240​13900​​
​배정도(GFLOPS)​2110​2530​2620​870​
​온보드 메모리​12GB GDDR5​16GB GDDR532​GB GDDR5​8GB HBM​
​ECC예(외부)예(외부)예(외부)​아니오​​
​메모리 대역폭(GB/S)​320​320​320​​1024
​인터페이스PCIe 3.0, 이중 슬롯​PCIe 3.0, 이중 슬롯​PCIe 3.0, 이중 슬롯​PCIe 3.0, 이중 슬롯
최대 전력​225W​235W​2​75W​300W
​냉각패시브 방열판패시브 방열판패시브 방열판​패시브 방열판
권장 분야

​다음과 같은 배정도 워크플로우:

연구 및 정부 클러스터

석유 및 가스 – 저유층 시뮬레이션

​다음과 같은 배정도 워크플로우:

연구 및 정부 클러스터

석유 및 가스 – 저유층 시뮬레이션

​다음과 같은 배정도 워크플로우:

연구 및 정부 클러스터

석유 및 가스 – 저유층 시뮬레이션​

다음과 같은 단정밀도 작업:

분자 역학

지구 과학

 구입처

AMD 파이어프로(FirePro)™ 가속기는 Dell, HPE, SuperMicro 등 수많은 OEM 및 SI 업체를 통해서 구입할 수 있습니다. ​

Dell ​ ​ ​ ​​ ​HPE
 ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​ SuperMicro ​ ​ ​ ​​ 
​​

AMD 파이어프로(FirePro)™ GPU가 탑재된 Dell 서버에 대한 자세한 내용은 www.amd.com/dell-server를 방문

AMD 파이어프로(FirePro)™ GPU가 탑재된 HPE 서버에 대한 자세한 내용은 www.amd.com/hpe를 방문

  

  

  

  

  

보충설명