새로운 기준 제시
AMD Instinct™ 가속기는 출시 이래로 데이터 센터 고객 및 AI의 잠재력을 활용하려는 기업들에게 성능, 효율성, 확장성을 제공해 왔습니다. 각 세대는 새로운 기준을 제시하고 업계 최고 수준의 사양을 제공하면서 성능 최적화와 총 소유 비용(TCO) 절감에 기여했습니다.1
최근의 Advancing AI 이벤트에서 AMD Instinct™ MI350 시리즈 GPU를 출시한 AMD는 다시 한번 기대를 높이고 있습니다.
AI 기반, 고성능 컴퓨팅 최적화, 최고의 성능
지금이 바로 고객들에게 새로운 AMD Instinct™ MI350X 및 AMD Instinct™ MI355X GPU와 플랫폼을 소개할 때입니다. 각 제품은 최신 4세대 AMD CDNA™ 아키텍처 기반으로 설계되었으며 최대 288GB HBM3E 메모리 용량과 8TB/s의 대역폭을 자랑합니다. 대규모 AI 학습 및 고속 추론에서 복잡한 고성능 컴퓨팅 워크로드에 이르는 모든 작업을 위해 설계된 AMD Instinct MI350X GPU는 Nvidia의 B200 플랫폼 대비 최대 2.05배의 FP6 성능2을 제공하며, AMD Instinct MI355X GPU는 GB200 대비 2배의 FP6 성능 우위3로 대규모 환경에서도 밀도, 효율성, 처리율 측면에서 새로운 기준을 제시합니다.
고객 및 인프라 수요가 증가함에 따라 AMD는 이에 대응하기 위해 이 가속기를 설계했습니다. 새로운 공기 냉각식 GPU는 이전 세대 AMD Instinct™ MI300 시리즈 플랫폼과 완벽하게 호환되며 타사 인프라에도 원활하게 통합되므로 고밀도 컴퓨팅이 필수인 거의 모든 시나리오에서 손쉽고 비용 효율적인 업그레이드 솔루션입니다.
AMD Instinct GPU는 FP6 및 FP4 데이터 유형에 대해 확장된 지원을 제공하며 FP16 및 FP8 처리 지원도 강화하여 확실한 계산 처리율과 메모리 대역폭 활용도를 제공하는 동시에 에너지 효율성을 극대화합니다. AMD Instinct MI350 시리즈 GPU는 AMD Instinct MI300X GPU가 FP16을 실행할 때보다 FP4를 실행할 때 최대 7배 더 우수한 성능을 제공4하므로 고급 생성형 AI 모델에서 놀라운 성능을 발휘하고 생성형 AI 분야의 한계를 한층 더 확장하는 데 기여합니다.
사양 |
AMD Instinct™ MI350X GPU |
AMD Instinct™ MI350X 플랫폼 |
AMD Instinct™ MI355X GPU |
AMD Instinct™ MI355X 플랫폼 |
GPU |
AMD Instinct MI350X OAM |
8 x AMD Instinct MI350X OAM |
AMD Instinct MI355X OAM |
8 x AMD Instinct MI355X OAM |
GPU 아키텍처 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
전용 메모리 크기 |
288GB HBM3E |
2.3TB HBM3E |
288GB HBM3E |
2.3TB HBM3E |
메모리 대역폭 |
8TB/s |
OAM당 8TB/s |
8TB/s |
OAM당 8TB/s |
피크 반정도(FP16) 성능* |
4.6 PFLOPS |
36.8 PFLOPS |
4.6 PFLOPS |
36.8 PFLOPS |
피크 8비트 정도(FP8) 성능* |
9.228PFLOPs |
72PFLOPs |
9.228PFLOPs |
72PFLOPs |
피크 6비트 정도(FP6) 성능* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
피크 4비트 정도(FP4) 성능* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
냉각기술 |
공냉 |
공냉 |
직접 수냉 |
직접 수냉 |
일반 보드 전력 |
1000W 피크 |
OAM당 1000W 피크 |
1400W 피크 |
OAM당 1400W 피크 |
*구조화된 스파시티 적용 시
차세대 AMD ROCm™ 소프트웨어에 통합
오픈 소스 혁신에 대한 AMD의 노력을 토대로 탄생한 AMD Instinct MI350 시리즈 GPU는 AI 및 고성능 컴퓨팅 워크로드를 위한 업계 최고의 오픈 대안인 차세대 AMD ROCm™ 소프트웨어 스택에 통합되었습니다.
이러한 신규 가속기 출시와 더불어 최신 AMD ROCm 소프트웨어 개선 사항은 AI 워크로드를 한 단계 더 발전시켜 AI 추론, 교육, 프레임워크 호환성을 더욱 최적화하고 자연어 처리(NLP), 컴퓨터 비전 등과 같은 까다로운 워크로드에 대해 높은 처리율 및 낮은 지연율을 제공합니다.
ROCm 소프트웨어는 주요 파트너와의 전략적이고 긴밀한 협업을 통해 OpenAI, Meta, PyTorch, Hugging Face, Databricks, Lamini 등의 선도 기업이 제공하는 AI 플랫폼과 모델에 대한 Day-0 지원을 제공합니다. 이 모든 요소는 최신 AI 모델 및 프레임워크 출시 시점에 AMD Instinct GPU가 최적화되어 실행되도록 보장하므로 개발자와 기업이 AI를 업무 프로세스에 통합하는 속도를 가속화할 수 있습니다.
Microsoft, Meta와 같은 대기업에서 Llama 405B, GPT 등의 대규모 AI 모델 배포에 AMD Instinct GPU를 믿고 사용하는 데는 이유가 있습니다. AMD 담당자에게 문의하거나 amd.com을 방문하여 자세한 내용을 확인하고 AMD Instinct 가속기의 강력한 성능으로 고객을 지원하세요.
AMD Arena
AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ 등에 대한 교육을 통해 AMD 제품 지식을 향상하세요.
구독하기
AMD의 최신 제품, 교육 리소스, 전문가와의 만남 웨비나에 대한 월간 소식을 받으세요.

관련 문서
각주
- MI325-001A - 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3E 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다.
NVIDIA Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3E 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVIDIA Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
NVIDIA Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
Nvidia Blackwell 사양은 다음 페이지에서 확인할 수 있습니다. https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA HGX Blackwell B200 가속기 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI350X/MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 결과는 구성, 데이터 유형, 워크로드에 따라 다를 수 있습니다. * Nvidia B200 가속기는 FP32 Tensor를 지원하지 않습니다. MI350-010
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA Grace Blackwell GB200 NVL72 8 GPU 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버의 사용 여부 및 최적화에 따라 달라질 수 있습니다. MI350-018
- 2024년 9월 26일 기준 AMD 퍼포먼스 랩에서 수행한 AMD Instinct™ MI300X GPU 플랫폼 및 AMD Instinct™ MI300X GPU 플랫폼의 FP16, FP8, FP4 데이터 유형 성능 비교 계산 결과입니다.
Instinct MI355X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 18.5 PFLOPs
피크 이론상 8비트 정도(FP8) 성능 - 37 PFLOPs
피크 이론상 4비트 정도(FP4) 성능 - 74 PFLOPs
Instinct MI325X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 10.4 PFLOPs
피크 이론상 8비트 정도(FP8) 성능 - 20.88 PFLOPs
Instinct MI300X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 10.4 PFLOPs
실제 성능은 최종 사양 및 시스템 구성에 따라 달라집니다. MI355-004
- MI325-001A - 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3E 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다.
NVIDIA Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3E 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVIDIA Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
NVIDIA Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
Nvidia Blackwell 사양은 다음 페이지에서 확인할 수 있습니다. https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW - AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA HGX Blackwell B200 가속기 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI350X/MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 결과는 구성, 데이터 유형, 워크로드에 따라 다를 수 있습니다. * Nvidia B200 가속기는 FP32 Tensor를 지원하지 않습니다. MI350-010
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA Grace Blackwell GB200 NVL72 8 GPU 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버의 사용 여부 및 최적화에 따라 달라질 수 있습니다. MI350-018
- 2024년 9월 26일 기준 AMD 퍼포먼스 랩에서 수행한 AMD Instinct™ MI300X GPU 플랫폼 및 AMD Instinct™ MI300X GPU 플랫폼의 FP16, FP8, FP4 데이터 유형 성능 비교 계산 결과입니다.
Instinct MI355X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 18.5 PFLOPs
피크 이론상 8비트 정도(FP8) 성능 - 37 PFLOPs
피크 이론상 4비트 정도(FP4) 성능 - 74 PFLOPs
Instinct MI325X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 10.4 PFLOPs
피크 이론상 8비트 정도(FP8) 성능 - 20.88 PFLOPs
Instinct MI300X 8xGPU 플랫폼
피크 이론상 반정도(FP16) 성능 - 10.4 PFLOPs
실제 성능은 최종 사양 및 시스템 구성에 따라 달라집니다. MI355-004