새로운 기준 제시
AMD Instinct™ 가속기는 출시 이래로 데이터 센터 고객 및 AI의 잠재력을 활용하려는 기업들에게 성능, 효율성, 확장성을 제공해 왔습니다. 각 세대는 새로운 기준을 제시하고 업계 최고 수준의 사양을 제공하면서 성능 최적화와 총 소유 비용(TCO) 절감에 기여했습니다.1
최근의 Advancing AI 이벤트에서 AMD Instinct™ MI350 시리즈 GPU를 출시한 AMD는 다시 한번 기대를 높이고 있습니다.
AI 기반, 고성능 컴퓨팅 최적화, 최고의 성능
지금이 바로 고객들에게 새로운 AMD Instinct™ MI350X 및 AMD Instinct™ MI355X GPU와 플랫폼을 소개할 때입니다. 각 제품은 최신 4세대 AMD CDNA™ 아키텍처 기반으로 설계되었으며 최대 288GB HBM3E 메모리 용량과 8TB/s의 대역폭을 자랑합니다. 대규모 AI 학습 및 고속 추론에서 복잡한 고성능 컴퓨팅 워크로드에 이르는 모든 작업을 위해 설계된 AMD Instinct MI350X GPU는 Nvidia의 B200 플랫폼 대비 최대 2.05배의 FP6 성능2을 제공하며, AMD Instinct MI355X GPU는 GB200 대비 2배의 FP6 성능 우위3로 대규모 환경에서도 밀도, 효율성, 처리율 측면에서 새로운 기준을 제시합니다.
고객 및 인프라 수요가 증가하는 가운데, AMD는 이러한 가속기가 속도를 따라잡을 수 있도록 설계했습니다. 새로운 공랭식 GPU는 더 높은 밀도의 컴퓨팅이 꼭 필요한 거의 모든 시나리오에 맞춰 고충 없이 비용 효율적인 업그레이드가 가능하도록 이전 세대 AMD Instinct™ MI300X 및 MI325X 인프라와 원활하게 통합합니다.
AMD Instinct GPU는 FP6 및 FP4 데이터 유형에 대해 확장된 지원을 제공하며 FP16 및 FP8 처리 지원도 강화하여 확실한 계산 처리율과 메모리 대역폭 활용도를 제공하는 동시에 에너지 효율성을 극대화합니다. AMD Instinct MI350 시리즈 GPU는 AMD Instinct MI300X GPU가 FP8을 실행할 때보다 FP4를 실행할 때 최대 4배 더 우수한 성능을 제공4하므로 고급 생성형 AI 모델에서 놀라운 성능을 발휘하고 생성형 AI 분야의 한계를 한층 더 확장하는 데 기여합니다.
사양 |
AMD Instinct™ MI350X GPU |
AMD Instinct™ MI350X 플랫폼 |
AMD Instinct™ MI355X GPU |
AMD Instinct™ MI355X 플랫폼 |
GPU |
AMD Instinct MI350X OAM |
8 x AMD Instinct MI350X OAM |
AMD Instinct MI355X OAM |
8 x AMD Instinct MI355X OAM |
GPU 아키텍처 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
전용 메모리 크기 |
288GB HBM3E |
2.3TB HBM3E |
288GB HBM3E |
2.3TB HBM3E |
메모리 대역폭 |
8TB/s |
OAM당 8TB/s |
8TB/s |
OAM당 8TB/s |
피크 반정도(FP16) 성능* |
4.6 PFLOPS |
36.8 PFLOPS |
4.6 PFLOPS |
36.8 PFLOPS |
피크 8비트 정도(FP8) 성능* |
9.228PFLOPs |
72PFLOPs |
9.228PFLOPs |
72PFLOPs |
피크 6비트 정도(FP6) 성능* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
피크 4비트 정도(FP4) 성능* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
냉각기술 |
공냉 |
공냉 |
직접 수냉 |
직접 수냉 |
일반 보드 전력 |
1000W 피크 |
OAM당 1000W 피크 |
1400W 피크 |
OAM당 1400W 피크 |
*구조화된 스파시티 적용 시
차세대 AMD ROCm™ 소프트웨어에 통합
오픈 소스 혁신에 대한 AMD의 노력을 토대로 탄생한 AMD Instinct MI350 시리즈 GPU는 AI 및 고성능 컴퓨팅 워크로드를 위한 업계 최고의 오픈 대안인 차세대 AMD ROCm™ 소프트웨어 스택에 통합되었습니다.
이러한 신규 가속기 출시와 더불어 최신 AMD ROCm 소프트웨어 개선 사항은 AI 워크로드를 한 단계 더 발전시켜 AI 추론, 교육, 프레임워크 호환성을 더욱 최적화하고 자연어 처리(NLP), 컴퓨터 비전 등과 같은 까다로운 워크로드에 대해 높은 처리율 및 낮은 지연율을 제공합니다.
ROCm 소프트웨어는 주요 파트너와의 전략적이고 긴밀한 협업을 통해 OpenAI, Meta, PyTorch, Hugging Face, xAI, DeepSeek 등의 선도 기업이 제공하는 AI 플랫폼과 모델에 대한 Day-0 지원을 제공합니다. 이 모든 요소는 최신 AI 모델 및 프레임워크 출시 시점에 AMD Instinct GPU가 최적화되어 실행되도록 보장하므로 개발자와 기업이 AI를 업무 프로세스에 통합하는 속도를 가속화할 수 있습니다.
Microsoft, Meta와 같은 대기업에서 Llama 405B, GPT 등의 대규모 AI 모델 배포에 AMD Instinct GPU를 믿고 사용하는 데는 이유가 있습니다. AMD 담당자에게 문의하거나 amd.com을 방문하여 자세한 내용을 확인하고 AMD Instinct 가속기의 강력한 성능으로 고객을 지원하세요.
AMD Arena
AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ 등에 대한 교육을 통해 AMD 제품 지식을 향상하세요.
구독하기
AMD의 최신 제품, 교육 리소스, 전문가와의 만남 웨비나에 대한 월간 소식을 받으세요.

관련 문서
각주
- MI325-001A - 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3E 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다.
NVIDIA Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3E 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVIDIA Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
NVIDIA Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
Nvidia Blackwell 사양은 다음 페이지에서 확인할 수 있습니다. https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA HGX Blackwell B200 가속기 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI350X/MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 결과는 구성, 데이터 유형, 워크로드에 따라 다를 수 있습니다. MI350-010
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA Grace Blackwell GB200 NVL72 8 GPU 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버의 사용 여부 및 최적화에 따라 달라질 수 있습니다. MI350-018
- 2025년 5월, AMD 퍼포먼스 랩의 계산을 기반으로 FP16, FP8, FP6, FP4 데이터 형식과 매트릭스를 사용하여 여덟(8) 개의 AMD Instinct™ MI355X 및 MI350X GPU(플랫폼)와 여덟(8) 개의 AMD Instinct MI325X, MI300X, MI250X, MI100(플랫폼)의 이론상 정밀도 성능 최고치를 판단했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버 및 최적화 사용에 따라 달라질 수 있습니다. MI350-004
- MI325-001A - 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3E 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다.
NVIDIA Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3E 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVIDIA Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
NVIDIA Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3E 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다.
Nvidia Blackwell 사양은 다음 페이지에서 확인할 수 있습니다. https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW - AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA HGX Blackwell B200 가속기 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI350X/MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 결과는 구성, 데이터 유형, 워크로드에 따라 다를 수 있습니다. MI350-010
- AMD 퍼포먼스 랩에 의해 FP64, FP32, TF32, FP16, FP8, FP6, FP4, INT8 데이터 유형을 Matrix, Tensor, Vector, Sparsity(적용 가능한 경우)와 비교하여 NVIDIA Grace Blackwell GB200 NVL72 8 GPU 플랫폼 대비 최대 이론적 정밀도 성능을 결정하기 위해 8 GPU AMD Instinct™ MI355X 플랫폼에 대해 2025년 5월 수행된 계산에 기초했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버의 사용 여부 및 최적화에 따라 달라질 수 있습니다. MI350-018
- 2025년 5월, AMD 퍼포먼스 랩의 계산을 기반으로 FP16, FP8, FP6, FP4 데이터 형식과 매트릭스를 사용하여 여덟(8) 개의 AMD Instinct™ MI355X 및 MI350X GPU(플랫폼)와 여덟(8) 개의 AMD Instinct MI325X, MI300X, MI250X, MI100(플랫폼)의 이론상 정밀도 성능 최고치를 판단했습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 결과는 최신 드라이버 및 최적화 사용에 따라 달라질 수 있습니다. MI350-004