概观

AMD CDNA 架构是 AMD Instinct GPU 和 APU 的专用计算架构。该架构采用先进的封装技术,通过将 AMD 小芯片技术与高带宽显存 (HBM) 相整合,实现高吞吐量的 Infinity Fabric 互连结构。此外,该架构采用先进的 Matrix Core 技术,支持多种 AI 和 HPC 数据格式,能够有效降低数据传输开销并提高能效。

代际对比表:

 

CDNA

CDNA 2

CDNA 3

CDNA 4

制程工艺

7nm FinFET

6nm FinFET

5nm + 6nm FinFET

3nm + 6nm FinFET

晶体管数量

256 亿

高达 580 亿

高达 1460 亿

高达 1850 亿

计算单元数 | Matrix Core 数

120 | 440

高达 220 | 880

高达 304 | 1216

256 | 1024

显存类型

32 GB

HBM2

高达 128 GB

HBM2E

高达 256 GB

HBM3 | HBM3E

288 GB

HBM3E

显存带宽(峰值)

1.2 TB/s

 高达 3.2 TB/s

高达 6 TB/s

8 TB/s

AMD Infinity Cache

不适用

不适用

256 MB

256MB

GPU 一致性

不适用

高速缓存

高速缓存和 HBM

高速缓存和 HBM

支持的数据类型

INT4、INT8、BF16、FP16、FP32、FP64

INT4、INT8、BF16、FP16、FP32、FP64

INT8、FP8、BF16、FP16、TF32、FP32、FP64(支持稀疏化)

INT4、FP4、FP6、INT8、FP8、BF16、FP16、TF32*、FP32、FP64(支持稀疏化)

产品

AMD Instinct MI100 系列

AMD Instinct MI200 系列

AMD Instinct MI300 系列

AMD Instinct MI350 系列

*通过软件仿真实现 TF32 支持。

优点

Matrix Core 技术

AMD CDNA 4 采用增强型 Matrix Core 技术,与上一代架构相比,低精度矩阵数据类型的计算吞吐量提高了一倍。AMD CDNA 4 带来了更出色的指令级并行处理性能,扩展了共享 LDS 资源,并实现了带宽翻倍,还支持多种精度计算(包括 FP4 和 FP6)以及稀疏矩阵数据(即稀疏化)。

增强型 AI 加速功能

AMD CDNA 4 引入了面向 LLM 的全新增强型 AI 加速功能,利用这些功能,可以降低延迟并提升 GEMM 性能,通过更低精度的数据格式实现能效优化,还可以动态平衡模型精度、速度、能效这三者的优先级,进而更加灵活地处理需要使用混合精度的 AI 项目。  

AI technology concept
添加 Alt 文本

HBM 显存、高速缓存和一致性

AMD Instinct MI350 系列 GPU 提供超大的 256 GB HBM3E 显存容量,可支持更大的模型和所需的所有带宽,同时还支持共享显存和 AMD 高速缓存技术 (Infinity Cache)(共享末级高速缓存),能够消除数据复制并降低延迟。

统一互连结构

新一代 AMD Infinity 架构与 AMD Infinity Fabric 技术相结合,推动 AMD GPU 小芯片技术与堆叠的 HBM3E 显存在单个器件及多器件平台上实现统一整合,确保一致性和高吞吐量。该架构还提供增强的 I/O,并支持 PCIe® 5。

AMD CDNA 4 闪耀登场

AMD CDNA 4 是 AMD Instinct MI350 系列 GPU 的专用计算架构。它采用先进的封装和小芯片技术,旨在减少数据传输开销并提高能效。

AMD Instinct MI350 Series

基于 AMD CDNA 4 的 GPU 产品

AMD CDNA 3

AMD CDNA 3 架构是 AMD Instinct MI300 系列 GPU 的专用计算架构。它采用先进的封装和小芯片技术,旨在减少数据传输开销并提高能效。

添加 Alt 文本

AMD CDNA 2

AMD CDNA 2 架构经过精心设计,可助力加速繁重的科学计算工作负载和机器学习应用。该架构是 AMD Instinct MI200 系列 GPU 的底层支撑。

AMD CDNA

AMD CDNA 架构是专为基于 GPU 的计算而设计的架构,旨在助力开启百亿亿级计算时代。该架构是 AMD Instinct MI100 系列 GPU 的底层支撑。

添加 Alt 文本

AMD Instinct 加速器

了解 AMD Instinct GPU 如何为生成式 AI、训练和 HPC 树立新标杆。

AMD ROCm 软件

AMD CDNA 架构由 AMD ROCm 软件提供支持。AMD ROCm 是一个开放的软件堆栈,包含多种编程模型、工具、编译器、库和运行时环境,可助力开发基于 AMD Instinct GPU 的 AI 和 HPC 解决方案。