Radeon Vega 7nm

“Vega 7nm” 显卡技术

全球首款 “Vega 7nm” GPU

Radeon Instinct and Epyc

高性能计算的加速器

AMD EPYC™ 服务器处理器和 Radeon Instinct™ GPU 加速器开创机器智能和高性能计算 (HPC) 的异构计算新纪元。

开创高性能计算和深度学习扩展计算的新纪元

要真正加快深度学习的步伐并解决数据中心的广泛需求,需要结合高性能计算和经过优化的 GPU 加速,通过分发给各核心的大量浮点运算来处理海量数据。如今大型系统设计人员也需要能够设计兼具灵活性和开放性的高效系统,并能够轻松进行系统配置以应对当今繁重的工作负荷。

AMD 为设计人员带来众多功能,使他们能在开放而灵活的环境中轻松实现服务器的优化设计,大幅提升性能、能效并降低延迟,从而把可实现的计算密度提升到更高水平。随着搭载全新 EPYC 处理器的服务器及 Radeon Instinct GPU 加速器的问世,加上我们的 ROCm 开放式软件平台,AMD 正在开创高性能计算和深度学习的异构计算新纪元。

Radeon Instinct™ MI25 服务器加速器

AMD 推出基于开放式标准的 Radeon Instinct 系列产品,开启数据中心的高性能计算和机器智能的新纪元,彻底改变行业格局。Radeon Instinct 加速器结合我们打造的开放式异构计算生态体系,能够大幅提升可达到的性能、能效水平和灵活性,构建卓越的系统,轻松应对当今以数据为核心的繁重工作负载。

全新 Radeon Instinct MI25 加速器基于 AMD 新一代“Radeon Vega”架构,搭载强大的并行运算引擎。它是享誉全球的训练加速器,适用于大规模的深度学习应用,可轻松处理高性能计算工作负载,提供高达 24.6 TFLOPS 的 FP16 和 12.3 TFLOPS 的 FP32 峰值浮点性能。1 超强性能结合开放式 ROCm 软件平台以及先进的 GPU 显存架构、16GB 的 HBM2,以及高达 484 GB/s 的显存带宽,堪称当今计算工作负载的超级解决方案。

Radeon Instinct MI25 主要特性:

  • 基于 AMD 的新一代“Radeon Vega”架构和先进的 GPU 显存架构
  • 为高性能计算和深度学习提供卓越的 FP16 和 FP32 性能
  • ROCm 开放式软件平台,适合高性能计算级的机架规模
  • 大型基址寄存器 (BAR) 支持 mGPU 点对点传输
  • MxGPU 硬件技术,用于实现更优的数据中心使用率

配备新型 AMD EPYC™ 处理器的服务器搭配 Radeon Instinct MI25 加速器,可实现卓越的计算密度和每节点性能。

 

数据的新家

释放每颗 EPYC™ (霄龙)处理器的超凡性能

HSA and Rocm logos

ROCm 开放式软件平台

ROCm 开源软件平台为高性能计算 (HPC) 级别的异构计算和世界级数据中心系统设计的开源根基。ROCm 平台提供性能优化的 Linux® 驱动、编译器、工具和代码库。ROCm 软件设计理念包括编程选择自由、极简和模块化软件开发方式,能够进一步优化 GPU 加速器运算。
 
此方法结合 AMD 的安全硬件虚拟化 MxGPU 技术,使系统设计师得以轻松改变设计系统的方式,从而实现更高的效率、不断优化数据中心的利用率和处理能力。

ROCm 基础特性:

  • 开放式 Linux® 64 位驱动程序和丰富的系统运行栈,为超大规模和高性能计算级的运算而优化。
  • 多 GPU 计算使用驱动程序中的直接 RDMA 对等同步支持,来支持通过 RDMA 的服务器节点来回通讯。
  • 简化编程设计模型,在需要时也可让开发人员掌控。
  • HCC 真正的单一源 C++ 异步编译器可进行整个系统寻址,而不仅限于单一设备。
  • HIP CUDA 转换工具为GPU 计算 API 的使用提供平台选择。

ROCm 开放式软件平台通过优化开放式 Linux 驱动程序和不受语言影响的丰富 ROCr 系统运行库,为大规模机器智能和高性能计算数据中心部署提供稳固的基础,并大量使用异构系统架构 (HSA) 运行库 API。这可为执行编程语言 (例如 HCC C++、Khronos Group’s OpenCL™、Continuum’s Anaconda Python 和 HIP CUDA 转换工具) 提供深厚基础。2

AMD 将持续倡导开放路线,加大对 NUMA 类加速所需关键功能的支持,进而优化对我们的 Radeon™ GPU 加速器,鼎力支持高性能计算和深度学习部署。ROCm 平台现在支持我们的全新 Radeon Instinct GPU 加速器系列产品,并仍将支持我们的其他 AMD FirePro™ S 系列、Radeon™ RX 系列和 Radeon™ Pro Duo 显卡。请访问 ROCm 网站,以查看所支持显卡的完整清单。

OpenCL logo

OpenCL™、OpenMP 及 OpenACC 支持

AMD 的最新产品继续支持这些标准3。我们相信,高性能计算业界中大多数人都希望开放标准成为他们运行项目和仿真测试的实际手段;对于这一目标,AMD 给予了坚定的支持,目前正在广泛地与业界中的合作伙伴合作,推动开放标准向前发展。

尾注
  1. TFLOPS 的计算方式:FLOPS 计算方式是取最高 DPM 状态的引擎时钟再乘以每个 GPU 的计算单元 (CU) 数。然后,将该值乘以每个计算单元中的流处理器数。再将该值乘以 FP32 的每时钟 2 FLOPS。如要计算 FP16 的 TFLOPS,会使用每时钟 4 FLOPS。FP64 TFLOPS 速率的计算是使用 1/16 速率而得。
  2. Python 支持已纳入规划,仍在开发中。
  3. 某些 S 系列显卡可能不支持全部所列标准。有关支持的 API 的更多详情,请参考每张显卡的产品规格。