Radeon Instinct and Epyc

高性能コンピューティングのためのアクセラレーター

EPYC™サーバー・プロセッサーとRadeon Instinct™ GPUアクセラレーターにより、マシン・インテリジェンスとHPCに向けたヘテロジニアス・コンピューティングの新時代が到来。

HPCおよびディープ・ラーニング向けスケールアウト・コンピューティングの新時代を実現する

ディープ・ラーニングのペースを真に加速し、データセンターの幅広いニーズに対処するには、高性能のコンピューティングとGPUアクセラレーションを組み合わせ、多数のコアに分散可能な浮動小数点演算を含む膨大な量のデータを処理するために最適化する必要があります。大規模なシステムの設計者が要求の非常に厳しい今日のワークロードの課題に対処するシステムを構成するには、柔軟性とオープン性を備えた効率的なシステムを設計する能力も必要です。

AMDは設計者の能力向上をサポート、オープンかつ柔軟な環境で高性能、低レーテンシー、高効率な最適化されたサーバー設計を可能にし、達成可能なコンピューティング密度の水準を引き上げます。Radeon Instinct GPUアクセラレーター搭載の新しいEPYCプロセッサー・ベース・サーバーを導入、当社のROCmオープン・ソフトウェア・プラットフォームと組み合わせることで、AMDはHPCおよびディープ・ラーニングに向けたヘテロジニアス・コンピューティングの新時代をリードします。

Radeon Instinct™ MI25サーバー・アクセラレーター

AMDでは、オープン標準ベースのRadeon Instinct製品ファミリーを導入し、新時代を切り開いています。​Radeon Instinctアクセラレーターは、ヘテロジニアス・コンピューティングに対する当社のオープンなエコシステム・アプローチと組み合わせることで、達成可能な性能、効率性、さらには現在のデータ中心ワークロードの課題に対応できるシステムを設計する上で必要となる柔軟性に関する水準を引き上げます。​

新しいRadeon Instinct MI25アクセラレーターは、AMDの次世代「Vega」アーキテクチャーを基盤に、強力な並列演算エンジンを駆動します。大規模なディープ・ラーニング・アプリケーションに向けのトレーニング・アクセラレーターとしてはた世界最高レベルを誇り、主力コンポーネントとしてHPCワークロードを処理します。ピーク時の浮動小数点演算性能は、FP16では24.6 TFLOPS、FP32では12.3 TFLOPSです1。この性能をROCmオープン・ソフトウェア・プラットフォーム、世界で最も高度なGPUメモリー・アーキテクチャー、16 GBのHBM2、最大484 GB/秒のメモリー帯域幅と組み合わせることで、現在の演算ワークロードに対応した究極のソリューションを手に入れることができます。​

Radeon Instinct MI25の特長:

  • 世界で最も高度なGPUメモリー・アーキテクチャーを搭載したAMDの次世代「Vega」アーキテクチャーに基づいて構築​
  • HPCおよびディープ・ラーニングに対応する、高性能FP16およびFP32
  • HPCクラスのラック・スケールに対応するROCmオープン・ソフトウェア・プラットフォーム
  • 大規模なBARサポートによる、ピア・ツー・ピアのmGPU
  • MxGPUハードウェア・テクノロジーによる、データセンター使用率の最適化

新しいAMD EPYC™プロセッサー・ベースのサーバーとRadeon Instinct MI25アクセラレーターを組み合わせることで、ノードあたり最良のコンピューティング密度および性能を実現

EPYC™メモリー・バウンドHPCの性能

AMD EPYCプロセッサーは、メモリー・バウンドHPCワークロード向けに優れた性能を発揮します。

HSA and Rocm logos

ROCmオープン・ソフトウェア・プラットフォーム

ROCmオープン・ソフトウェア・プラットフォームで、HPCクラスのヘテロジニアス・コンピューティングと世界レベルのデータセンター・システム設計向けオープンソースの基盤です。ROCmプラットフォームが、Linux®ドライバー、コンパイラー、ツール、ライブラリの性能を最適化します。ROCmのソフトウェア設計理念は、プログラミングの選択肢、ミニマリズム、モジュラー型のソフトウェア開発アプローチにおける支援を通じて、より​最適化されたGPUアクセラレーター・コンピューティングを可能にすることにあります。

AMDの安全なハードウェア仮想化MxGPUテクノロジーと組み合わせることで、設計者はシステム設計の在り方を完全して、効率性を高め、データセンターの使用率および容量を最適化することができます。

ROCmの基本的な要素:

  • ハイパースケールおよびHPCクラスのコンピューティング向けに最適化された、オープンなヘッドレスLinux® 64-bitドライバーと十分なシステム・ランタイム・スタック
  • ドライバーに直接RDMAピア同期をサポートして、RDMA経由のサーバー/ノード間の双方向通信​をサポートするマルチGPUコンピューティングを実現
  • よりシンプルなプログラミング・モデルにより、必要に応じて開発者が制御可能
  • HCCの真のシングルソースC++ヘテロジニアス・コンパイラーにより、単一デバイスだけでなくシステム全体を処理
  • HIP CUDA変換ツールにより、GPUコンピューティングAPIを使用する際のプラットフォームの選択が可能

ROCmオープン・ソフトウェア・プラットフォームでは、大規模なマシン・インテリジェンスおよびHPCデータセンターの導入のために、最適化されたオープンなLinuxドライバー、十分なROCrシステム・ランタイムが備えた堅固な基盤を構築します。このシステム・ランタイムは言語非依存であり、ヘテロジニアス・システム・アーキテクチャー(HSA)ランタイムAPIを多用します。これによって、HCC C++、Khronos GroupのOpenCL™、ContinuumのAnaconda Python、HIP CUDA変換ツールなどのプログラミング言語を実行するための、優れた基盤が提供されます。​2

AMDは引き続きオープン・アプローチに沿って、HPC​およびディープ・ラーニングの導入に向けたNUMAクラスのアクセラレーションに不可欠な機能のサポートを、当社のRadeon™ GPUアクセラレーターにおいて拡張していきます。ROCmプラットフォームでは現在、当社の新しいRadeon Instinct GPUアクセラレーター製品ファミリーをサポート、さらにその他多数のAMD FirePro™ Sシリーズ、Radeon™ RXシリーズ、Radeon™ Pro Duoグラフィックス・カードも引き続きサポートしています。サポートされているGPUカードの詳しいリストについては、ROCmのWebサイトをご覧ください。

OpenCL logo

OpenCL™, OpenMP そして OpenACC をサポート

AMDは今後もこれらのオープン標準を最新の製品でサポートしていきます。3AMDでは、HPCコミュニティーの多くの人々がプロジェクトやシミュレーションを実行する事実上の手段としてオープン標準を希望していると考えています。AMDはこの目標達成のために取り組むとともに、オープン標準の推進のためにコミュニティーと幅広く連携しています。 ​

脚注
  1. TFLOPSの計算:FLOPSの計算では、最高のDPM状態のエンジン・クロックを使用、これにGPUあたりのCU数を乗算しています。次にその値を、各CUに存在するストリーム・プロセッサー数で乗算します。さらに、FP32の場合は、その値をクロックあたり2 FLOPSで乗算します。FP16の場合のTFLOPSを計算するには、クロックあたり4 FLOPSが使用されました。FP64のTFLOPSレートは、16分の1のレートを使用して計算されています。
  2. Python向けサポートが予定されていますが、まだ開発中です。
  3. Sシリーズのカード製品によっては、ここで記載されたすべての標準をサポートしていない場合があります。サポートされているAPIの詳細については、各カードの製品仕様をご参照ください。