高性能コンピューティングのためのアクセラレーター

進化、適応、学習

EPYC™サーバー・プロセッサーとRadeon Instinct™ GPUアクセラレーターにより、マシン・インテリジェンスとHPCに向けたヘテロジニアス・コンピューティングの新時代が到来。

AMD EPYC™Radeon Instinct™

HPCおよびディープ・ラーニング向けスケールアウト・コンピューティングの新時代を実現する

ディープ・ラーニングのペースを真に加速し、データセンターの幅広いニーズに対処するには、高性能のコンピューティングとGPUアクセラレーションを組み合わせ、多数のコアに分散可能な浮動小数点演算を含む膨大な量のデータを処理するために最適化する必要があります。大規模なシステムの設計者が要求の非常に厳しい今日のワークロードの課題に対処するシステムを構成するには、柔軟性とオープン性を備えた効率的なシステムを設計する能力も必要です。

AMDは設計者の能力向上をサポート、オープンかつ柔軟な環境で高性能、低レーテンシー、高効率な最適化されたサーバー設計を可能にし、達成可能なコンピューティング密度の水準を引き上げます。Radeon Instinct GPUアクセラレーター搭載の新しいEPYCプロセッサー・ベース・サーバーを導入、当社のROCmオープン・ソフトウェア・プラットフォームと組み合わせることで、AMDはHPCおよびディープ・ラーニングに向けたヘテロジニアス・コンピューティングの新時代をリードします。

Radeon Instinct™ MI25サーバー・アクセラレーター

AMDでは、オープン標準ベースのRadeon Instinct製品ファミリーを導入し、新時代を切り開いています。​Radeon Instinctアクセラレーターは、ヘテロジニアス・コンピューティングに対する当社のオープンなエコシステム・アプローチと組み合わせることで、達成可能な性能、効率性、さらには現在のデータ中心ワークロードの課題に対応できるシステムを設計する上で必要となる柔軟性に関する水準を引き上げます。​

新しいRadeon Instinct MI25アクセラレーターは、AMDの次世代「Vega」アーキテクチャーを基盤に、強力な並列演算エンジンを駆動します。大規模なディープ・ラーニング・アプリケーションに向けのトレーニング・アクセラレーターとしてはた世界最高レベルを誇り、主力コンポーネントとしてHPCワークロードを処理します。ピーク時の浮動小数点演算性能は、FP16では24.6 TFLOPS、FP32では12.3 TFLOPSです1。この性能をROCmオープン・ソフトウェア・プラットフォーム、世界で最も高度なGPUメモリー・アーキテクチャー、16 GBのHBM2、最大484 GB/秒のメモリー帯域幅と組み合わせることで、現在の演算ワークロードに対応した究極のソリューションを手に入れることができます。​

Radeon Instinct MI25の特長:

  • 世界で最も高度なGPUメモリー・アーキテクチャーを搭載したAMDの次世代「Vega」アーキテクチャーに基づいて構築​
  • HPCおよびディープ・ラーニングに対応する、高性能FP16およびFP32
  • HPCクラスのラック・スケールに対応するROCmオープン・ソフトウェア・プラットフォーム
  • 大規模なBARサポートによる、ピア・ツー・ピアのmGPU
  • MxGPU SR-IOVハードウェア仮想化テクノロジーによる、データセンター使用率の最適化

新しいAMD EPYC™プロセッサー・ベースのサーバーとRadeon Instinct MI25アクセラレーターを組み合わせることで、ノードあたり最良のコンピューティング密度および性能を実現


詳細を読む


 ​

ROCmオープン・ソフトウェア・プラットフォーム

ROCmオープン・ソフトウェア・プラットフォームで、HPCクラスのヘテロジニアス・コンピューティングと世界レベルのデータセンター・システム設計向けオープンソースの基盤です。ROCmプラットフォームが、Linux®ドライバー、コンパイラー、ツール、ライブラリの性能を最適化します。ROCmのソフトウェア設計理念は、プログラミングの選択肢、ミニマリズム、モジュラー型のソフトウェア開発アプローチにおける支援を通じて、より​最適化されたGPUアクセラレーター・コンピューティングを可能にすることにあります。

AMDの安全なハードウェア仮想化MxGPUテクノロジーと組み合わせることで、設計者はシステム設計の在り方を完全して、効率性を高め、データセンターの使用率および容量を最適化することができます。

ROCmの基本的な要素:
HSA Foundation logo ​ ROCm Platform logo
  • ハイパースケールおよびHPCクラスのコンピューティング向けに最適化された、オープンなヘッドレスLinux® 64-bitドライバーと十分なシステム・ランタイム・スタック
  • ドライバーに直接RDMAピア同期をサポートして、RDMA経由のサーバー/ノード間の双方向通信​をサポートするマルチGPUコンピューティングを実現
  • よりシンプルなプログラミング・モデルにより、必要に応じて開発者が制御可能
  • HCCの真のシングルソースC++ヘテロジニアス・コンパイラーにより、単一デバイスだけでなくシステム全体を処理
  • HIP CUDA変換ツールにより、GPUコンピューティングAPIを使用する際のプラットフォームの選択が可能

ROCmオープン・ソフトウェア・プラットフォームでは、大規模なマシン・インテリジェンスおよびHPCデータセンターの導入のために、最適化されたオープンなLinuxドライバー、十分なROCrシステム・ランタイムが備えた堅固な基盤を構築します。このシステム・ランタイムは言語非依存であり、ヘテロジニアス・システム・アーキテクチャー(HSA)ランタイムAPIを多用します。これによって、HCC C++、Khronos GroupのOpenCL™、ContinuumのAnaconda Python、HIP CUDA変換ツールなどのプログラミング言語を実行するための、優れた基盤が提供されます。​2

AMDは引き続きオープン・アプローチに沿って、HPC​およびディープ・ラーニングの導入に向けたNUMAクラスのアクセラレーションに不可欠な機能のサポートを、当社のRadeon™ GPUアクセラレーターにおいて拡張していきます。ROCmプラットフォームでは現在、当社の新しいRadeon Instinct GPUアクセラレーター製品ファミリーをサポート、さらにその他多数のAMD FirePro™ Sシリーズ、Radeon™ RXシリーズ、Radeon™ Pro Duoグラフィックス・カードも引き続きサポートしています。サポートされているGPUカードの詳しいリストについては、ROCmのWebサイトをご覧ください。

詳細を読む


 

OpenCL™, OpenMP そして OpenACC をサポート

OpenCL

AMDは今後もこれらのオープン標準を最新の製品でサポートしていきます。3AMDでは、HPCコミュニティーの多くの人々がプロジェクトやシミュレーションを実行する事実上の手段としてオープン標準を希望していると考えています。AMDはこの目標達成のために取り組むとともに、オープン標準の推進のためにコミュニティーと幅広く連携しています。 ​

 AMD FirePro™ Sシリーズ・アクセラレーター

AMD FirePro™ S9300 x2

世界最速の単精度演算を提供するGPUアクセラレーターであるAMD FirePro™ S9300 x2 サーバーGPUは、データ分析や地震探査処理の非常に複雑なHPCワークロードを高速化します。4,5 デベロッパーのページ​ www.gpuopen.comでは、ROCmツールをはじめ、数多くのツールやライブラリーを提供しています。

AMDの顧客であるCGGが最近あるテストを行いました。CGGは最先端の地球科学分野における大手企業で、最近、新しいAMD FirePro™ S9300 x2 GPUなどの幾つかのGPUアクセラレーターで、独自の波動方程式モデリングのベンチマークテストを実施しました。そのテストでは波動方程式の複雑さが上がるに連れて、AMD FirePro™ S9300 x2 GPUの性能の高さが際立ち、最終的には他のカードに比べて2倍の処理速度を示しました。6

Wave Table 

CGG提供によるチャート

AMD FirePro™ S9100, S9150 そして S9170 アクセラレーター

優れた倍精度性能をお求めならAMD FirePro™ S9100シリーズのアクセラレーターが最適です。2014年のGreen500リストで1位に輝いたスーパーコンピューターに搭載されたAMD FirePro™ S9150は、競合製品のTesla K40と比較して倍精度性能50%増を提供し、競合を軽々と凌駕する性能を備えています。7

David Rohr博士とLindenstruth教授が2014年のGreen500リストで1位に輝いたスーパーコンピューター、L-CSCクラスターについて語るインタビュー動画をご覧ください。

 

 

DGEMM(Double-precision General Matrix-Matrix multiplication)は、倍精度、行列‐行列積の浮動小数点実行速度を測定するものです。倍精度行列演算を現実の世界に応用できることは数多くあり、数値流体力学、有限要素解析、また構造モデリング、分子力学などはその一例です。

AMD OpenCL BLASの実装により、AMD FirePro™ S9150 GPU は、Tesla K40 の1.3 TFLOPS DGEMMを遥かに超える、2 TFLOPSのDGEMM性能の維持を達成することができました。

大規模な行列‐行列積の性能が必要なら、大容量のGDDR5メモリー32GBを利用できるAMD FirePro™ S9170 GPUが最適です。Nvidia K80 および K40のそれぞれ24GBと12GBのメモリーを備えていますが、それらの少ないオンボードメモリーより大規模の行列の演算には対応できません。

 AMD FirePro™ Sシリーズ仕様

高性能演算向けAMD FirePro™サーバーGPUソリューション

数値流体力学(CFD)における学術研究に始まり、地震探査処理や油層シミュレーションを実施する石油・ガス業界まで、AMD FirePro™ Sシリーズ・サーバーGPUは、あらゆるニーズに応える製品ラインアップを提供します。AMD FireProサーバーGPUは、最先端の単精度演算性能および倍精度演算性能を備え、GPUの大容量並列処理能力を要する計算が複雑なプロジェクトに適したソリューションです。​4

​S9100​S9150​S9170​S9300 X2
AMD FirePro™ S9300 x2
​GCNストリーミング・プロセッサー​2560​2816​2816​​8192
単精度(GFLOPS)​4220​5070​5240​​13900
​倍精度(GFLOPS)​2110​2530​2620​​870
​オンボードメモリー​12GB GDDR5​16GB GDDR5​​32​GB GDDR5​​8GB HBM​
​ECC​あり(外付け)​あり(外付け)​あり(外付け)​​なし
帯域幅(GB/S)​320​320​320​​1024​
​インターフェース​PCIe 3.0(デュアルスロット)​PCIe 3.0(デュアルスロット)​PCIe 3.0(デュアルスロット)PCIe 3.0(デュアルスロット)​
​最大消費電力​225W​235W​2​75W​300W
​冷却受動ヒートシンク受動ヒートシンク受動ヒートシンク受動ヒートシンク​​
​最適な用途

下記の倍精度ワークフロー

学術界および政治関連

石油・ガス(油層シミュレーション)

下記の倍精度ワークフロー

学術界および政治関連

石油・ガス(油層シミュレーション)

下記の倍精度ワークフロー

学術界および政治関連​

石油・ガス(油層シミュレーション)​

​単精度ワークロードの一例:

​分子力学

​地球科学

 購入はこちら

AMD FirePro™ アクセラレーターは、Dell、HPE、SuperMicroなどの多くのOEMやシステム・インテグレーターからご購入できます。

Dell ​ ​ ​ ​​ ​HPE
 ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​ SuperMicro ​ ​ ​ ​​ 
​​

AMD FirePro™ GPU搭載のDell サーバーの詳細については www.amd.com/dell-server をご覧ください。

AMD FirePro™ GPU搭載のHPE サーバーの詳細については www.amd.com/hpe をご覧ください。​

  

  

  

  

  

脚注