AMD EPYC™ プロセッサで大規模 GPU 投資の価値を最大限に発揮

GPU アクセラレータは、大規模で複雑なモデルのトレーニングに優れ、効率的なリアルタイム推論を大規模にサポートする、最新の AI の根幹となっています。GPU 投資の成果を最大限に引き出すには、パワフルな CPU が欠かせません。

AI ワークロードに GPU が必要な理由

GPU は、多くの AI ワークロードに適したツールです。

  • AI トレーニング: GPU は、その並列処理能力により、大規模から中規模モデルのトレーニングを加速します。
  • 専用 AI の展開: GPU は、大規模展開におけるリアルタイム推論に必要なスピードとスケーラビリティを実現します。

CPU の優位性:

GPU の能力を適切な CPU と組み合わせることで、特定のワークロードに対する AI の効率性を大幅に向上させることができます。CPU の主な機能は次の通りです。

  • 高周波数 EPYC プロセッサ: 広範なデータ準備や後処理タスクを迅速かつ効率的に処理します。
  • 大容量のキャッシュ サイズ: 膨大なデータセットへの高速データ アクセスを実現します。
  • 高メモリ帯域幅と高性能 I/O: CPU と GPU 間の高速でシームレスなデータ交換を可能にします。
  • 電力効率に優れたコア: GPU に使用される電力を解放し、全体的なエネルギー消費の削減につながります。
  • GPU とソフトウェア エコシステムとの互換性: 最適化されたパフォーマンス、効率性、スムーズな操作を実現します。
GPU System with AMD EPYC and Instinct

AMD EPYC 9005 プロセッサ

高周波数の AMD EPYC 9005 プロセッサは、大規模な AI ワークロードにおいて GPU の真の性能を引き出すために理想的な選択肢です。ホスト CPU として、GPU が適切なタイミングで適切なデータを利用し、処理を継続できるようにすることで、最高の AI ワークロード スループットとシステム効率を実現します。  AMD EPYC の高周波数プロセッサは、高いコア周波数と大容量メモリが大きな特徴です。これらの特徴が GPU スループットをどのように向上させるかについては、記事をご覧ください

用途と業種

AMD EPYC CPU が駆動する GPU アクセラレータ ベース ソリューションは、世界最速クラスのスーパーコンピューターやクラウド インスタンスの多くで利用され、データ駆動型ワークロードを最適化し、AI で画期的な成果を達成するための、高い実績を持つプラットフォームを企業にお届けしています。

AMD EPYC 9005 シリーズ プロセッサ: GPU への大規模投資の価値を最大化する正しい選択

CPU は、GPU 間のデータ転送のオーケストレーションと同期、カーネル起動のオーバーヘッドの処理、データ準備の管理において不可欠な役割を果たします。この "導体" 機能により、GPU は最高の効率で動作します。

高性能 CPU による GPU 投資価値の最適化

多くの AI ワークロードは高い CPU クロック速度の恩恵を受け、データの処理、転送、同時実行が合理化されることで、GPU の性能と効率性が向上します。AI ホストノード用に設計された高性能プロセッサの EPYC 9575F は、最大 5 GHz で動作します。

8 GPU アクセラレータ搭載の 2P サーバーの比較

AMD Instinct GPU 搭載による AMD と Intel ホストノード CPU の比較
MLPerf® v4.1 推論 Llama 2-70B ベンチマーク¹
8x AMD Instinct™ MI300X + 2P 第 5 世代 EPYC 9575F (64 コア – 5 GHz)
1.11 倍
8x AMD Instinct™ MI300X + 2P Xeon 8460Y+ (40 コア – 3.7 GHz)
1.0 倍

推論 - Llama3.1-70B 推論ベンチマーク (BF16)²
8x Nvidia H100 + 2P 第 5 世代 EPYC 9575F (64 コア)
約 1.20 倍
8x Nvidia H100 + 2P Xeon 8592+ (64 コア)
1.0 倍
トレーニング - Llama3.1-8B 推論ベンチマーク (FP8)³
8x Nvidia H100 + 2P 第 5 世代 EPYC 9575F (64 コア)
約 1.15 倍
8x Nvidia H100 + 2P Xeon 8592+ (64 コア)
1.0 倍

エンタープライズ AI の効率的な導入

高性能、低消費電力、効率的なデータ処理、効果的な消費電力管理機能を兼ね備えた第 5 世代 AMD EPYC のようなプロセッサを使用することで、エネルギー消費とコストを最適化し、AI インフラストラクチャを最高のパフォーマンスで運用できるようになります。

電力効率に優れたサーバーを実現する AMD EPYC プロセッサは、卓越したパフォーマンスを発揮し、電力コスト削減を実現します。これらのプロセッサは、電力効率に優れたソリューションを構築し、AI 導入の最適化を実現するために、自信を持って導入できます。

AMD EPYC 9005 シリーズ プロセッサの AMD Infinity Power Management は、優れたデフォルト性能と、ワークロードに応じた動作の微調整を可能にします。

Abstract illustration with glowing blue lines

安心感の向上: 信頼できるソリューションで AI を導入する

AMD EPYC CPU がホストする認定済みまたは検証済みの GPU アクセラレーテッド ソリューションの中から、お客様の AI ワークロードを強化するオプションをお選びください。

ほかの GPU をお使いですか? Asus、Dell、Gigabyte、HPE、Lenovo、Supermicro をはじめとする業界トップクラスのプラットフォーム ソリューション プロバイダーが提供する、AMD EPYC CPU 搭載ソリューションについてお問い合わせください。

AMD EPYC CPU + GPU クラウド AI/ML インスタンス オプションの拡大するエコシステム

AWS、Azure、Google、IBM Cloud、OCI などの主要なクラウド プロバイダーの、AI/ML ワークロード向けに AMD EPYC CPU と GPU を組み合わせたインスタンスについてお問い合わせください。

server room photo

リソース

AMD Instinct アクセラレータ

最も要求の厳しい AI ワークロードを前進させるうえで、最適です。

AMD EPYC エンタープライズ AI 概要

CPU と GPU を使用した AI と機械学習のイノベーションについて説明した AMD およびパートナーの資料を検索できます

ポッドキャスト

AMD および業界をリードする技術者が、サーバー、クラウド コンピューティング、AI、HPC など、最新トレンドのトピックについて語り合います。ぜひお聞きください。

脚注
  1. 9xx5-013: 公式 MLPerf™ 推論スコア v4.1 Llama2-70B-99.9 サーバー トークン数/秒とオフライン トークン数/秒の結果は、2024 年 9 月 1 日に、https://mlcommons.org/benchmarks/inference-datacenter/ の次のエントリから取得しました。4.1-0070 (プレビュー) および 4.1.0022。MLPerf™ の名称とロゴは、米国およびその他の国における MLCommons Association の商標です。All rights reserved.不正な使用は固く禁じられています。詳細については、www.mlcommons.org をご覧ください。
  2. 9xx5-014: Llama3.1-70B の推論スループットは、2024 年 9 月 1 日時点の AMD 社内テストに基づきます。Llama3.1-70B の構成: TensorRT-LLM 0.9.0、nvidia/cuda 12.5.0-devel-ubuntu22.04、FP8、入力/出力トークン設定 (ユース ケース): [BS=1024 I/O=128/128、BS=1024 I/O=128/2048、BS=96 I/O=2048/128、BS=64 I/O=2048/2048]。トークン数/秒の測定結果です。2P AMD EPYC 9575F (合計 128 コア) + 8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、2P Intel Xeon Platinum 8592+ (合計 128 コア) + 8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、I/O トークン バッチ サイズ EMR Turin 相対値 128/128 1024 814.678 1101.966 1.353 128/2048 1024 2120.664 2331.776 1.1 2048/128 96 114.954 146.187 1.272 2048/2048 64 333.325 354.208 1.063。平均スループットが 1.197 倍に増加します。実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。
  3. 9xx5-015: Llama3.1-8B (BF16、最大シーケンス長 1024) のトレーニングとテストの実行結果は、2024 年 9 月 5 日時点での AMD 社内テストに基づきます。Llama3.1-8B の構成: 最大シーケンス長 1024、BF16、Docker: huggingface/transformers-pytorch-gpu:latest 2P AMD EPYC 9575F (合計 128 コア) + 8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)。毎秒 31.79 のトレーニング サンプル用。2P Intel Xeon Platinum 8592+ (合計 128 コア) + 8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、毎秒 27.74 のトレーニング サンプル用。平均スループットが 1.146 倍に増加します。  実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。