AI パフォーマンスの新たな標準
お客様が AI アクセラレータに投資する額は、2028 年までに 5000 億ドルに達すると予測されています。アクセラレータはわずか 4 年で企業にとって 5000 億ドルの価値を持つまでに成長することが見て取れます。AI が企業にもたらす生産性、強化、そして改革のレベルは他に類を見ず、ビジネス リーダーもそのことを認識しています。だからこそ、リーダーたちはすでに数十億ドルもの投資を実行し、働き方を変革しているのです。GPT 4、Llama 3.1 405B、Hugging Face プラットフォーム上の 100 万以上のオープン ソース モデルの多くなど、よく使われている AI モデルで実行されるアプリケーションを使用することで、毎日何百万人もの人々がすでに AMD Instinct™ アクセラレータに支えられています。
その生産性レベルは、今後さらに飛躍的に向上するでしょう。実際に、新製品 AMD Instinct™ MI325X アクセラレータの発売により AMD は、その実現を早めることを確約しています。
AMD Instinct™ MI325X アクセラレータ
膨大なメモリと最高水準のパフォーマンスが 1 つになる
AMD Instinct™ MI325X アクセラレータは、生成 AI モデルとデータセンターの新しいパフォーマンス標準を打ち立てます。第 3 世代 AMD CDNA™ アーキテクチャを基に構築され、モデル トレーニングや推論など、要求の厳しいさまざまな AI タスクにおいて卓越したパフォーマンスと効率性を実現するように設計されています。
このような負荷の高い AI アプリケーションには大量のメモリが必要となるため、業界をリードする次世代 HBM3e メモリ容量 256 GB と 6 TB/秒の帯域幅が搭載されています。処理能力と幅広いデータ型への対応を兼ね備えた AMD Instinct MI325X アクセラレータは、事実上あらゆる AI ソリューションに必要なレベルのパフォーマンスを企業に提供します。1
AMD Instinct MI325X アクセラレータと競合製品を比較した場合、Mixtral 8x7B、Mistral 7B、Meta Llama-3.1 70B などのモデルでは、業界トップクラスの推論性能が最大 1.4 倍向上しています。2、3、4
性能数値が向上し、それに伴い生産性も向上するだけでなく、お客様は業界をリードするメモリ容量とそのメリットを享受できます。これにより、AI 大規模言語モデルを使用する際に GPU の数を減らすことができ、クラスターをより小さくしても、前世代の製品と同等の結果、あるいはそれ以上の結果を得ることができます。5 つまり、展開に必要なスペースが小さくなり、展開が合理化され、消費電力の節約にも貢献できるということです。AMD Instinct MI325X アクセラレータは、高い TCO を負担することなく最高のパフォーマンスを求める企業にとって、間違いのない選択肢です。
AMD Instinct™ MI325X プラットフォーム
妥協のない卓越した演算能力の基盤
今日の生成 AI や大規模言語モデルでは、高速で結果を出すために 3 つの要素を必要としています。それは、複数のデータ型にわたる素早い加速、膨大なデータ セットを処理するための大容量メモリと帯域幅、そして集中的な I/O 帯域幅です。
新しいアクセラレータを搭載したプラットフォームにより、お客様はこれら 3 つの要素すべてを手に入れることができます。新しい業界標準のベースボード (UBB 2.0) は、最大 8 基の AMD Instinct™ MI325X アクセラレータと 2 TB の HBM3e メモリを搭載し、最も要求の厳しい AI モデルの処理にも対応します。また、8 つの x16 PCIe® Gen 5 ホスト I/O 接続と、各アクセラレータ間の直接接続を提供する AMD Infinity Fabric™ メッシュ テクノロジにより、データ ボトルネックは完全に解消されます。
競合他社の類似プラットフォームと比較した場合、MI325X プラットフォームは、メモリ容量が 1.8 倍、メモリ帯域幅が 1.3 倍、推論性能が最大 1.4 倍と、大幅な性能向上を実現しています。6、7、8
既存の AMD Instinct インフラストラクチャからアップグレードを検討しているお客様には、AMD Instinct MI325X アクセラレータをお勧めします。このアクセラレータは、AMD Instinct™ MI300X プラットフォームとドロップイン互換性があり、タイム トゥ マーケットを短縮し、コストのかかるインフラストラクチャの変更を最小限に抑えます。
アクセラレータ |
アーキテクチャ |
メモリ |
メモリ帯域幅 |
FP8 のパフォーマンス |
FP16 のパフォーマンス |
AMD Instinct™ MI325X |
AMD CDNA™ 3 |
256GB HBM3e |
6 テラバイト/秒 |
2.6 PF |
1.3 PF |
AMD ROCm™ プラットフォーム
オープン ソフトウェアによる AI 推論とトレーニングの高速化
AMD Instinct™ MI325X アクセラレータは、AMD のアクセラレーテッド コンピューティングの基盤である AMD ROCm™ ソフトウェアのパワーを活用し、次世代 AI アプリケーション、最先端 AI モデル、複雑なシミュレーションの最適化など、どのような作業においてもユーザーに驚異的な能力を提供します。
お客様が AMD アクセラレータを選択した場合、PyTorch や TensorFlow などの業界標準のフレームワークに対するゼロデイ サポートが受けられます。AI モデルの移行と展開が簡素化され、コードの変更は最小限で済みます。さらに、最新の AMD ROCm リリースでは、最適化されたコンパイラ、ライブラリ、およびランタイム サポートにより、AMD Instinct アクセラレータ上でのトレーニングが 1.8 倍、GPU 推論性能が 2.4 倍に向上し、高速なモデル収束、正確なモデル予測、効率性が非常に高い GPU 使用率を実現します。9、10
AMD Instinct™ MI325X アクセラレータに関する詳細情報については、AMD.com にアクセスするか、または AMD 担当者までお問い合わせください。
AMD アリーナ
AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ などに関するトレーニングで、AMD 製品の知識を深めることができます。
登録
AMD の最新製品、トレーニング リソース、"エキスパートに訊く" ウェビナーに関する情報を毎月お届けします。

関連記事
脚注
- 計算は、2024 年 9 月 26 日時点での仕様および/または推定に基づいて AMD パフォーマンス ラボにより実行されたものです。AMD Instinct™ MI325X OAM アクセラレータは、256 GB の HBM3e メモリ容量と 6 TB/秒の GPU ピーク理論メモリ帯域幅パフォーマンスを備えています。製品版の半導体によって、実際の結果は異なる場合があります。NVIDIA Hopper H200 (141GB) SXM GPU アクセラレータの公開結果で最高の値は以下のようになっています。HBM3e メモリ容量は 141GB、GPU メモリの帯域幅パフォーマンスは 4.8 TB/秒。 https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. NVidia Blackwell HGX B100 (192 GB) 700 W GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。NVidia Blackwell HGX B200 (192 GB) GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。Nvidia Blackwell の仕様については、https://resources.nvidia.com/en-us-blackwell-architecture をご覧ください。MI325-001A
- MI325-004: FP16 データ型を使用した Mixtral-8x7B モデルのテキスト生成スループットを測定する AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。テストは、次の AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータについて、入力長 128 トークンおよび出力長 4096 トークンを使用して実行されました。vLLM パフォーマンスにおける 1x MI325X (1000 W) と 1x H200 (700 W、TensorRT-LLM v0.13) の比較。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-004
- MI325-005: FP16 データ型を使用した Mistral-7B モデルの全体的なレイテンシを測定した、AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。テストは、次の AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータについて、入力長 128 トークンおよび出力長 128 トークンを使用して実行されました。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-005
- MI325-006: FP8 データ型を使用した LLaMA 3.1-70B モデルの全体的なレイテンシを測定した、AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータの次の構成で、入力長 2048 トークン、出力長 2048 トークンを使用してテストを実施しました。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-006
- MI325-003A: 計算された推定値は、GPU のみのメモリ サイズと、定義されたパラメーターに 10% のオーバーヘッドを加えたモデルで必要とされるメモリに基づいています。計算は、公表されている、場合によっては予備的なモデルのメモリ サイズに依存しています。PaLM 1、Llama 3.1 405B、Mixtral 8x22B、Samba-1 の結果は、システム/パーツの入手可能性を考慮し、MI325X および H200 で推定しています。
結果 (計算値):
必要な GPU: MI325X と H200 の比較
PaLM-1 (540B) 5 9
Llama 3.1 (405B) 4 7
Mixtral 8x22B (141B) 2 3
Samba-1 (1T) 9 16
サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。
- MI325-001A: 計算は、2024 年 9 月 26 日時点での仕様および/または推定に基づいて AMD パフォーマンス ラボにより実行されたものです。AMD Instinct™ MI325X OAM アクセラレータは、256 GB の HBM3e メモリ容量と 6 TB/秒の GPU ピーク理論メモリ帯域幅パフォーマンスを備えています。製品版の半導体によって、実際の結果は異なる場合があります。NVidia Hopper H200 (141 GB) SXM GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 141 GB、GPU メモリ帯域幅パフォーマンスは 4.8 TB/秒 (https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446)。NVidia Blackwell HGX B100 (192 GB) 700 W GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。NVidia Blackwell HGX B200 (192 GB) GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。Nvidia Blackwell の仕様については、https://resources.nvidia.com/en-us-blackwell-architecture をご覧ください。
- MI325-002: 2024 年 5 月 28 日に AMD パフォーマンス ラボで計算を実施しました。AMD Instinct™ MI325X GPU を計測したところ、結果は次のようになりました。1307.4 TFLOPS のピーク理論半精度 (FP16)、1307.4 TFLOPS のピーク理論 Bfloat16 フォーマット精度 (BF16)、2614.9 TFLOPS のピーク理論 8 ビット精度 (FP8)、2614.9 TOPs INT8 浮動小数点演算パフォーマンス。実際のパフォーマンスは最終仕様およびシステム構成により異なる場合があります。
Nvidia H200 SXM (141 GB) GPU に関して、次の結果が公開されています。989.4 TFLOPS ピーク理論半精度 Tensor (FP16 Tensor)、989.4 TFLOPS ピーク理論 Bfloat16 Tensor フォーマット精度 (BF16 Tensor)、1,978.9 TFLOPS ピーク理論 8 ビット精度 (FP8)、1,978.9 TOPs ピーク理論 INT8 浮動小数点演算パフォーマンス。BFLOAT16 Tensor コア、FP16 Tensor コア、FP8 Tensor コアおよび INT8 Tensor コア パフォーマンスは、Nvidia によりスパース性を使用して公開されました。AMD は、比較目的でこれらの数値を 2 で割ってスパース性なし/密度に変換しました。これらの数値は上に表示されます。
Nvidia H200 の出典: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 および https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
注記: Nvidia H200 GPU の公開された FLOPS パフォーマンスは H100 製品のものと同じです (https://resources.nvidia.com/en-us-tensor-core)。MI325-002
- MI325-014: AMD パフォーマンス ラボで 2024 年 10 月 8 日に実施された、FP8 データ型を使用した LLaMA 3.1-405B モデルのテキスト生成スループットを測定するテストに基づきます。AMD Instinct™ MI325X 8xGPU プラットフォームと NVIDIA H200 HGX GPU プラットフォームの次の構成で、入力長 128 トークン、出力長 2048 トークンを使用してテストを実施しました。vLLM 性能を備えた 8xGPU MI325X プラットフォームと NVIDIA 公開結果の比較。構成: MI325X 8x GPU プラットフォーム構成 Dell PowerEdge XE9680 + 2x Intel Xeon Platinum 8480+ プロセッサ、8x AMD Instinct MI325X (256 GiB、1000 W) GPU、Ubuntu 22.04、ROCm 6.3 (プレリリース ビルド) と Nvidia が公開している TensorRT-LLM v0.13 結果 (https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3039.7 出力トークン/秒より)。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-014
- MI300-61: AMD AI 製品管理チームにより 2024 年 9 月 28 日に実施された、AMD Instinct™ MI300X GPU における大規模言語モデル (LLM) のパフォーマンス比較効果測定 (最適化手法を有効化および無効化)。Llama 3.1-70B および Llama 3.1-405B、vLLM 0.5.5 を使用。
システム構成:
AMD EPYC 9654 96 コア プロセッサ、8 x AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux、周波数ブースト: 有効。パフォーマンスは、構成、vLLM、ドライバーの異なるバージョンを含む (ただしこれに限定されない) 要因によって異なる場合があります。
- MI300-62: 2024 年 9 月 29 日に AMD 社内パフォーマンス ラボで次のシステムを使用してテストしました。AMD Instinct™ MI300X GPU 8 基搭載システムで、Llama 3.1-8B、Llama 3.1-70B、Mixtral-8x7B、Mixtral-8x22B、Qwen 72B モデルと組み合わせた ROCm 6.2 ソフトウェアと ROCm 6.0 ソフトウェアの推論性能を比較。vLLM 0.5.5 を使用した ROCm 6.2 のパフォーマンスと vLLM 0.3.3 を使用した ROCm 6.0 のパフォーマンスを比較して効果を測定し、バッチ サイズ 1 ~ 256、シーケンス長 128 ~ 2048 でテストを実施。
構成:
AMD Instinct™ MI300X (192 GB、750 W) GPU 8 基搭載の 1P AMD EPYC™ 9534 CPU サーバー、Supermicro AS-8125GS-TNMR2、NPS1 (1 ソケットあたり 1 NUMA)、1.5 TiB (24 DIMM、4800 mts メモリ、64 GiB/DIMM)、4x 3.49 TB Micron 7450 ストレージ。BIOS バージョン: 1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Linux カーネル 5.15.0-119-generic を搭載した Ubuntu® 22.04 LTS。
対
AMD Instinct™ MI300X (192 GB、750 W) GPU 8 基搭載の 1P AMD EPYC 9534 CPU サーバー、Supermicro AS-8125GS-TNMR2、NPS1 (1 ソケットあたり 1 NUMA)、1.5 TiB (24 DIMM、4800 mts メモリ、64 GiB/DIMM)、4x 3.49 TB Micron 7450 ストレージ。BIOS バージョン: 1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Linux カーネル 5.15.0-119-generic を搭載した Ubuntu 22.04 LTS。
サーバー メーカーの構成によって、異なる結果が生じる場合があります。パフォーマンスは、構成、vLLM、ドライバーの異なるバージョンを含む (ただしこれに限定されない) 要因によって異なる場合があります。
免責条項: ここに記載されている情報は、情報提供のみを目的としており、事前通知なしで変更される場合があります。この資料の作成時には確認を重ねているものの、技術的な誤りや欠落、誤記などが含まれる可能性があり、AMD は当該情報の更新または修正の義務を負いません。Advanced Micro Devices, Inc. は、この資料の内容の正確性または完全性に関していかなる表明または保証も行わず、ここに記載される AMD ハードウェア、ソフトウェア、その他の製品の操作または使用に関して、非侵害、商品性、特定の目的への適合性の黙示的な保証を含め、いかなる種類の責任も一切負わないものとします。この資料は、黙示的あるいは禁反言で生じるものを含め、いかなる知的財産権へのライセンス付与を行うものではありません。AMD 製品の購入または使用に適用される条件および制限は、当事者間で締結された契約または AMD 標準売買条件に規定されているとおりです。GD-18u。
© 2024 Advanced Micro Devices, Inc. All rights reserved.AMD、AMD Arrow ロゴ、EPYC、Instinct、ROCm、およびそれらの組み合わせは、Advanced Micro Devices, Inc. の商標です。この資料に使用されているその他の製品名は、識別目的のみに使用されており、それぞれの所有者の商標である可能性があります。一部の AMD テクノロジでは、サードパーティによる有効化またはアクティブ化が必要になる場合があります。サポートされる機能はオペレーティング システムによって異なる場合があります。具体的な機能については、システム メーカーにお問い合わせください。完全に安全なテクノロジや製品はありません。
- 計算は、2024 年 9 月 26 日時点での仕様および/または推定に基づいて AMD パフォーマンス ラボにより実行されたものです。AMD Instinct™ MI325X OAM アクセラレータは、256 GB の HBM3e メモリ容量と 6 TB/秒の GPU ピーク理論メモリ帯域幅パフォーマンスを備えています。製品版の半導体によって、実際の結果は異なる場合があります。NVIDIA Hopper H200 (141GB) SXM GPU アクセラレータの公開結果で最高の値は以下のようになっています。HBM3e メモリ容量は 141GB、GPU メモリの帯域幅パフォーマンスは 4.8 TB/秒。 https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. NVidia Blackwell HGX B100 (192 GB) 700 W GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。NVidia Blackwell HGX B200 (192 GB) GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。Nvidia Blackwell の仕様については、https://resources.nvidia.com/en-us-blackwell-architecture をご覧ください。MI325-001A
- MI325-004: FP16 データ型を使用した Mixtral-8x7B モデルのテキスト生成スループットを測定する AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。テストは、次の AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータについて、入力長 128 トークンおよび出力長 4096 トークンを使用して実行されました。vLLM パフォーマンスにおける 1x MI325X (1000 W) と 1x H200 (700 W、TensorRT-LLM v0.13) の比較。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-004
- MI325-005: FP16 データ型を使用した Mistral-7B モデルの全体的なレイテンシを測定した、AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。テストは、次の AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータについて、入力長 128 トークンおよび出力長 128 トークンを使用して実行されました。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-005
- MI325-006: FP8 データ型を使用した LLaMA 3.1-70B モデルの全体的なレイテンシを測定した、AMD パフォーマンス ラボによる 2024 年 9 月 28 日のテストに基づきます。AMD Instinct™ MI325X GPU アクセラレータと NVIDIA H200 SXM GPU アクセラレータの次の構成で、入力長 2048 トークン、出力長 2048 トークンを使用してテストを実施しました。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-006
- MI325-003A: 計算された推定値は、GPU のみのメモリ サイズと、定義されたパラメーターに 10% のオーバーヘッドを加えたモデルで必要とされるメモリに基づいています。計算は、公表されている、場合によっては予備的なモデルのメモリ サイズに依存しています。PaLM 1、Llama 3.1 405B、Mixtral 8x22B、Samba-1 の結果は、システム/パーツの入手可能性を考慮し、MI325X および H200 で推定しています。
結果 (計算値):
必要な GPU: MI325X と H200 の比較
PaLM-1 (540B) 5 9
Llama 3.1 (405B) 4 7
Mixtral 8x22B (141B) 2 3
Samba-1 (1T) 9 16
サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。
- MI325-001A: 計算は、2024 年 9 月 26 日時点での仕様および/または推定に基づいて AMD パフォーマンス ラボにより実行されたものです。AMD Instinct™ MI325X OAM アクセラレータは、256 GB の HBM3e メモリ容量と 6 TB/秒の GPU ピーク理論メモリ帯域幅パフォーマンスを備えています。製品版の半導体によって、実際の結果は異なる場合があります。NVidia Hopper H200 (141 GB) SXM GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 141 GB、GPU メモリ帯域幅パフォーマンスは 4.8 TB/秒 (https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446)。NVidia Blackwell HGX B100 (192 GB) 700 W GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。NVidia Blackwell HGX B200 (192 GB) GPU アクセラレータの公開結果で最高の値は次のようになっています。HBM3e メモリ容量は 192 GB、GPU メモリ帯域幅パフォーマンスは 8 TB/秒。Nvidia Blackwell の仕様については、https://resources.nvidia.com/en-us-blackwell-architecture をご覧ください。
- MI325-002: 2024 年 5 月 28 日に AMD パフォーマンス ラボで計算を実施しました。AMD Instinct™ MI325X GPU を計測したところ、結果は次のようになりました。1307.4 TFLOPS のピーク理論半精度 (FP16)、1307.4 TFLOPS のピーク理論 Bfloat16 フォーマット精度 (BF16)、2614.9 TFLOPS のピーク理論 8 ビット精度 (FP8)、2614.9 TOPs INT8 浮動小数点演算パフォーマンス。実際のパフォーマンスは最終仕様およびシステム構成により異なる場合があります。
Nvidia H200 SXM (141 GB) GPU に関して、次の結果が公開されています。989.4 TFLOPS ピーク理論半精度 Tensor (FP16 Tensor)、989.4 TFLOPS ピーク理論 Bfloat16 Tensor フォーマット精度 (BF16 Tensor)、1,978.9 TFLOPS ピーク理論 8 ビット精度 (FP8)、1,978.9 TOPs ピーク理論 INT8 浮動小数点演算パフォーマンス。BFLOAT16 Tensor コア、FP16 Tensor コア、FP8 Tensor コアおよび INT8 Tensor コア パフォーマンスは、Nvidia によりスパース性を使用して公開されました。AMD は、比較目的でこれらの数値を 2 で割ってスパース性なし/密度に変換しました。これらの数値は上に表示されます。
Nvidia H200 の出典: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 および https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
注記: Nvidia H200 GPU の公開された FLOPS パフォーマンスは H100 製品のものと同じです (https://resources.nvidia.com/en-us-tensor-core)。MI325-002
- MI325-014: AMD パフォーマンス ラボで 2024 年 10 月 8 日に実施された、FP8 データ型を使用した LLaMA 3.1-405B モデルのテキスト生成スループットを測定するテストに基づきます。AMD Instinct™ MI325X 8xGPU プラットフォームと NVIDIA H200 HGX GPU プラットフォームの次の構成で、入力長 128 トークン、出力長 2048 トークンを使用してテストを実施しました。vLLM 性能を備えた 8xGPU MI325X プラットフォームと NVIDIA 公開結果の比較。構成: MI325X 8x GPU プラットフォーム構成 Dell PowerEdge XE9680 + 2x Intel Xeon Platinum 8480+ プロセッサ、8x AMD Instinct MI325X (256 GiB、1000 W) GPU、Ubuntu 22.04、ROCm 6.3 (プレリリース ビルド) と Nvidia が公開している TensorRT-LLM v0.13 結果 (https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3039.7 出力トークン/秒より)。サーバー メーカーの構成によって、異なる結果が生じる場合があります。最新ドライバーと最適化の有無によって、パフォーマンスが異なる可能性があります。MI325-014
- MI300-61: AMD AI 製品管理チームにより 2024 年 9 月 28 日に実施された、AMD Instinct™ MI300X GPU における大規模言語モデル (LLM) のパフォーマンス比較効果測定 (最適化手法を有効化および無効化)。Llama 3.1-70B および Llama 3.1-405B、vLLM 0.5.5 を使用。
システム構成:
AMD EPYC 9654 96 コア プロセッサ、8 x AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux、周波数ブースト: 有効。パフォーマンスは、構成、vLLM、ドライバーの異なるバージョンを含む (ただしこれに限定されない) 要因によって異なる場合があります。
- MI300-62: 2024 年 9 月 29 日に AMD 社内パフォーマンス ラボで次のシステムを使用してテストしました。AMD Instinct™ MI300X GPU 8 基搭載システムで、Llama 3.1-8B、Llama 3.1-70B、Mixtral-8x7B、Mixtral-8x22B、Qwen 72B モデルと組み合わせた ROCm 6.2 ソフトウェアと ROCm 6.0 ソフトウェアの推論性能を比較。vLLM 0.5.5 を使用した ROCm 6.2 のパフォーマンスと vLLM 0.3.3 を使用した ROCm 6.0 のパフォーマンスを比較して効果を測定し、バッチ サイズ 1 ~ 256、シーケンス長 128 ~ 2048 でテストを実施。
構成:
AMD Instinct™ MI300X (192 GB、750 W) GPU 8 基搭載の 1P AMD EPYC™ 9534 CPU サーバー、Supermicro AS-8125GS-TNMR2、NPS1 (1 ソケットあたり 1 NUMA)、1.5 TiB (24 DIMM、4800 mts メモリ、64 GiB/DIMM)、4x 3.49 TB Micron 7450 ストレージ。BIOS バージョン: 1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Linux カーネル 5.15.0-119-generic を搭載した Ubuntu® 22.04 LTS。
対
AMD Instinct™ MI300X (192 GB、750 W) GPU 8 基搭載の 1P AMD EPYC 9534 CPU サーバー、Supermicro AS-8125GS-TNMR2、NPS1 (1 ソケットあたり 1 NUMA)、1.5 TiB (24 DIMM、4800 mts メモリ、64 GiB/DIMM)、4x 3.49 TB Micron 7450 ストレージ。BIOS バージョン: 1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Linux カーネル 5.15.0-119-generic を搭載した Ubuntu 22.04 LTS。
サーバー メーカーの構成によって、異なる結果が生じる場合があります。パフォーマンスは、構成、vLLM、ドライバーの異なるバージョンを含む (ただしこれに限定されない) 要因によって異なる場合があります。
免責条項: ここに記載されている情報は、情報提供のみを目的としており、事前通知なしで変更される場合があります。この資料の作成時には確認を重ねているものの、技術的な誤りや欠落、誤記などが含まれる可能性があり、AMD は当該情報の更新または修正の義務を負いません。Advanced Micro Devices, Inc. は、この資料の内容の正確性または完全性に関していかなる表明または保証も行わず、ここに記載される AMD ハードウェア、ソフトウェア、その他の製品の操作または使用に関して、非侵害、商品性、特定の目的への適合性の黙示的な保証を含め、いかなる種類の責任も一切負わないものとします。この資料は、黙示的あるいは禁反言で生じるものを含め、いかなる知的財産権へのライセンス付与を行うものではありません。AMD 製品の購入または使用に適用される条件および制限は、当事者間で締結された契約または AMD 標準売買条件に規定されているとおりです。GD-18u。
© 2024 Advanced Micro Devices, Inc. All rights reserved.AMD、AMD Arrow ロゴ、EPYC、Instinct、ROCm、およびそれらの組み合わせは、Advanced Micro Devices, Inc. の商標です。この資料に使用されているその他の製品名は、識別目的のみに使用されており、それぞれの所有者の商標である可能性があります。一部の AMD テクノロジでは、サードパーティによる有効化またはアクティブ化が必要になる場合があります。サポートされる機能はオペレーティング システムによって異なる場合があります。具体的な機能については、システム メーカーにお問い合わせください。完全に安全なテクノロジや製品はありません。