最先端の AMD AI ソフトウェア スタック

最新のアルゴリズムとモデル

推論、Attention アルゴリズム、スパース MoE の強化によって効率の向上を実現

AMD Instinct™ MI350 シリーズに対応

AMD CDNA 4 アーキテクチャ、高度な HBM により新しいデータ型をサポート

AI スケーリングのための高度な機能

シームレスな分散推論、MoE トレーニング、大規模な強化学習

AI ライフサイクル

エンタープライズ AI およびクラスター管理を簡素化し、多様な業界にわたるスケーラビリティを実現

AMD Ryzen™ AI & AMD Radeon™ グラフィックスをサポート

多様なアプリケーション ニーズに対応する包括的なエンドポイント AI ソリューション

世代間で飛躍的に向上したパフォーマンス

ROCm 7 と ROCm 6 の比較

3.5 倍 平均パフォーマンスの向上
3.2
3.4 倍
3.8 倍
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
推論¹
3 倍 平均パフォーマンスの向上
3 倍
3 倍
3.1 倍
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
トレーニング²

AMD Instinct™ MI350 シリーズに対応

AMD Instinct™ MI350 シリーズ GPU 搭載

AMD Instinct MI350X プラットフォームとオープン ラック インフラストラクチャのシームレスな統合を強化し、迅速な展開と大規模な AI パフォーマンスの最適化を実現します。

AMD Instinct™ MI350X Accelerators

エンタープライズ AI のスケーリング

data center

オープン エコシステムによる分散推論

vLLM-d、DeepEP、SGLang、および GPU ダイレクト アクセスにより、ROCm ソフトウェア プラットフォームは、ラック スケールにおいてバッチ間、ノード間、モデル間で最高のスループットを発揮します。

woman in data center

AI ライフサイクルのための ROCm

ROCm ソフトウェアは、エンタープライズ AI フレームワークと統合されており、運用プラットフォームやクラスター管理を含む ROCm エンタープライズ AI をカバーする、本番 AI 向けの完全なオープンソースのエンドツーエンド ワークフローを提供します。

vertical-gradient-1.png

エンドポイントでの AI

AMD Ryzen™ AI と AMD Radeon™ グラフィックスにわたって ROCm エコシステムを拡大

ROCm エンドポイント AI エコシステムは、最新の Radeon RX 9000 シリーズを含む AMD Radeon 製品だけでなく、クラスをリードする Ryzen AI MAX 製品でも、Linux と Windows をサポートします。

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

今すぐ設計をはじめよう

AMD 開発者向けクラウドを使用して、AI/ML、ハイパフォーマンス コンピューティング、データ分析タスクを加速できます。

最新情報を入手

ROCm 関連ニュースで最新情報をお届けします。

脚注
  1. MI300-080 - 2025 年 5 月 15 日に AMD パフォーマンス ラボでテストを実施しました。このテストでは、バッチ サイズが 1 ~ 256 でシーケンス長が 128 ~ 204 の Llama 3.1-70B (TP2)、Qwen 72B (TP2)、Deepseek-R1 (FP16) モデルを実行する (8) AMD Instinct MI300X GPU を搭載したシステム上で、AMD ROCm 6.x ソフトウェア (vLLM 0.3.3) と、AMD ROCm 7.0 プレビュー版 SW (vLLM 0.8.5) の推論性能をトークン数/秒 (TPS) で測定しました。記載されている性能向上は、テストした (3) LLM の平均 TPS です。

    ハードウェア構成

    AMD Instinct™ MI300X (192 GB、750 W) GPU 8 基搭載の 1P AMD EPYC™ 9534 CPU サーバー、Supermicro AS-8125GS-TNMR2、NPS1 (1 ソケットあたり 1 NUMA)、1.5 TiB (24 DIMM、4800 mts メモリ、64 GiB/DIMM)、4x 3.49 TB Micron 7450 ストレージ。BIOS バージョン: 1.8 

    ソフトウェア構成

    Ubuntu 22.04 LTS + Linux kernel 5.15.0-119-generic

    Qwen 72B および Llama 3.1-70B -

    ROCm 7.0 プレビュー版 SW 

    PyTorch 2.7.0。Deepseek R-1 - ROCm 7.0 プレビュー版、SGLang 0.4.6、PyTorch 2.6.0。 

    比較対象は、

    Qwen 72 および Llama 3.1-70B - ROCm 6.x GA SW

    PyTorch 2.7.0 および 2.1.1  

    Deepseek R-1: ROCm 6.x GA SW

    SGLang 0.4.1、PyTorch 2.5.0。

    サーバー メーカーの構成によって、異なる結果が生じる場合があります。構成、ソフトウェア、vLLM のバージョン、最新ドライバーの使用、最適化の状態により、パフォーマンスが異なる可能性があります。

  2. MI300-081 - 2025 年 5 月 15 日に AMD パフォーマンス ラボでテストを実施しました。このテストでは、Llama 2-70B (4K)、Qwen1.5-14B、Llama3.1-8B モデルとカスタム Docker コンテナーを実行する (8) AMD Instinct MI300X GPU 上で ROCm 7.0 プレビュー版ソフトウェア、Megatron-LM を実行したときと、同様の構成システムで AMD ROCm 6.0 ソフトウェアを実行したときのトレーニング パフォーマンス (TFLOPS) を測定しました。

    ハードウェア構成

    1P AMD EPYC™ 9454 CPU、8x AMD Instinct MI300X (192 GB、750 W) GPU、American Megatrends International LLC。BIOS バージョン: 1.8、BIOS 1.8。

    ソフトウェア構成

    Ubuntu 22.04 LTS + Linux kernel 5.15.0-70-generic

    ROCm 7.0、Megatron-LM、PyTorch 2.7.0。

    比較対象は、

    ROCm 6.0 公開リリース SW、Megatron-LM コード ブランチ hanl/disable_te_llama2 (Llama 2-7B)、guihong_dev (LLama 2-70B)、renwuli/disable_te_qwen1.5 (Qwen1.5-14B)、PyTorch 2.2。

    サーバー メーカーの構成によって、異なる結果が生じる場合があります。構成、ソフトウェア、vLLM のバージョン、最新ドライバーの使用、最適化の状態により、パフォーマンスが異なる可能性があります。