AI 效能的新標準

客戶於 AI 加速器的投資預計將在 2028 年前達到 5000 億美元;在短短的四年內,企業在加速器上投注的資金,就會來到五千億美元之鉅。AI 能為企業帶來無與倫比的生產力提升和革命性變化,而企業領袖們深知這一點。這就是他們投入數以億計的成本進行工作方式轉型的原因。好幾百萬人每天依賴著 AMD Instinct™ 加速器來使用熱門的 AI 模型應用程式,像是 GPT 4、Llama 3.1 405B 以及 Hugging Face 平台上超過百萬的開放原始碼模型。

這種生產力水準只會持續飆升。事實上,隨著全新的 AMD Instinct™ MI325X 加速器推出,AMD 正在確保這一切盡快實現,而不是遙遙無期。

AMD Instinct™ MI325X 加速器

龐大記憶體與領先效能的完美結合

在生成式 AI 模型和資料中心效能方面,AMD Instinct™ MI325X 加速器開創了新標準。這些加速器基於第 3 代 AMD CDNA™ 架構打造而成,提供出色的效能和效率,專為處理各種需求嚴苛的 AI 任務所設計,包含模型訓練和推論。 

如此密集的 AI 應用需要大量的記憶體,這就是為什麼您會看到我們提供領先業界的 256GB 新一代 HBM3e 記憶體容量和 6TB/s 頻寬的原因。結合處理能力和廣泛的資料類型支援,AMD Instinct MI325X 加速器提供企業所需的效能,能夠滿足幾乎所有 AI 解決方案。1

AMD Instinct MI325X 加速器在 Mixtral 8x7B、Mistral 7B 和 Meta Llama-3.1 70B 等模型中,推論效能可提升高達 1.4 倍,遙遙領先競爭對手產品。2, 3, 4

隨著效能數字的上升以及隨之提升的生產力,客戶將享有領先業界的記憶體容量及其所帶來的好處;使客戶在運用 AI 大型語言時減少顯示卡的使用數量,透過更小的叢集就能達到與前一代產品相同或是更好的結果。5 總而言之,其結果便是更小的部署佔用空間、簡化部署和更好的節能表現。AMD Instinct MI325X 加速器是那些希望在不大幅增加 TCO 的情況下就能獲得極致效能的企業的不二之選。

AMD Instinct™ MI325X 平台

奠定毫不妥協的運算領導地位

現今的大型語言模型和生成式 AI 需要三項要素才能擁有快速獲得成果的能力:支援多種資料類型的快速加速、處理龐大資料集的大容量記憶體和頻寬,以及密集的 I/O 頻寬。

客戶只要用這些新型加速器組建平台,這三項要素便可全部到手。新業界標準基板 (UBB 2.0) 最多可容納八個 AMD Instinct™ MI325X 加速器和 2TB 的 HBM3e 記憶體,幫助處理需求極高的 AI 模型,並配備八個 x16 PCIe® Gen 5 主機 I/O 連接和 AMD Infinity Fabric™ 網狀技術,實現每個加速器之間的直接連線,資料瓶頸將成為過去式。

與競爭對手的類似平台相比,MI325X 平台提供 1.8 倍的記憶體容量、1.3 倍的記憶體頻寬,並在推論效能上取得巨大的突破,可提升高達 1.4 倍。6, 7, 8

對於希望從現有 AMD Instinct 基礎架構進行升級的客戶而言,AMD Instinct MI325X 加速器可與 AMD Instinct™ MI300X 平台直接相容,能夠縮短產品上市時間,並將成本高昂的基礎架構變更減至最低。 

加速器

架構

記憶體

記憶體頻寬

FP8 效能

FP16 效能

AMD Instinct™ MI325X

AMD CDNA™ 3

256GB HBM3e

6 TB/s

2.6 PF

1.3 PF


AMD ROCm™ 平台

利用開放式軟體加速 AI 推論與訓練

AMD Instinct™ MI325X 加速器運用 AMD ROCm™ 軟體的強大功能,這是 AMD 加速運算的基礎,無論使用者是在開發新一代 AI 應用程式、尖端 AI 模型,還是最佳化複雜的模擬,都能提供絕佳的處理能力。

選擇 AMD 加速器的客戶可以享有包含 PyTorch 和 TensorFlow 等業界標準架構的無延遲支援,簡化 AI 模型的移轉和部署作業,並且僅需變更少量的程式碼即可達成。此外,最新的 AMD ROCm 發行版進一步提高 AMD Instinct 加速器的訓練效能達 1.8 倍,顯示卡的推論效能則提升高達 2.4 倍,並提供最佳化的編譯器、程式庫和執行階段支援,有助於確保快速的模型收斂、精準的模型預測,以及極高效的顯示卡使用率。9, 10

想要進一步瞭解 AMD Instinct™ MI325X 加速器嗎?請造訪 AMD.com,或立即聯絡您的 AMD 代表,以瞭解更多資訊及供貨情況。

AMD Arena


透過關於 AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ 和其他產品的訓練來增強您的 AMD 產品知識。

相關訓練課程

相關網路研討會

尾註
  1. AMD 效能實驗室於 2024 年 9 月 26 日根據目前的規格和/或評估進行的計算。AMD Instinct™ MI325X OAM 加速器將擁有 256GB HBM3e 記憶體容量和 6 TB/s 顯示卡峰值理論記憶體頻寬效能。實際結果視生產晶片而異。NVidia Hopper H200 (141GB) SXM 顯示卡加速器的最高已公佈結果為 141GB HBM3e 記憶體容量和 4.8 TB/s 顯示卡記憶體頻寬效能。  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446。NVidia Blackwell HGX B100 (192GB) 700W 顯示卡加速器的最高已公佈結果為 192GB HBM3e 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。NVidia Blackwell HGX B200 (192GB) 顯示卡加速器的最高已公佈結果為 192GB HBM3e 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。‌Nvidia Blackwell 規格:https://resources.nvidia.com/en-us-blackwell-architecture。MI325-001A

  2. MI325-004:根據 AMD 效能實驗室於 2024 年 9 月 28 日所完成的測試,測量使用 FP16 資料類型的 Mixtral-8x7B 模型的文字生成輸送量。使用 128 個字符的輸入長度和 4096 個字符的輸出長度,對 AMD Instinct™ MI325X 顯示卡加速器和 NVIDIA H200 SXM 顯示卡加速器進行測試。1 個 MI325X 在 1000W 的 vLLM 效能對比 1 個 H200 在 700W 的 TensorRT-LLM v0.13 效能。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。MI325-004

  3. MI325-005:根據 AMD 效能實驗室於 2024 年 9 月 28 日所完成的測試,測量使用 FP16 資料類型的 Mistral-7B 模型整體延遲表現。使用 128 個字符的輸入長度和 128 個字符的輸出長度,對 AMD Instinct™ MI325X 顯示卡加速器和 NVIDIA H200 SXM 顯示卡加速器進行測試。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。MI325-005

  4. MI325-006:根據 AMD 效能實驗室於 2024 年 9 月 28 日所完成的測試,測量使用 FP8 資料類型的 LLaMA 3.1-70B 模型整體延遲表現。使用 2048 個字符的輸入長度和 2048 個字符的輸出長度,對以下配置的 AMD Instinct™ MI325X 顯示卡加速器和 NVIDIA H200 SXM 顯示卡加速器進行測試。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。MI325-006

  5. MI325-003A:採用定義的參數再加上 10% 額外負載,根據顯示卡專用記憶體大小與模型所需之記憶體的比較,所計算出來的估計值。需要有發佈的模型記憶體大小,有時是初步模型記憶體大小,才能進行計算。由於系統/零件可得性的緣故,PaLM 1、Llama 3.1 405B、Mixtral 8x22B 和 Samba-1 結果是使用 MI325X 和 H200 估計。

    結果(已計算):
    所需的顯示卡數量:MI325X 對比 H200
    PaLM-1 (540B) 5 9
    Llama 3.1 (405B) 4 7
    Mixtral 8x22B (141B) 2 3
    Samba-1 (1T) 9 16

    伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。

  6. MI325-001A:AMD 效能實驗室於 2024 年 9 月 26 日根據目前的規格和/或評估進行的計算。AMD Instinct™ MI325X OAM 加速器將擁有 256GB HBM3e 記憶體容量和 6 TB/s 顯示卡峰值理論記憶體頻寬效能。實際結果視生產晶片而異。NVidia Hopper H200 (141GB) SXM 顯示卡加速器的最高已公佈結果為 141GB HBM3e 記憶體容量和 4.8 TB/s 顯示卡記憶體頻寬效能:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446。NVidia Blackwell HGX B100 (192GB) 700W 顯示卡加速器的最高已公佈結果為 192GB HBM3e 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。NVidia Blackwell HGX B200 (192GB) 顯示卡加速器的最高已公佈結果為 192GB HBM3e 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。Nvidia Blackwell 規格:https://resources.nvidia.com/en-us-blackwell-architecture

  7. MI325-002:AMD 效能實驗室於 2024 年 5 月 28 日對 AMD Instinct™ MI325X 顯示卡進行計算,計算結果為 1307.4 TFLOPS 峰值理論半精度 (FP16)、1307.4 TFLOPS 峰值理論 Bfloat16 格式精度 (BF16)、2614.9 TFLOPS 峰值理論 8 位元精度 (FP8)、2614.9 TOPs INT8 浮點效能。實際效能會因最終規格和系統配置而不同。
    Nvidia H200 SXM (141GB) 顯示卡的已發佈結果:989.4 TFLOPS 峰值理論半精度 Tensor (FP16 Tensor)、989.4 TFLOPS 峰值理論 Bfloat16 Tensor 格式精度 (BF16 Tensor)、1,978.9 TFLOPS 峰值理論 8 位元精度 (FP8)、1,978.9 TOPs 峰值理論 INT8 浮點效能。BFLOAT16 Tensor Core、FP16 Tensor Core、FP8 Tensor Core 和 INT8 Tensor Core 效能是根據 Nvidia 使用稀疏格式發佈的結果;為了進行比較,AMD 將這些數值除以 2 來轉換為非稀疏/密集格式,上方這些數值即為計算結果。
    Nvidia H200 資料來源:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024

    附註:‌Nvidia H200 顯示卡的已發佈 FLOPs 效能與 H100 產品相同:https://resources.nvidia.com/en-us-tensor-core。MI325-002

  8. MI325-014:根據 AMD 效能實驗室於 2024 年 10 月 8 日所完成的測試,測量使用 FP8 資料類型的 LLaMA 3.1-405B 模型的文字生成輸送量。使用 128 個字符的輸入長度和 2048 個字符的輸出長度,對以下配置的 AMD Instinct™ MI325X 8xGPU 平台和 NVIDIA H200 HGX 顯示卡平台進行測試。8xGPU MI325X 平台的 vLLM 效能對比 NVIDIA 已發佈結果,其配置為:MI325X 8xGPU 平台的配置為 Dell PowerEdge XE9680,搭載 2x Intel Xeon Platinum 8480+ 處理器,8x AMD Instinct MI325X (256GiB, 1000W) 顯示卡,Ubuntu 22.04,以及預發行版本的 ROCm 6.3,對比 Nvidia 已發佈的 TensorRT-LLM v0.13 結果,擷取自:https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3039.7 個輸出字符/秒。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。MI325-014

  9. MI300-61:根據 AMD AI 產品管理團隊截至 2024 年 9 月 28 日為止對 AMD Instinct™ MI300X 顯示卡進行的測量,比較啟用和停用最佳化方法下的大型語言模型 (LLM) 效能,測試範圍包含 Llama 3.1-70B、Llama 3.1-405B 和 vLLM 0.5.5。

    系統配置:
    AMD EPYC 9654 96 核心處理器、8 x AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux,頻率提升:啟用。效能可能會因各種因素而有所不同,包含但不限於不同版本的配置、vLLM 和驅動程式。

  10. MI300-62:AMD 效能實驗室截至 2024 年 9 月 29 日為止的內部測試,比較 ROCm 6.2 軟體和 ROCm 6.0 軟體在搭載 8 個 AMD Instinct™ MI300X 顯示卡的系統上,使用 Llama 3.1-8B、Llama 3.1-70B、Mixtral-8x7B、Mixtral-8x22B 和 Qwen 72B 模型的推論效能。ROCm 6.2 的 vLLM 0.5.5 效能,與 ROCm 6.0 的 vLLM 0.3.3 效能進行比較。測試範圍涵蓋批量大小從 1 到 256,序列長度從 128 到 2048。

    配置:
    單路 AMD EPYC™ 9534 處理器伺服器,搭載 8x AMD Instinct™ MI300X (192GB, 750W) 顯示卡、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 個 NUMA)、1.5 TiB 記憶體(24 DIMM,4800 mts,64 GiB/DIMM)、4x 3.49TB Micron 7450 儲存裝置、BIOS 版本:1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Ubuntu® 22.04 LTS,搭配 Linux 內核 5.15.0-119-generic。
    對比
    單路 AMD EPYC 9534 處理器伺服器,搭載 8x AMD Instinct™ MI300X (192GB, 750W) 顯示卡、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 個 NUMA)、1.5TiB 記憶體(24 DIMM,4800 mts,64 GiB/DIMM)、4x 3.49TB Micron 7450 儲存裝置、BIOS 版本:1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Ubuntu 22.04 LTS,搭配 Linux 內核 5.15.0-119-generic。

    伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因各種因素而有所不同,包含但不限於不同版本的配置、vLLM 和驅動程式。

    免責聲明:本文提供的資訊僅供參考,可能會有所變更,恕不另行通知。儘管在編寫本文件時已採取所有預防措施,惟本文件仍然可能含有技術錯誤、遺漏和印刷錯誤,AMD 並無義務更新或以其他方式更正此類資訊。Advanced Micro Devices, Inc. 對本文件內容的準確性或完整性不作任何陳述或擔保,對 AMD 硬體、軟體或本文件所述其他產品的操作和使用亦不承擔任何類型的責任,包括對非侵權性、適銷性或特定用途適用性的默示擔保。本文件未授予任何智慧財產權的授權,包括默示或禁言產生的授權。雙方簽訂的協議或 AMD 的《標準銷售條款與條件》中規定了適用於購買或使用 AMD 產品的條款與限制。GD-18u。

    © 2024 Advanced Micro Devices, Inc. 保留所有權利。AMD、AMD 箭頭標誌、EPYC、Instinct、ROCm 及其相關組合為 Advanced Micro Devices, Inc. 的商標。本出版物中使用的其他產品名稱僅用於識別目的,可能是其各自所有者的商標。特定 AMD 技術可能需要第三方的啟用或啟動。支援的功能可能會因作業系統而異。如需特定功能,請向系統製造商確認。沒有技術或產品是絕對安全的。