樹立全新標竿
自從初代產品問世以來,AMD Instinct™ 加速器便一直為資料中心客戶和期望接納 AI 可能性的客戶提供效能、效率與擴充性。每一世代都樹立全新標竿、提供領先業界的規格,以及協助最佳化效能與降低 TCO1。
現在,AMD 在近期的「Advancing AI」(推動 AI)活動中為市場推出 AMD Instinct™ MI350 系列顯示卡後,再次提高消費者的期望。
AI 導向且 HPC 最佳化的領先效能
奠基於尖端的第 4 代 AMD CDNA™ 基礎架構,並且擁有高達 288 GB 的 HBM3E 記憶體容量和 8 TB/s 的頻寬,要為您的客戶介紹全新的 AMD Instinct™ MI350X 和 AMD Instinct™ MI355X 顯示卡,以及此兩者各自的平台,現在正是時候。AMD Instinct MI350X 顯示卡專為一切複雜工作所打造,適用範圍涵蓋大規模 AI 模型訓練與高速推論,到複雜的 HPC 工作負載,所提供的 FP6 效能高達 Nvidia B200 平台的 2.05 倍2,而 AMD Instinct MI355X 顯示卡則擁有優於 GB200 的 2 倍 FP6 優勢3,為密度、效率和大規模輸送量樹立全新標竿。
隨著客戶與基礎架構需求的增加,AMD 亦設計出這些能夠跟上步伐的加速器。這兩款全新氣冷式顯示卡能夠與上一代 AMD Instinct™ MI300 系列平台緊密整合,甚至能夠與第三方基礎架構整合,因此是一種輕鬆又符合成本效益的升級選項,適用於幾乎所有需要更高密度運算的情境。
除了對 FP16 和 FP8 處理的增強支援以外,這兩款 AMD Instinct 顯示卡還提供對 FP6 和 FP4 資料類型的擴大支援,可提供毫不妥協的運算輸送量和記憶體頻寬使用率,同時還可發揮最高能效。執行 FP4 之 AMD Instinct MI350 系列顯示卡的效能最多可比執行 FP16 的 AMD Instinct MI300X 顯示卡高 7 倍4,因此可在進階生成式 AI 模型方面提供驚人的效能,突破以往我們對於 AI 可能性的認知。
規格 |
AMD Instinct™ MI350X 顯示卡 |
AMD Instinct™ MI350X 平台 |
AMD Instinct™ MI355X 顯示卡 |
AMD Instinct™ MI355X 平台 |
顯示卡 |
AMD Instinct MI350X OAM |
8 個 AMD Instinct MI350X OAM |
AMD Instinct MI355X OAM |
8 個 AMD Instinct MI355X OAM |
顯示卡架構 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
AMD CDNA™ 4 |
專用記憶體大小 |
288 GB HBM3E |
2.3 TB HBM3E |
288 GB HBM3E |
2.3 TB HBM3E |
記憶體頻寬 |
8 TB/s |
每 OAM 8 TB/s |
8 TB/s |
每 OAM 8 TB/s |
峰值半精度 (FP16) 效能* |
4.6 PFLOPS |
36.8 PFLOPS |
4.6 PFLOPS |
36.8 PFLOPS |
峰值八位元精度 (FP8) 效能* |
9.228 PFLOPS |
72 PFLOPS |
9.228 PFLOPS |
72 PFLOPS |
峰值六位元精度 (FP6) 效能* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
峰值四位元精度 (FP4) 效能* |
18.45 PFLOPS |
148 PFLOPS |
18.45 PFLOPS |
148 PFLOPS |
冷卻 |
氣冷式 |
氣冷式 |
直接液體冷卻式 |
直接液體冷卻式 |
典型顯示卡功耗 |
峰值 1000 W |
每 OAM 峰值 1000 W |
峰值 1400 W |
每 OAM 峰值 1400 W |
*採用結構化稀疏性
已與新一代 AMD ROCm™ 軟體整合
AMD Instinct MI350 系列顯示卡奠基於 AMD 對開放原始碼創新的承諾,已與新一代 AMD ROCm™ 軟體堆疊整合,此軟體堆疊為 AI 和 HPC 工作負載提供了另一種業界頂尖的開放式選項。
最新 AMD ROCm 軟體增強功能搭配這些全新加速器的推出,將 AI 工作負載推向更高水準,並且進一步最佳化 AI 推論、訓練和架構相容性,為自然語言處理 (NLP)、電腦視覺等嚴苛的工作負載提供高輸送量且低延遲的結果。
由於與關鍵合作夥伴進行深度的策略性合作,因此 ROCm 軟體可為 OpenAI、Meta、PyTorch、Hugging Face、Databricks、Lamini 等領導廠商所提供的 AI 平台和模型提供無延遲支援。這一切都是為了確保 AMD Instinct 顯示卡成為開發人員和企業的最佳選擇,務使最新 AI 模型和架構可在推出那一刻隨即執行,加速將 AI 納進工作流程的轉型工作。
Microsoft 和 Meta 等產業巨擘,都是用這款顯示卡推動 Llama 405B 和 GPT 等模型的大規模 AI 部署,他們如此信任 AMD Instinct 顯示卡不是沒有原因的。快洽詢 AMD 代表或造訪 amd.com 以深入瞭解,並協助您的客戶擁抱 AMD Instinct 加速器的強大能力。
AMD Arena
透過關於 AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ 和其他產品的訓練來增強您的 AMD 產品知識。
訂閱
取得關於 AMD 最新產品、訓練資源和「專家面對面」網路研討會的每月最新消息。

相關文章
尾註
- MI325-001A - AMD 效能實驗室於 2024 年 9 月 26 日根據當下的規格和/或評估進行的計算。AMD Instinct™ MI325X OAM 加速器將擁有 256GB HBM3E 記憶體容量和 6 TB/s 顯示卡峰值理論記憶體頻寬效能。實際結果視生產晶片而異。
NVidia Hopper H200 (141GB) SXM 顯示卡加速器的最高已公佈結果為 141GB HBM3E 記憶體容量和 4.8 TB/s 顯示卡記憶體頻寬效能。 https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVidia Blackwell HGX B100 (192GB) 700W 顯示卡加速器的最高已公佈結果為 192GB HBM3E 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。
NVidia Blackwell HGX B200 (192GB) 顯示卡加速器的最高已公佈結果為 192GB HBM3E 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。
Nvidia Blackwell 規格:https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW
- 根據 AMD 效能實驗室於 2025 年 5 月為 8 顯示卡 AMD Instinct™ MI350X/MI355X 平台所執行的計算,此計算以 NVIDIA HGX Blackwell B200 加速器平台作為對比,目的在於判斷使用 Matrix、Tensor、Vector 和 Sparsity(若適用)來比較 FP64、FP32、TF32、FP16、FP8、FP6、FP4 和 INT8 資料類型時的峰值理論精度效能。結果可能會因組態、資料類型和工作負載而有不同。* Nvidia B200 加速器不支援 FP32 Tensor。MI350-010
- 根據 AMD 效能實驗室於 2025 年 5 月為 8 顯示卡 AMD Instinct™ MI355X 平台所執行的計算,此計算以 NVIDIA Grace Blackwell GB200 NVL72 8 顯示卡平台作為對比,目的在於判斷使用 Matrix、Tensor、Vector 和 Sparsity(若適用)來比較 FP64、FP32、TF32、FP16、FP8、FP6、FP4 和 INT8 資料類型時的峰值理論精度效能。伺服器製造商可能會改變配置,進而產生不同的結果。結果可能會因使用最新驅動程式及最佳化而有不同。MI350-018
- AMD 效能實驗室於 2024 年 9 月 26 日為 AMD Instinct™ MI300X 顯示卡平台和 AMD Instinct™ MI300X 顯示卡平台效能所執行的計算,比較的資料類型有 FP16、FP8 和 FP4。
Instinct MI355X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 18.5 PFLOPS
峰值理論八位元精度 (FP8) 效能 - 37 PFLOPS
峰值理論四位元精度 (FP4) 效能 - 74 PFLOPS
Instinct MI325X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 10.4 PFLOPS
峰值理論八位元精度 (FP8) 效能 - 20.88 PFLOPS
Instinct MI300X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 10.4 PFLOPS
實際效能會因最終規格和系統配置而不同。MI355-004
- MI325-001A - AMD 效能實驗室於 2024 年 9 月 26 日根據當下的規格和/或評估進行的計算。AMD Instinct™ MI325X OAM 加速器將擁有 256GB HBM3E 記憶體容量和 6 TB/s 顯示卡峰值理論記憶體頻寬效能。實際結果視生產晶片而異。
NVidia Hopper H200 (141GB) SXM 顯示卡加速器的最高已公佈結果為 141GB HBM3E 記憶體容量和 4.8 TB/s 顯示卡記憶體頻寬效能。 https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
NVidia Blackwell HGX B100 (192GB) 700W 顯示卡加速器的最高已公佈結果為 192GB HBM3E 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。
NVidia Blackwell HGX B200 (192GB) 顯示卡加速器的最高已公佈結果為 192GB HBM3E 記憶體容量和 8 TB/s 顯示卡記憶體頻寬效能。
Nvidia Blackwell 規格:https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW - 根據 AMD 效能實驗室於 2025 年 5 月為 8 顯示卡 AMD Instinct™ MI350X/MI355X 平台所執行的計算,此計算以 NVIDIA HGX Blackwell B200 加速器平台作為對比,目的在於判斷使用 Matrix、Tensor、Vector 和 Sparsity(若適用)來比較 FP64、FP32、TF32、FP16、FP8、FP6、FP4 和 INT8 資料類型時的峰值理論精度效能。結果可能會因組態、資料類型和工作負載而有不同。* Nvidia B200 加速器不支援 FP32 Tensor。MI350-010
- 根據 AMD 效能實驗室於 2025 年 5 月為 8 顯示卡 AMD Instinct™ MI355X 平台所執行的計算,此計算以 NVIDIA Grace Blackwell GB200 NVL72 8 顯示卡平台作為對比,目的在於判斷使用 Matrix、Tensor、Vector 和 Sparsity(若適用)來比較 FP64、FP32、TF32、FP16、FP8、FP6、FP4 和 INT8 資料類型時的峰值理論精度效能。伺服器製造商可能會改變配置,進而產生不同的結果。結果可能會因使用最新驅動程式及最佳化而有不同。MI350-018
- AMD 效能實驗室於 2024 年 9 月 26 日為 AMD Instinct™ MI300X 顯示卡平台和 AMD Instinct™ MI300X 顯示卡平台效能所執行的計算,比較的資料類型有 FP16、FP8 和 FP4。
Instinct MI355X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 18.5 PFLOPS
峰值理論八位元精度 (FP8) 效能 - 37 PFLOPS
峰值理論四位元精度 (FP4) 效能 - 74 PFLOPS
Instinct MI325X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 10.4 PFLOPS
峰值理論八位元精度 (FP8) 效能 - 20.88 PFLOPS
Instinct MI300X 8xGPU 平台
峰值理論半精度 (FP16) 效能 - 10.4 PFLOPS
實際效能會因最終規格和系統配置而不同。MI355-004