AI:從端點到邊緣、再到雲端,得力於 AMD

生成式 AI 正在改變企業客戶的營運方式。事實上,AI 的成長速度之快,幾乎在所有業務流程都佔有一席之地,從客戶服務到資料分析,這種深化整合只會持續成長。然而,AI 是個相對而言較的工作負載,納入到現有基礎架構中,會對當前的硬體配置造成壓力。

如果客戶希望立即長期都享受流暢的 AI 體驗與生產力提升,在 IT 基礎架構改善方面,他們需要一臂之力。這就是 AMD 技術的用武之處,它為企業提供了效能和效率,能夠在現有工作流程進行的同時運用 AI 帶來的各種全新可能。 

透過 AMD EPYC™ 處理器開啟 AI 的世界

AMD EPYC™ 處理器廣受信賴,全球有三分之一的伺服器採用,原因合情合理。1 一般用途的 AMD EPYC 處理器為企業客戶提供全世界最棒的資料中心處理器,提供多達 96 個核心選項,與競爭對手產品相比,每處理器瓦特的效能達 1.75 倍,SPECrate® 2017_int_base 測試中的效能表現則為 1.8 倍。2

AMD 高效能處理器為公司部署 AI 工作負載,例如推薦系統、機器學習解決方案,以及其他生成式 AI 使用,提供了強大的選擇。 

利用已經驗證的標準基礎架構,加上升級至強大的 AMD EPYC 處理器,便能協助客戶有效降低伺服器佔用空間、功耗和初期支出成本,並提升伺服器的效能和密度,進而幫助擴大使用案例的範圍與改善 ROI。

瞭解有關 AMD EPYC™ 處理器的更多資訊。

使用 AMD Instinct™ 加速器加速 AI

許多 AI 工作負載和使用案例的需求,已非只靠 AMD EPYC 處理器就能滿足。大型語言模型不斷增長,達到數千億甚至數兆的參數。

所幸 AMD 提供一系列工作負載引擎來處理最嚴苛的 AI 任務。得益於 AMD Instinct™ 加速器,強大的顯示卡加速擴大了 AMD EPYC 處理器對於 AI 工作負載的有效管理範圍。在 AMD 伺服器處理器管理小型至中型模型及混合工作負載推論部署的同時,AMD 加速器可促進大量、即時 AI 訓練、專用 AI 部署、中型至大型模型及大規模即時推論,為希望從新技術獲利的企業加速 AI 結果。

AMD 為各種效能等級和外型規格提供一系列的顯示卡解決方案。旗艦級 AMD Instinct™ MI300X 加速器採用 AMD ROCm™ 軟體堆疊,與 Nvidia H100 產品相比,執行 Llama2-70b 聊天的延遲改善約 2.1 倍,與上一代產品相比,Llama2-70b 整體延遲改善約 8 倍。3, 4

透過企業級開放原始碼軟體 AMD ROCm™ 為 AMD 加速奠定基礎,公司能夠迅速啟動 AI 工作負載,支援約 400,000 個 Hugging Face 模型,並與 PyTorch 和 OpenAI 等 AI 領導者進行深入合作。

瞭解有關 AMD Instinct™ 加速器的更多資訊。

利用 AMD Alveo™ 加速器提供多樣化選擇

AMD Alveo™ 加速器設計靈活,能在資料中心的各種使用案例提供即時效能。客戶可以針對所需的工作負載來最佳化平台,並隨著不斷發展的演算法和應用程式需求進行調整。

AMD Alveo 加速器具有適合即時應用程式的低延遲,以及高輸送量和效率,對於想在資料分析、HPC、媒體和基礎架構加速等方面獲得最佳效能的客戶而言是為理想的選擇。

瞭解有關 AMD Alveo™ 加速器的更多資訊。

使用 AMD Ryzen™ 處理器將 AI 帶入本地機器

AI 不僅在伺服器上運行;現在它也出現在終端用戶裝置上,提升人們的工作方式和傳統流程,使工作變得更快、更輕鬆,讓團隊可以自由地專注於更大的目標。

AMD Ryzen™ PRO 處理器是世界最先進、能效超高的商用桌上型電腦處理器5,也是 x86 處理器中的首款整合 AI 引擎。6 這種從伺服器到客戶端裝置的 AI 支援,帶來了之前根本無法實現的驚人功能。

瞭解更多有關 AMD Ryzen™ PRO 處理器的資訊。

使用 AMD Versal™ 自適應 SoC 來完成邊緣 AI 的使用前景

但 AI 不僅適用於電腦和伺服器。在許多應用中,邊緣裝置上的本機 AI 會對效能和安全性產生巨大影響。

在汽車中,邊緣 AI 可以在本地處理感測器資料,並即時做出決策,所以能夠提升安全性。您可不想自己的自駕車輛在決定是否應該踩下剎車來避免事故時,還要等待雲端處理資料。

在醫療方面,邊緣 AI 可以提升造影設備的性能,加速診斷或提供即時視覺化來協助手術。它還可以透過避免傳輸資料到雲端來保護患者隱私。

在工業領域,邊緣 AI 可以幫助工廠設備更安全、更有效率地運作。AMD 現場可程式化閘陣列 (Field Programmable Gate Array, FPGA) 和自適應晶片上系統 (System-on-Chip, SoC) 可以有效率地管理 AI 驅動系統和傳統嵌入式系統的資料預處理、推論和後處理,其最新產品 AMD Versal™ AI 邊緣系列第 2 代自適應 SoC,可在單一晶片上處理所有這些功能。

有了 AMD Versal 產品,客戶可將 AI 帶入業務各層面,讓現有消費者和工業環境因為 AI 而更加智慧化且便利。

進一步瞭解 AMD Versal™ 自適應 SoC。

AI 的好處無所不在,而且它正成為現代運算的基石。如果企業想要充分利用這些優勢,就需要調整適應並採用像 AMD 這樣的創新技術。

如果您想深入瞭解 AMD 產品和它對日益增長 AI 生態系統的支援,請聯絡您當地代表或造訪 AMD AI 解決方案

AMD Arena


透過關於 AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ 和其他產品的訓練來增強您的 AMD 產品知識。

尾註
  1. 資料來源:Mercury Research 2023 Q4 銷售收入出貨量預估
  2. SP5-013D:SPECrate®2017_int_base 比較是基於截至 2023 年 6 月 2 日 www.spec.org 上所公佈的分數。已發佈的雙路 AMD EPYC 9654(1800 SPECrate®2017_int_base,總 TDP W 720,1Ku 總成本 $23,610,總核心數 192 個,每 W 效能 2.500 ,每 CPU$ 效能 0.076,http://spec.org/cpu2017/results/res2023q2/cpu2017-20230424-36017.html),其效能是已發佈的雙路 Intel Xeon Platinum 8490H(1000 SPECrate®2017_int_base,總 TDP W 700,1Ku 總成本 $34,000,總核心數 120 個,每 W 效能 1.429,每 CPU$ 效能 0.029,http://spec.org/cpu2017/results/res2023q1/cpu2017-20230310-34562.html)的 1.80 倍 [每 W 效能 1.75 倍] [每 CPU$ 效能 2.59倍]。為供參考,已發佈的雙路 AMD EPYC 7763(861 SPECrate®2017_int_base,總 TDP W 560,1Ku 總成本 $15,780,總核心數 128 個,每 W 效能 1.538,每 CPU$ 效能 0.055,http://spec.org/cpu2017/results/res2021q4/cpu2017-20211121-30148.html)的效能則是 0.86 倍 [每 W 效能 1.08 倍] [每 CPU$ 1.86倍]。採用截至 2023 年 6 月 1 日的 AMD 1Ku 定價與 Intel ARK.intel.com 規格和定價。SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。請參閱 www.spec.org 瞭解更多資訊。
  3. MI300-38A:根據截至 2023 年 12 月 14 日為止的 AMD 內部測試,使用了 Llama2-70b 聊天模型與 vLLM,並為各系統使用自訂 Docker 容器,以比較文字產生的整體延遲。序列長度:2048 個輸入字符和 128 個輸出字符。vLLM 測試使用的是 https://github.com/vllm-project/vllm 中,基準測試目錄中的 benchmark_latency.py 腳本的增強版本。  新增了增強功能,以允許使用特定長度的輸入提示。用於 MI300X 的 vLLM 版本中,含有在 AMD 之外尚未普遍提供的修改。配置:搭載 8x AMD Instinct™ MI300X(192GB、750W)顯示卡的雙路 Intel Xeon Platinum 8480C 處理器伺服器、ROCm® 6.1.0 預發行版、PyTorch 2.2.0、vLLM for ROCm、Ubuntu® 22.04.2.,對比搭配 2 倍 Intel Xeon Platinum 8480CL 處理器的 Nvidia DGX H100、8x Nvidia H100(80GB、700W)顯示卡、CUDA 12.1.、PyTorch 2.1.0.、vLLM v.02.2.2 (最近版本)、Ubuntu 22.04。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。
  4. MI300-33:根據截至 2023 年 11 月 17 日為止的 AMD 內部測試,使用了 Llama2-70b 聊天(序列長度為 4096 個輸入字符和 32 個輸出字符),並為各系統使用自訂 Docker 容器,以比較文字產生延遲。配置:雙路 Intel Xeon Platinum 處理器伺服器,使用 4x AMD Instinct™ MI300X(192GB、750W)顯示卡、ROCm® 6.0 預發行版、PyTorch 2.2.0、vLLM for ROCm,以及 Ubuntu® 22.04.2.,對比雙路 AMD EPYC 7763 處理器伺服器,使用 4x AMD­ Instinct™ MI250(128 GB HBM2e、560W)顯示卡、ROCm® 5.4.3、PyTorch 2.0.0.、HuggingFace Transformers 4.35.0,以及 Ubuntu 22.04.6。此測試在每個系統上使用 4 個顯示卡。伺服器製造商可能會改變配置,進而產生不同的結果。效能可能會因使用了最新驅動程式及最佳化而不同。
  5. 截至 2023 年 9 月,基於 x86 平台上 AMD 處理器的較小節點大小。GD-203。
  6. 截至 2024 年 1 月為止,AMD 擁有第一個可用於桌上型電腦處理器上的專用 AI 引擎,其中「專用 AI 引擎」的定義為一款僅處理 AI 推論模型的 AI 引擎,且屬於 x86 處理器裸晶的一部分。如需詳細資訊,請查看:https://www.amd.com/zh-tw/products/processors/consumer/ryzen-ai.html。PXD-03