AMD Ryzen AI Software banner

Übersicht

AMD Ryzen™ AI beinhaltet die Tools und Laufzeitbibliotheken zur Optimierung und Bereitstellung von KI-Inferenz auf PCs1 mit AMD Ryzen AI. Ryzen AI Software ermöglicht die Ausführung von Anwendungen auf der Neural Processing Unit (NPU) in der AMD XDNA™ Architektur, dem ersten dedizierten KI-Verarbeitungschip auf einem Windows x86-Prozessor2, und unterstützt eine integrierte GPU (iGPU).

Bildzoom
Ryzen developer flow diagram

Entwicklungsablauf

Die Entwicklung von KI-Anwendungen für Ryzen AI kann in drei einfachen Schritten zusammengefasst werden:

Start mit einem vortrainierten Modell
Verwenden Sie ein vortrainiertes Modell in PyTorch oder TensorFlow als Ausgangspunkt. Konvertieren Sie dann Ihr Modell in das ONNX-Format, das mit dem Ryzen AI Workflow kompatibel ist.

Quantisierung
Quantisieren Sie Ihr Modell, indem Sie seine Parameter von Gleitkommadarstellungen in Darstellungen mit geringerer Präzision konvertieren, wie 16-Bit- oder 8-Bit-Ganzzahlen. Der Vitis™ AI Quantizer für ONNX bietet einen benutzerfreundlichen PTQ-Ablauf (Post Training Quantization) für diesen Zweck.

Bereitstellung des Modells
Nach der Quantisierung kann Ihr Modell auf der Hardware bereitgestellt werden. Verwenden Sie ONNX Runtime mit C++- oder Python-APIs, um das KI-Modell bereitzustellen. Der in ONNX Runtime enthaltene Vitis AI Execution Provider optimiert Auslastungen und sorgt so für eine optimale Performance und einen geringeren Stromverbrauch.

Mit dem Einsatz der Ryzen AI Software beginnen

Erste Schritte

Ryzen AI Videos

Entdecken Sie Video-Tutorials, in denen erklärt wird, wie Ryzen AI 300-Serie PCs sowohl NPUs als auch integrierte GPUs nutzen, um Auslastungen für Large Language Models zu beschleunigen.

Neues 

Highlights des Release 1.7

  • Neue Architekturen: Erste Releases von Mixture of Experts (MoE) GPT‑OSS und VLM (Gemma‑3 4B)
  • Stable Diffusion, wurde für eine einheitliche Umgebung in das Haupt-Installationsprogramm von Ryzen AI integriert
  • LLMs unterstützen jetzt bis zu 16K Kontextlänge auf der NPU
  • Die BF16-Pipeline bietet eine ca. 2-mal geringere Latenz im Vergleich zu RAI 1.6

Highlights des Release 1.6

  • Verbesserte Performance und verkürzte Kompilierungszeit für den BF16-Compiler
  • Neuer Integer-Compiler mit Unterstützung für die allgemeine asymmetrische Quantisierung (A8W8, A16W8)
  • Erweiterter Satz von reinen NPU-Modellen mit optimierter Performance (höhere Token/s bei KRK und GPT)
  • Kontextlänge für alle LLMs auf bis zu 4K erhöht
  • Zusätzliche Unterstützung für neue LLM-Architekturen: Phi-4 und Qwen-3
  • Unterstützung der dynamischen Auflösung für SD 3.0/3.5, mit Performance-Steigerungen gegenüber anderen SD-Modellen, einschließlich neuer Ergänzungen (SD2.1-V 768 x 768 text2image, SDXL-base 1024×1024 text2image)

Highlights des Release 1.5

  • Neue Features
    • Erstellung von Bildern mit Stable Diffusion Pipelines (SD 1.5, 2.1, SDXL und 3.0).
    • Integration von Sprache-zu-Text-Funktionen mit Unterstützung für Zipformer- und Whisper-Base-Modelle.
    • Optimierung der Reaktionsschnelligkeit des Systems mit Preemption, bei der Rechenressourcen dynamisch Aufgaben mit hoher Priorität zugewiesen werden.

Highlights des Release 1.4

  • Neue Features
    • Unified Installer mit LLM und General Model Flow (INT8, BF16) – ein nahtloses Erlebnis mit Unterstützung für alle Modelltypen in einem einzigen Versionspaket.
    • Erste Version der Windows-Unterstützung für Kompilierung und Quantisierung von BF16-Modellen für CNN- und NLP-Auslastungen.
    • Unterstützung für LLM OGA Flow vereinfacht die effiziente Bereitstellung von LLMs.
  • Unterstützung für neue LLM-Modelle
    • DeepSeek-R1 Distill Serie: Llama-8B, Qwen-1.5B, Qwen-7B 
    • Qwen2 Serie: Qwen2-1.5B, Qwen2-7B 
    • Gemma2-2B 
    • AMD-OLMO-1B-SFT-DPO  
    • Codellama-7B, Mistral-7B und weitere

Highlights des Release 1.3

  • Neue Features 
    • Frühzeitige Unterstützung für AMD Unified Quantizer „Quark“
    • Unterstützung für Datentypen mit gemischter Präzision und Copilot+ Apps
    • Aktualisiertes Tool zur CNN-Profilerstellung 
  • Unterstützung neuer Modelle für ONNX-GenAI (OGA) Flow 
    • Llama2-7B-Chat / Meta-Llama-3.1-8B
    • Phi-3-Mini-4K-Instruct / Phi-3.5-Mini-Instruct
    • Mistral-7B-Instruct-v0.3

Highlights des Release 1.2

  • Neue Architekturunterstützung 
    • Unterstützung für Strix (STX): AMD Ryzen™ AI 9 HX370 und Ryzen AI 9 365 NPUs 
    • Vereinheitlichte Unterstützung für integrierte GPU (iGPU) und NPU über Ryzen AI Software
  • Neue Early-Access-Tools, Modelle und Funktionen 
    • Neues Tool zur Modellanalyse, Profilerstellung und Visualisierung für Modelle, die auf der NPU ausgeführt werden (AI Analyzer)
    • Neues Tool für Plattform/NPU-Inspektion und -Verwaltung (xrt-smi)
    • LLM-Flow-Unterstützung für mehrere im PyTorch- und ONNX-Flow

Highlights des Release 1.1

  • Unterstützung für neues Modell:
    • Llama 2 7B mit w4abf16 (3-Bit und 4-Bit) Quantisierung (Beta)
    • Whisper Base (Early Access)
  • Neue EoU-Tools und -Funktionen:
    • CNN Benchmarking-Tool auf Ryzen AI-SW Rep
    • Tool für Plattform-/NPU-Inspektion und Verwaltung

Highlights des Release 1.0

  • Modellunterstützung
    • +1.000 validierte CNN-Modelle
    • OPT-1.3B auf NPU mit PyTorch- und ONNX-Flow
  • EoU-Tools und -Funktionen
    • Unterstützt ONNX PTQ (Post Training Quantization), PyTorch PTQ und QAT (Quantization Aware Training)
    • Unterstützt ONNX Runtime Vitis AI Execution Provider mit C++- und Python-APIs
    • Automatische Planung von bis zu 8 gleichzeitigen Inferenzsitzungen auf NPU

Open-Source-Projekte

Entdecken Sie Open-Source-Tools von AMD, mit denen Entwickler KI-Modelle effizient über verschiedene Hardware hinweg analysieren, optimieren und bereitstellen können.

Digest AI

Digest ist ein leistungsstarkes Tool zur Modellanalyse, das Ihnen hilft, wertvolle Erkenntnisse aus Ihren Modellen für maschinelles Lernen zu gewinnen und so Optimierungen und direkte Änderungen zu ermöglichen. 

GAIA

GAIA ist eine generative KI-Anwendung, die eine RAG-Pipeline mit mehreren Agenten demonstriert, die private und lokale LLMs auf CPU-, GPU- und NPU-Hardware ausführt.

TurnkeyML und Lemonade

TurnkeyML vereinfacht die Verwendung von Tools innerhalb des ONNX-Ökosystems und bietet dafür CLIs ohne Code und APIs mit wenig Code. Mit Turnkey können Sie ONNX-Modelle für CNNs und Transformer exportieren und optimieren. Mit Lemonade können Sie Server- und Benchmark-Funktionen für LLMs auf CPU, GPU und NPU ausführen.

Für Ryzen AI News anmelden

Informieren Sie sich über die neuesten Produktversionen, Neuigkeiten und Tipps.

Fußnoten
  1. Die Ryzen™ AI Technologie ist mit allen AMD Ryzen™ 7040-Serie Prozessoren kompatibel, ausgenommen Ryzen™ 5 7540U und Ryzen™ 3 7440U. Aktivierung durch den Erstausrüster ist erforderlich. Zur Verfügbarkeit von Funktionen erkundigen Sie sich bitte vor dem Kauf bei Ihrem Systemhersteller. GD-220.
  2. Mit Stand Mai 2023 hatte AMD die erste erhältliche dedizierte KI-Engine für Windows x86-Prozessoren. „Dedizierte KI-Engine“ ist hierbei als eine KI-Engine definiert, deren einzige Funktion das Verarbeiten von KI-Inferenzmodellen und die Teil des x86-Prozessor-Die ist. Weitere Informationen finden Sie unter: https://www.amd.com/en/technologies/xdna.html. PHX-3a
  3. Basiert auf Tests von AMD am 5. Juni 2023. Die Ergebnisse der Akkulaufzeit wurden durch den Betrieb einer simulierten Microsoft Teams-Videokonferenz mit neun Teilnehmern mit einem Ryzen™ 7940HS Prozessor mit Ryzen™ AI und integrierter Radeon Grafikeinheit mit Windows Studio-Effekte im Vergleich zu NVIDIA Broadcast für KI-gestützte Hintergrundunschärfe und Blickerkennung mit diskreter NVIDIA GeForce RTX 4070 Grafikkarte ausgewertet. AMD/NVIDIA Systeme laufen im Modus „Energieeffizienz“, eingestellt auf 100 % > 5 % Leistung bei 150 cd/m² Helligkeit. Systemkonfigurationen: Razer Blade 14" Notebook, AMD Ryzen™ 9 7940HS Prozessor mit Ryzen™ AI, integrierte AMD Radeon Grafikeinheit (Treiber 22.40.03.24), 16 GB (8 GB x 2) LPDDR5, NVMe SSD-Speicher, Windows 11 Home 22H, NVIDIA GeForce RTX 4070 Grafikkarte (Treiber 528.92) mit NVIDIA Broadcast.   Systemhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Ergebnisse können abweichen. PHX-51