AI エンジンテクノロジ

AI エンジン: 次世代アプリケーションの演算処理要件に応える

5G セルラー、データセンター、オートモーティブ、インダストリアルなど、急速に進化している多くの市場では、電力効率を維持しながら、演算処理を高速化させる技術が求められています。ムーアの法則やデナードスケーリングが限界を迎えた現在では、次世代シリコンノードへ進化するだけでは、かつての世代のように高性能、低コスト、低消費電力のメリットを得ることができません。

ワイヤレスビームフォーミングや機械学習推論など、次世代アプリケーションによるこのような非線形な需要の増加に対応するため、AMD Versal™ アーキテクチャの一部となる革新的プロセッシング技術の AI エンジンを開発しました。

AI エンジンのアーキテクチャ

AI エンジンは、複数の AI エンジンタイルを二次元に配列したものです。単一デバイスに数十から数百個の AI エンジンを搭載した Versal ポートフォリオを利用することで、多様なアプリケーションの演算要件に応えることができ、拡張性も備えることができます。メリットは以下のとおりです。

複数のプログラミングオプション

高性能 DSP アプリケーション向けに、AI エンジンをコーディングする手法として次のオプションがあります (詳細は「AMD Vitis™ AI エンジンを活用する DSP デザイン」を参照)。

DSP ライブラリ関数や API を活用した C 言語ベースの開発フロー
モデルベースの設計手法 (MathWorks Simulink 上で Vitis Model Composer を使用)
イントリンシクス

AI/ML アプリケーション向け:

AI/ML フレームワーク開発者向けの堅牢なライブラリ

確定的

命令用とデータ用にそれぞれ専用のメモリ
DMA エンジンを組み合わせた専用のコネクティビティにより、AI エンジンタイル間のコネクティビティを使用してスケジュールに基づくデータ移動が可能

高効率

高性能 DSP アプリケーションにおいて、AI エンジンは、従来のプログラマブルロジックのみの実装と比べて、ダイナミック消費電力の削減と大幅なリソース節約が可能になります。

図を表示

AI エンジンタイル

各 AI エンジンタイルは、機械学習や高度な信号処理アプリケーション向けに最適化された、VLIW (超長命令語) および SIMD (単一命令複数データ) 型のベクトルプロセッサで構成されています。AI エンジンのプロセッサは、最大 1.3 GHz で動作するため、非常に効率的で高スループットかつ低レイテンシの機能を実現できます。

各タイルには VLIW ベクター型プロセッサのほかに、必要な命令を格納するプログラムメモリ、データ、重み、アクティベーションや、係数を格納するローカルデータメモリ、RISC スカラープロセッサ、さらには多様なデータ通信に対応するためのさまざまなモードのインターコネクトが含まれます。

図を表示

ヘテロジニアスワークロード: 信号処理と機械学習推論の高速化

AMD は、AIE と AIE-ML (機械学習用 AI エンジン) の 2 種類の AI エンジンを提供しており、いずれも前世代 FPGA より優れた性能を提供します。AIE は、ML 推論アプリケーションのワークロードから、ビームフォーミングやレーダーなど大量のデータフィルタリングや変換を必要とする高性能 DSP 信号処理ワークロードまで、より広範なワークロードを高速化できます。強化された AI のベクター拡張機能と AI エンジンアレイ内における共有メモリタイルの採用によって、AIE-ML は ML 推論に特化したアプリケーションにおいては AIE より優れた性能を発揮します。一方で AIE は特定種類の高度な信号処理においては AIE-ML より優れた性能を発揮します。

AI エンジンタイル

AIE は、AL 推論アプリケーションのワークロードや、ビームフォーミング、レーダー、FFT、フィルタリングなどの高度な信号処理ワークロードまで広範なワークロードを高速化できます。

多様なワークロード/アプリケーションをサポート

通信、レーダー、テストと計測装置、産業機器/オートモーティブ向けの高性能 DSP
ビデオおよび画像処理
機械学習推論

実数、複素数、浮動小数点データ型をネイティブサポート

INT8/16/32 固定小数点
CINT16 と CINT32 の複素数固定小数点
FP32 浮動データ小数点

FFT と FIR の実装に使用する専用の HW 機能

128 INT8 MAC/ タイル

詳細は、AMD Versal AI Engine アーキテクチャマニュアルを参照してください。

図を表示

AIE タイルあたりの演算性能

INT4

256

INT8

256

INT16

CINT16

16 16

BFLOAT16*

FP32

16 16

*BFLOAT16 は FP32 ベクタープロセッサを使用して実装されています。

AI エンジン-ML タイル

AI エンジン-ML のアーキテクチャは、演算コアとメモリアーキテクチャの両方を重視し、機械学習に最適化されています。ML と高度な信号処理の両方に対応できますが、レーダー処理で一般的な INT32 と CINT32 のサポートを排除して最適化されているため、ML に特化したアプリケーションで高性能を発揮します。

AIE-ML は 2 種類のバージョンで提供しています。AIE の 2 倍の演算性能を持つ AIE-ML、そして AIE-ML の 2 倍の演算性能に加えて、ストリームインターコネクト間の帯域幅を強化した AIE-MLv2 を利用可能です。

ML データ型のネイティブサポートを拡張

BFLOAT16
FP8 (AIE-MLv2 のみ)
FP16 (AIE-MLv2 のみ)
MX4 (AIE-MLv2 のみ)
MX6 (AIE-MLv2 のみ)
MX9 (AIE-MLv2 のみ)

低レイテンシで機械学習の演算処理能力を強化

AIE-ML: 各タイルで 1 サイクルあたり 256 回の INT8 MAC 演算が可能
AIE-MLv2: 各タイルで 1 サイクルあたり 512 回の INT8 MAC 演算が可能

アレイメモリを拡充してデータをローカル処理

各タイルのローカルデータメモリを 2 倍に拡大 (64 kB)
512 kB のメモリタイルにより、HBW 共有メモリアクセスが可能

図を表示

AIE-ML タイルあたりの演算性能

INT4

1024

INT8

512

INT16

128

CINT16

BFLOAT16

256

FP32**

** AIE-ML FP32 をサポートする SW エミュレーション。

ヘテロジニアスプラットフォームの一部

AI エンジンは、プログラマブルロジックやプロセッシングシステムと連携し、Versal アダプティブ SoC 内で高い統合性を持つヘテロジニアスアーキテクチャを構成しています。このアーキテクチャは、ハードウェアとソフトウェアの両レベルで変更可能であり、さまざまなアプリケーションやワークロードのニーズに動的に対応できます。

Versal アーキテクチャは、ネイティブにソフトウェアプログラマビリティを備えるようゼロから構築されています。柔軟なマルチテラビット/秒のプログラマブルネットワークオンチップ (NoC) ですべてのコンポーネントと主要インターフェイスをシームレスに統合することで、ソフトウェア開発者、データサイエンティスト、ハードウェア開発者は起動してすぐに利用でき、簡単にプログラムできるようになっています。

図を表示

アプリケーション

クラウド、ネットワーク、エッジで無線処理から機械学習までのヘテロジニアスワークロードに対応する AI エンジン

データセンターの演算

画像/ビデオの解析が、データセンターの処理量を爆発的に増加させています。たたみ込みニューラルネットワーク (CNN) を使用するワークロードでは、膨大な計算量を要し、数テラ OPS に達する場合も少なくありません。AI エンジンは、この演算密度を優れたコスト効率と消費電力効率で実現できるように最適化されています。

5G の無線処理

5G は、極めて低いレイテンシで最高クラスのスループットを提供できるため、信号処理にかかる負荷が大幅に増加します。AI エンジンは、Massive MIMO パネルで使用される高度なビームフォーミング技術のような信号処理を、低消費電力の無線ユニット (RU) や分散ユニット (DU) 内でリアルタイムに実行できます。これは、ネットワーク容量の拡大に貢献します。

ADAS および自動運転

画像解析には、たたみ込みニューラルネットワーク (CNN) と呼ばれるフィードフォワード型のディープニューラルネットワークが最もよく使用されます。自動運転車やビデオ監視などあらゆる用途にコンピューターが利用されるようになった現在、CNN は欠かせない技術となっています。AI エンジンは、温度に対する厳しい要件を満たす必要がある小型システムで必要とされる演算密度と効率を提供します。

航空宇宙/防衛

処理能力の優れたベクター型 DSP エンジンと AI エンジンを小型フォームファクターに搭載することで、フェーズドアレイレーダー、早期警戒 (EW)、MILCOM、無人機などの A&D 分野の幅広いシステムを実現します。マルチミッションペイロードの信号処理、信号調整、AI 推論などの多様なワークロードをサポートする AI エンジンは、これらのミッションクリティカルシステムの厳しい SWaP (サイズ、重量、電力）要件を満たす演算効率を実現します。

産業用機器

ロボットやマシンビジョンなどの産業用アプリケーションでは、センサーフュージョンに AI/ML 技術を組み合わせて、エッジデバイスなどの情報発生源に近い場所でデータ処理を実行します。AI エンジンは、不確実性の高い現場環境にもかかわらず、このようなリアルタイムシステムで高い性能と信頼性を提供します。

ワイヤレステスト装置

ワイヤレステスト装置には、リアルタイム DSP が広く使用されています。AI エンジンのアーキテクチャは、デジタルフロントエンドからビームフォーミングやベースバンドに至るまで、5G を含むあらゆるタイプのプロトコル実装に適しています。

ヘルスケア

AI エンジンを活用するヘルスケアアプリケーションには、超音波診断装置用の高性能並列ビームフォーマー、CT スキャナーの逆投影、MRI 装置の画像再構成技術のオフロード、さまざまな臨床/診断アプリケーションでの診断支援などがあります。

AI エンジンの開発フロー

AI エンジンは、ソフトウェアプログラマブルとハードウェアアダプタブルを兼ね備えた革新的なエンジンです。開発者には、わずか数分でコンパイルを完了し、異なるマイクロアーキテクチャをすばやく探索しながら、これらの演算エンジンの性能を最大限に引き出すことができる 2 種類のフローがあります。2 つの設計フローは次のとおりです。

Vitis™ 統合 IDE: C/C++ スタイルのプログラミング向けで、ソフトウェア開発者とハードウェア開発者の双方に適した統合開発環境
Vitis Model Composer: MathWorks Simulink® 上で動作するプラグイン形式のモデルベースデザインフロー
Vitis AI: AI やデータサイエンス分野向けの、AI/ML フレームワークベースの設計フロー

AI エンジンアレイは、リソースと電力を最適化しながら、高性能な DSP 機能のインプリメンテーションを可能にします。AI エンジンを FPGA ファブリックリソースと組み合わせて使用することで、高性能 DSP アプリケーションを非常に効率的に実装できます。AMD の Vitis ツールフローを使用して、DSP アプリケーション向け AI エンジンのハードウェアアクセラレーション機能を活用する方法を習得してください。AMD Vitis AI エンジンを活用する DSP デザイン

図を表示

AI エンジンライブラリ (ソフトウェア/ハードウェア開発者およびデータサイエンティスト向け)

AMD の Vitis アクセラレーションライブラリには、次のことを可能にする事前構築済みカーネルが含まれています。

開発期間を短縮
AI エンジンアーキテクチャ間で移植可能 (例: AIE から AIE-ML へ)
AI エンジン技術をすばやく学習して適用
設計者は独自のアルゴリズム開発に集中できる

ソフトウェア/ハードウェア開発者は、ベクタープロセッサベースの AI エンジンを直接プログラミングし、必要に応じて C/C++ コードのビルド済みライブラリを呼び出すことができます。

AI データサイエンティストは、PyTorch や TensorFlow などの使い慣れたフレームワーク環境を使用して、AI エンジンを直接プログラミングしなくても、Vitis AI を介してビルド済みの ML オーバーレイを呼び出すことができます。

これらのライブラリはオープンソースで提供されており、GitHub (https://github.com/Xilinx/Vitis_Libraries) から入手できます。

データフロープログラミング (ソフトウェア/ハードウェア開発者向け)

AI エンジンのアーキテクチャは、データフロー技術に基づいて構築されています。プロセッシングエレメント (PE) は、10 ～ 100 個のタイルが配列されたもので、演算ユニット全体にわたる 1 つのプログラムを作成します。こうしたタイル全体に対して並列処理を指定する指示子を埋め込む作業は設計者の手間がかかり、ほぼ不可能です。この問題を解決するために、AI エンジンの設計を 2 段階で行います。まず、1 つのカーネルを開発します。その後、ADF (適応型データフロー) グラフを作成して、複数カーネルをアプリケーション全体に接続します。

Vitis 統合 IDE では、C/C++ プログラミングコードを使用して AI エンジンのカーネルを開発したり、ADF グラフを設計したりできます。具体的には、次のことが可能になります。

C/C++ でカーネルを開発し、Vitis ライブラリを用いて特定の演算処理機能を記述
Vitis AI エンジンツールを使用して、ADF グラフでカーネル同士を接続

デフォルトでは、1 つの AI エンジンタイル上で 1 つのカーネルが動作します。ただし、アプリケーションで許容される限り、同じ AI エンジンタイル上で複数カーネルを動作させて処理時間を短縮できます。

次に概念的な例を示します。

AI エンジンカーネルは C/C++ で開発されます。
プログラマブルロジック (PL) 内のカーネルは、RTL または Vitis HLS (高位合成) で記述されます。
PL と AI エンジンの両方にあるカーネル間のデータフローは、ADF グラフを介して実行されます。

図を表示

AI エンジンデザインを一つの完全システムに統合

Vitis 統合 IDE を利用することで、大規模なシステムに AI エンジンデザインを統合できます。1 つの統合フローでシミュレーション、ハードウェアエミュレーション、デバッグ、運用までを実行できます。

プロセッシングシステム (Arm® サブシステム)、プログラマブルロジック、DSP と AI エンジンなど、Versal プラットフォームのさまざまな異なるエンジンをターゲットとする専用のコンパイラを使用します。
その後、システムコンパイラで、これらの個々のコードブロックを関連付け、すべての相互接続を作成してコードブロックとカスタムメモリ階層の間のデータ移動を最適化します。このツールスイートには、PCIe® ベースシステム用の x86 ツールチェーンも統合されています。
アプリケーションを運用する際には、ザイリンクスランタイムソフトウェア (XRT) のプラットフォームや OS に依存しない API を利用できるため、デバイスのコンフィギュレーション管理、メモリやホストからデバイスへのデータ転送、アクセラレータの実行が可能です。
最初のプロトタイプが完成したら、トランザクションレベルの高速シミュレータまたはサイクル精度シミュレータを使用してアプリケーションのシミュレーションを実行できます。その後、パフォーマンスアナライザーを使用してアプリケーションを最適化し、最適なパーティショニングと性能を達成します。
要件を満たす結果を得ることができたら、Versal プラットフォーム上で運用を開始します。

図を表示

製品ポートフォリオ

Versal™ AI コアシリーズ

AMD Versal AI コアシリーズは、優れた演算性能を発揮する AI エンジンにより、革新的な AI 推論処理とワイヤレスアクセラレーションを実現します。Versal 製品ポートフォリオの中で最も高い演算能力を備えており、Versal AI コアアダプティブ SoC は、データセンターコンピューティング、ワイヤレスビームフォーミング、ビデオ/画像処理、ワイヤレステスト装置などのアプリケーションに最適です。

Versal AI コアシリーズのご紹介

Versal™ AI エッジシリーズ

AMD Versal AI エッジシリーズは、高性能、低レイテンシの AI 推論を実現できるため、自動運転、予測ファクトリ、ヘルスケアシステム、航空宇宙/防衛分野のマルチミッションペイロードなどの幅広いアプリケーションのインテリジェンス機能に最適です。Versal AI エッジシリーズは、単に AI に最適化されたプラットフォームではなく、センサーや AI からリアルタイム制御に至るまでアプリケーション全体を高速化でき、安全性とセキュリティの不可欠な要件を満たします。

Versal AI エッジシリーズの詳細

Versal プレミアムシリーズ

AMD Versal プレミアムシリーズは、ワイヤード通信、データセンターコンピューティング、テスト/計測機器、航空宇宙/防衛など、最も高い処理性能とデータ転送能力が求められるアプリケーション向けに設計されています。このシリーズは、プログラマブルロジック、DSP エンジン、イーサネットや高速暗号処理用のハード IP ブロックを統合した AI エンジンを備えており、適応性の高い信号処理能力を提供します。

Versal プレミアムシリーズの詳細

VEK280 評価キットで評価を開始

Versal AI エッジ VE2802 アダプティブ SoC が搭載されている VEK280 評価キットには、AI エンジン ML や DSP ハードウェアアクセラレーションエンジンが含まれており、複数の高速接続オプションを利用できます。このキットは、オートモーティブ、ビジョン、航空宇宙/防衛、産業、科学、医療などの市場における ML 推論アプリケーション向けに最適化されています。

VEK280 を購入

Versal AI コアシリーズ VCK190 評価キット

VCK190 評価キットは、現在のサーバークラスの CPU と比べて 100 倍以上の演算性能を実現可能な AI エンジンおよび DSP エンジンを活用したソリューションの開発を支援します。豊富な接続オプションと標準化された開発フローでサポートされた Versal AI コアシリーズの VC1902 デバイスは、クラウド、ネットワーク、エッジアプリケーション向けに、Versal 製品ポートフォリオの中で最高レベルの AI 推論および信号処理スループットを提供します。

VCK190 を購入

設計開始

AMD の Vitis 統合ソフトウェアプラットフォームは、ハードウェアアクセラレーションテクノロジを使用する、包括的なコア開発キットとライブラリを提供します。

Vitis 統合ソフトウェアプラットフォームをダウンロード

Vitis GitHub および AI エンジン開発リポジトリでは、AI エンジンに関するさまざまなチュートリアルが公開されており、テクノロジの詳細や設計手法について理解を深めることができます。

コンパイラとシミュレータを含む AI エンジンツールは、Vitis IDE に統合されており、追加のライセンスが必要です。AI エンジンツールおよびライセンスへのアクセス方法の詳細は、AMD 営業担当者へお問い合わせいただくか、お問い合わせフォームをご利用ください。

AMD Vitis Model Composer は、Simulink® および MATLAB® 環境でデザインを短時間で試行できるモデルベースのデザインツールです。これにより、RTL および HLS ブロックを AI エンジンカーネルやグラフと一体化させて同じシミュレーションに組み込むことができるため、AI エンジン ADF グラフ開発やシステムレベルでのテストが効率化されます。DSP エンジニアは、Simulink や MATLAB ツールの信号生成や可視化機能を活用できるため、使い慣れた環境で設計やデバッグが可能になります。Vitis Model Composer で Versal AI Engine を活用する方法については、AI エンジンのリソースページをご覧ください。

Vitis Model Composer をダウンロード

Versal AI コアシリーズをベースとした VCK190 キットは、AI エンジンおよび DSP エンジンを活用したソリューションの開発を可能にします。この評価キットには、設計を始めるために必要なものがすべて含まれています。

Versal AI コアシリーズ VCK190 評価キットの詳細を読む

PCIe® ベースの VCK5000 開発カードもご利用いただけます。これには、データセンターの高スループット AI 推論用に構築された AI エンジンを備える Versal AI コアデバイスが搭載されています。

VCK5000 データアクセラレータカードの詳細を読む

AIE-ML 開発向けの VEK280 評価キットは、Versal AI エッジシリーズをベースとしており、DSP や ML アプリケーションの開発が可能になります。

Versal AI エッジシリーズ VEK280 評価キットの詳細を読む

AMD のトレーニングおよび学習リソースは、開発者が次回の Versal アダプティブ SoC 開発プロジェクトで十分な生産性を発揮するために必要な実践的スキルと基礎知識を提供します。対象コースは次のとおりです。

ソリューション計画から、システム統合、検証まで、AMD は設計の生産性を最大限に高めるために、Versal アダプティブ SoC 関連の膨大な資料の中から必要なリソースをカスタマイズして提供します。Versal アダプティブ SoC デザインプロセスハブにアクセスして、設計のニーズに合った最新のコンテンツを入手し、AI エンジンの機能および設計手法の詳細をご覧ください。

Versal アダプティブ SoC デザインプロセスデザインハブを閲覧

データセンター

ビジネスシステム

パーソナル & ゲーミング

エンベデッド

リソース

アクセラレータ

アダプティブ アクセラレータ

DPU アクセラレータ

イーサネット アダプター

ワークステーション

デスクトップ

ノート PC

リソース

アダプティブ SoC & FPGA

システム オン モジュール (SOM)

テクノロジ

開発者リソース

評価ボード & キット

プロセッサ ツール

グラフィックス ツール＆アプリケーション

アダプティブ SoC & FPGA ツール

IP & アプリ

GPU アクセラレータ ツール & アプリケーション

イーサネット アダプター ツール

概要

データセンター & クラウド向け

エッジ & エンドポイント向け

開発者向け

業界

業界

業界

業界

Industrias

ワークロード

ゲーミング

システム

テクノロジ

リソース

EPYC プロセッサ

Radeon グラフィックス & AMD チップセット

FPGA & アダプティブ SoC

Alveo アクセラレータ & Kria SOM

Ryzen プロセッサ

イーサネット アダプター

概要

EPYC プロセッサ

アクセラレータ

エンベデッド製品

グラフィックス

概要

製品別リソース

タイプ別リソース

AMD のパートナーについて

AMD グローバル サポート

プロセッサ & グラフィックス

アクセラレータ

アダプティブ SoC & FPGA

AMD 正規販売店から購入

アダプティブ & エンベデッドコンピューティング

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

AI エンジン: 次世代アプリケーションの演算処理要件に応える

AI エンジン のアーキテクチャ

複数のプログラミング オプション

AI/ML アプリケーション向け:

確定的​

高効率

AI エンジン タイル

ヘテロジニアス ワークロード: 信号処理と機械学習推論の高速化

AI エンジン タイル

多様なワークロード/アプリケーションをサポート

実数、複素数、浮動小数点データ型をネイティブ サポート

FFT と FIR の実装に使用する専用の HW 機能

AIE タイルあたりの演算性能

AI エンジン-ML タイル​

ML データ型のネイティブ サポートを拡張

アダプティブアクセラレータ

イーサネットアダプター

システムオンモジュール (SOM)

プロセッサツール

グラフィックスツール＆アプリケーション

GPU アクセラレータツール & アプリケーション

イーサネットアダプターツール

イーサネットアダプター

AMD グローバルサポート

AI エンジンのアーキテクチャ

複数のプログラミングオプション

確定的

AI エンジンタイル

ヘテロジニアスワークロード: 信号処理と機械学習推論の高速化

AI エンジンタイル

実数、複素数、浮動小数点データ型をネイティブサポート

AI エンジン-ML タイル

ML データ型のネイティブサポートを拡張

アレイメモリを拡充してデータをローカル処理

ヘテロジニアスプラットフォームの一部

AI エンジンライブラリ (ソフトウェア/ハードウェア開発者およびデータサイエンティスト向け)

データフロープログラミング (ソフトウェア/ハードウェア開発者向け)

AI エンジンデザインを一つの完全システムに統合

Versal AI コアシリーズ VCK190 評価キット