AI エンジン: 次世代アプリケーションの演算処理要件に応える

5G セルラー、データセンター、オートモーティブ、インダストリアルなど、急速に進化している多くの市場では、電力効率を維持しながら、演算処理を高速化させる技術が求められています。ムーアの法則やデナード スケーリングが限界を迎えた現在では、次世代シリコン ノードへ進化するだけでは、かつての世代のように高性能、低コスト、低消費電力のメリットを得ることができません。

ワイヤレス ビームフォーミングや機械学習推論など、次世代アプリケーションによるこのような非線形な需要の増加に対応するため、AMD Versal™ アーキテクチャの一部となる革新的プロセッシング技術の AI エンジンを開発しました。

AI エンジン のアーキテクチャ

AI エンジンは、複数の AI エンジン タイルを二次元に配列したものです。単一デバイスに数十から数百個の AI エンジンを搭載した Versal ポートフォリオを利用することで、多様なアプリケーションの演算要件に応えることができ、拡張性も備えることができます。メリットは以下のとおりです。

複数のプログラミング オプション

高性能 DSP アプリケーション向けに、AI エンジンをコーディングする手法として次のオプションがあります (詳細は AMD Vitis™ AI エンジンを活用する DSP デザインを参照)。

  • DSP ライブラリ関数や API を活用した C 言語ベースの開発フロー
  • モデルベースの設計手法 (MathWorks Simulink 上で Vitis Model Composer を使用)
  • イントリンシクス 
AI/ML アプリケーション向け:
  • AI/ML フレームワーク開発者向けの堅牢なライブラリ
確定的​
  • 命令用とデータ用にそれぞれ専用のメモリ
  • DMA エンジンを組み合わせた専用のコネクティビティにより、AI エンジン タイル間のコネクティビティを使用してスケジュールに基づくデータ移動が可能
高効率
  • 高性能 DSP アプリケーションにおいて、AI エンジンは、従来のプログラマブル ロジックのみの実装と比べて、ダイナミック消費電力の削減と大幅なリソース節約が可能になります。
AI エンジン タイル

各 AI エンジン タイルは、機械学習や高度な信号処理アプリケーション向けに最適化された、VLIW (超長命令語) および SIMD (単一命令複数データ) 型のベクトル プロセッサで構成されています。AI エンジンのプロセッサは、最大 1.3 GHz で動作するため、非常に効率的で高スループットかつ低レイテンシの機能を実現できます。

各タイルには VLIW ベクター型プロセッサのほかに、必要な命令を格納するプログラム メモリ、データ、重み、アクティベーションや、係数を格納するローカル データ メモリ、RISC スカラー プロセッサ、さらには多様なデータ通信に対応するためのさまざまなモードのインターコネクトが含まれます。

ヘテロジニアス ワークロード: 信号処理と機械学習推論の高速化

AMD は、AIE と AIE-ML (機械学習用 AI エンジン) の 2 種類の AI エンジンを提供しており、いずれも前世代 FPGA より優れた性能を提供します。AIE は、ML 推論アプリケーションのワークロードから、ビームフォーミングやレーダーなど大量のデータ フィルタリングや変換を必要とする高性能 DSP 信号処理ワークロードまで、より広範なワークロードを高速化できます。強化された AI のベクター拡張機能と AI エンジン アレイ内における共有メモリ タイルの採用によって、AIE-ML は ML 推論に特化したアプリケーションにおいては AIE より優れた性能を発揮します。一方で AIE は特定種類の高度な信号処理においては AIE-ML より優れた性能を発揮します。

AI Engine Diagram Workloads
AI エンジン タイル

AIE は、AL 推論アプリケーションのワークロードや、ビームフォーミング、レーダー、FFT、フィルタリングなどの高度な信号処理ワークロードまで広範なワークロードを高速化できます。

多様なワークロード/アプリケーションをサポート
  • 通信、レーダー、テストと計測装置、産業機器/オートモーティブ向けの高性能 DSP
  • ビデオおよび画像処理
  • 機械学習推論
実数、複素数、浮動小数点データ型をネイティブ サポート
  • INT8/16/32 固定小数点
  • CINT16 と CINT32 の複素数固定小数点
  • FP32 浮動データ小数点
FFT と FIR の実装に使用する専用の HW 機能
  • 128 INT8 MAC/ タイル

詳細は、AMD Versal AI Engine アーキテクチャ マニュアルを参照してください。

AIE タイルあたりの演算性能
INT4
256
INT8
256
INT16
64
CINT16
16 16
BFLOAT16*
16
FP32
16 16

*BFLOAT16 は FP32 ベクター プロセッサを使用して実装されています。

AI エンジン-ML タイル​

AI エンジン-ML のアーキテクチャは、演算コアとメモリ アーキテクチャの両方を重視し、機械学習に最適化されています。ML と高度な信号処理の両方に対応できますが、レーダー処理で一般的な INT32 と CINT32 のサポートを排除して最適化されているため、ML に特化したアプリケーションで高性能を発揮します。

AIE-ML は 2 種類のバージョンで提供しています。AIE の 2 倍の演算性能を持つ AIE-ML、そして AIE-ML の 2 倍の演算性能に加えて、ストリーム インターコネクト間の帯域幅を強化した AIE-MLv2 を利用可能です。

ML データ型のネイティブ サポートを拡張
  • BFLOAT16
  • FP8 (AIE-MLv2 のみ)
  • FP16 (AIE-MLv2 のみ)
  • MX4 (AIE-MLv2 のみ)
  • MX6 (AIE-MLv2 のみ)
  • MX9 (AIE-MLv2 のみ)
低レイテンシで機械学習の演算処理能力を強化
  • AIE-ML: 各タイルで 1 サイクルあたり 256 回の INT8 MAC 演算が可能
  • AIE-MLv2: 各タイルで 1 サイクルあたり 512 回の INT8 MAC 演算が可能
アレイ メモリを拡充してデータをローカル処理
  • 各タイルのローカル データ メモリを 2 倍に拡大 (64 kB)
  • 512 kB のメモリ タイルにより、HBW 共有メモリ アクセスが可能
AIE-ML タイルあたりの演算性能
INT4
1024
INT8
512
INT16
128
CINT16
16
BFLOAT16
256
FP32**
42

** AIE-ML FP32 をサポートする SW エミュレーション。

ヘテロジニアス プラットフォームの一部

AI エンジンは、プログラマブル ロジックやプロセッシング システムと連携し、Versal アダプティブ SoC 内で高い統合性を持つヘテロジニアス アーキテクチャを構成しています。このアーキテクチャは、ハードウェアとソフトウェアの両レベルで変更可能であり、さまざまなアプリケーションやワークロードのニーズに動的に対応できます。

Versal アーキテクチャは、ネイティブにソフトウェア プログラマビリティを備えるようゼロから構築されています。柔軟なマルチテラビット/秒のプログラマブル ネットワーク オン チップ (NoC) ですべてのコンポーネントと主要インターフェイスをシームレスに統合することで、ソフトウェア開発者、データ サイエンティスト、ハードウェア開発者は起動してすぐに利用でき、簡単にプログラムできるようになっています。

アプリケーション

クラウド、ネットワーク、エッジで無線処理から機械学習までのヘテロジニアス ワークロードに対応する AI エンジン

データセンターの演算

画像/ビデオの解析が、データセンターの処理量を爆発的に増加させています。たたみ込みニューラル ネットワーク (CNN) を使用するワークロードでは、膨大な計算量を要し、数テラ OPS に達する場合も少なくありません。AI エンジンは、この演算密度を優れたコスト効率と消費電力効率で実現できるように最適化されています。

5G の無線処理

5G は、極めて低いレイテンシで最高クラスのスループットを提供できるため、信号処理にかかる負荷が大幅に増加します。AI エンジンは、Massive MIMO パネルで使用される高度なビームフォーミング技術のような信号処理を、低消費電力の無線ユニット (RU) や分散ユニット (DU) 内でリアルタイムに実行できます。これは、ネットワーク容量の拡大に貢献します。

ADAS および自動運転

画像解析には、たたみ込みニューラル ネットワーク (CNN) と呼ばれるフィード フォワード型のディープ ニューラル ネットワークが最もよく使用されます。自動運転車やビデオ監視などあらゆる用途にコンピューターが利用されるようになった現在、CNN は欠かせない技術となっています。AI エンジンは、温度に対する厳しい要件を満たす必要がある小型システムで必要とされる演算密度と効率を提供します。  ​

航空宇宙/防衛

処理能力の優れたベクター型 DSP エンジンと AI エンジンを小型フォーム ファクターに搭載することで、フェーズド アレイ レーダー、早期警戒 (EW)、MILCOM、無人機などの A&D 分野の幅広いシステムを実現します。マルチミッション ペイロードの信号処理、信号調整、AI 推論などの多様なワークロードをサポートする AI エンジンは、これらのミッション クリティカル システムの厳しい SWaP (サイズ、重量、電力)要件を満たす演算効率を実現します。

産業用機器

ロボットやマシン ビジョンなどの産業用アプリケーションでは、センサー フュージョンに AI/ML 技術を組み合わせて、エッジ デバイスなどの情報発生源に近い場所でデータ処理を実行します。AI エンジンは、不確実性の高い現場環境にもかかわらず、このようなリアルタイム システムで高い性能と信頼性を提供します。

ワイヤレス テスト装置

ワイヤレス テスト装置には、リアルタイム DSP が広く使用されています。AI エンジンのアーキテクチャは、デジタル フロントエンドからビームフォーミングやベースバンドに至るまで、5G を含むあらゆるタイプのプロトコル実装に適しています。

ヘルスケア

AI エンジンを活用するヘルスケア アプリケーションには、超音波診断装置用の高性能並列ビームフォーマー、CT スキャナーの逆投影、MRI 装置の画像再構成技術のオフロード、さまざまな臨床/診断アプリケーションでの診断支援などがあります。

AI エンジンの開発フロー

AI エンジンは、ソフトウェア プログラマブルとハードウェア アダプタブルを兼ね備えた革新的なエンジンです。開発者には、わずか数分でコンパイルを完了し、異なるマイクロアーキテクチャをすばやく探索しながら、これらの演算エンジンの性能を最大限に引き出すことができる 2 種類のフローがあります。2 つの設計フローは次のとおりです。

  • Vitis™ 統合 IDE: C/C++ スタイルのプログラミング向けで、ソフトウェア開発者とハードウェア開発者の双方に適した統合開発環境
  • Vitis Model Composer: MathWorks Simulink® 上で動作するプラグイン形式のモデルベース デザイン フロー
  • Vitis AI: AI やデータ サイエンス分野向けの、AI/ML フレームワークベースの設計フロー

AI エンジン アレイは、リソースと電力を最適化しながら、高性能な DSP 機能のインプリメンテーションを可能にします。AI エンジンを FPGA ファブリック リソースと組み合わせて使用することで、高性能 DSP アプリケーションを非常に効率的に実装できます。AMD の Vitis ツール フローを使用して、DSP アプリケーション向け AI エンジンのハードウェア アクセラレーション機能を活用する方法を習得してください。AMD Vitis AI エンジンを活用する DSP デザイン

AI エンジン ライブラリ (ソフトウェア/ハードウェア開発者およびデータ サイエンティスト向け)

AMD の Vitis アクセラレーション ライブラリには、次のことを可能にする事前構築済みカーネルが含まれています。

  • 開発期間を短縮
  • AI エンジン アーキテクチャ間で移植可能 (例: AIE から AIE-ML へ)
  • AI エンジン技術をすばやく学習して適用
  • 設計者は独自のアルゴリズム開発に集中できる

ソフトウェア/ハードウェア開発者は、ベクター プロセッサベースの AI エンジンを直接プログラミングし、必要に応じて C/C++ コードのビルド済みライブラリを呼び出すことができます。

AI データ サイエンティストは、PyTorch や TensorFlow などの使い慣れたフレームワーク環境を使用して、AI エンジンを直接プログラミングしなくても、Vitis AI を介してビルド済みの ML オーバーレイを呼び出すことができます。

これらのライブラリはオープンソースで提供されており、GitHub (https://github.com/Xilinx/Vitis_Libraries) から入手できます。

データフロー プログラミング (ソフトウェア/ハードウェア開発者向け)

AI エンジンのアーキテクチャは、データフロー技術に基づいて構築されています。プロセッシング エレメント (PE) は、10 ~ 100 個のタイルが配列されたもので、演算ユニット全体にわたる 1 つのプログラムを作成します。こうしたタイル全体に対して並列処理を指定する指示子を埋め込む作業は設計者の手間がかかり、ほぼ不可能です。この問題を解決するために、AI エンジンの設計を 2 段階で行います。まず、1 つのカーネルを開発します。その後、ADF (適応型データフロー) グラフを作成して、複数カーネルをアプリケーション全体に接続します。

Vitis 統合 IDE では、C/C++ プログラミング コードを使用して AI エンジンのカーネルを開発したり、ADF グラフを設計したりできます。具体的には、次のことが可能になります。

  • C/C++ でカーネルを開発し、Vitis ライブラリを用いて特定の演算処理機能を記述
  • Vitis AI エンジン ツールを使用して、ADF グラフでカーネル同士を接続

デフォルトでは、1 つの AI エンジン タイル上で 1 つのカーネルが動作します。ただし、アプリケーションで許容される限り、同じ AI エンジン タイル上で複数カーネルを動作させて処理時間を短縮できます。

次に概念的な例を示します。

  • AI エンジン カーネルは C/C++ で開発されます。
  • プログラマブル ロジック (PL) 内のカーネルは、RTL または Vitis HLS (高位合成) で記述されます。 
  • PL と AI エンジンの両方にあるカーネル間のデータ フローは、ADF グラフを介して実行されます。
AI エンジン デザインを一つの完全システムに統合

Vitis 統合 IDE を利用することで、大規模なシステムに AI エンジン デザインを統合できます。1 つの統合フローでシミュレーション、ハードウェア エミュレーション、デバッグ、運用までを実行できます。

  • プロセッシング システム (Arm® サブシステム)、プログラマブル ロジック、DSP と AI エンジンなど、Versal プラットフォームのさまざまな異なるエンジンをターゲットとする専用のコンパイラを使用します。
  • その後、システム コンパイラで、これらの個々のコード ブロックを関連付け、すべての相互接続を作成してコード ブロックとカスタム メモリ階層の間のデータ移動を最適化します。このツール スイートには、PCIe® ベース システム用の x86 ツールチェーンも統合されています。
  • アプリケーションを運用する際には、ザイリンクス ランタイム ソフトウェア (XRT) のプラットフォームや OS に依存しない API を利用できるため、デバイスのコンフィギュレーション管理、メモリやホストからデバイスへのデータ転送、アクセラレータの実行が可能です。 
  • 最初のプロトタイプが完成したら、トランザクション レベルの高速シミュレータまたはサイクル精度シミュレータを使用してアプリケーションのシミュレーションを実行できます。その後、パフォーマンス アナライザーを使用してアプリケーションを最適化し、最適なパーティショニングと性能を達成します。
  • 要件を満たす結果を得ることができたら、Versal プラットフォーム上で運用を開始します。

製品ポートフォリオ

Versal™ AI コア シリーズ

AMD Versal AI コア シリーズは、優れた演算性能を発揮する AI エンジンにより、革新的な AI 推論処理とワイヤレス アクセラレーションを実現します。Versal 製品ポートフォリオの中で最も高い演算能力を備えており、Versal AI コア アダプティブ SoC は、データセンター コンピューティング、ワイヤレス ビームフォーミング、ビデオ/画像処理、ワイヤレス テスト装置などのアプリケーションに最適です。

Versal™ AI エッジ シリーズ

AMD Versal AI エッジ シリーズは、高性能、低レイテンシの AI 推論を実現できるため、自動運転、予測ファクトリ、ヘルスケア システム、航空宇宙/防衛分野のマルチミッション ペイロードなどの幅広いアプリケーションのインテリジェンス機能に最適です。Versal AI エッジ シリーズは、単に AI に最適化されたプラットフォームではなく、センサーや AI からリアルタイム制御に至るまでアプリケーション全体を高速化でき、安全性とセキュリティの不可欠な要件を満たします。

Versal プレミアム シリーズ

AMD Versal プレミアム シリーズは、ワイヤード通信、データセンター コンピューティング、テスト/計測機器、航空宇宙/防衛など、最も高い処理性能とデータ転送能力が求められるアプリケーション向けに設計されています。このシリーズは、プログラマブル ロジック、DSP エンジン、イーサネットや高速暗号処理用のハード IP ブロックを統合した AI エンジンを備えており、適応性の高い信号処理能力を提供します。

AMD Versal AI Edge VEK280
VEK280 評価キットで評価を開始

Versal AI エッジ VE2802 アダプティブ SoC が搭載されている VEK280 評価キットには、AI エンジン ML や DSP ハードウェア アクセラレーション エンジンが含まれており、複数の高速接続オプションを利用できます。このキットは、オートモーティブ、ビジョン、航空宇宙/防衛、産業、科学、医療などの市場における ML 推論アプリケーション向けに最適化されています。

AI Engine Diagram Versal AI Kit
Versal AI コア シリーズ VCK190 評価キット

VCK190 評価キットは、現在のサーバー クラスの CPU と比べて 100 倍以上の演算性能を実現可能な AI エンジンおよび DSP エンジンを活用したソリューションの開発を支援します。豊富な接続オプションと標準化された開発フローでサポートされた Versal AI コア シリーズの VC1902 デバイスは、クラウド、ネットワーク、エッジ アプリケーション向けに、Versal 製品ポートフォリオの中で最高レベルの AI 推論および信号処理スループットを提供します。

利用開始

AMD の Vitis 統合ソフトウェア プラットフォームは、ハードウェア アクセラレーション テクノロジを使用する、包括的なコア開発キットとライブラリを提供します。

Vitis GitHub および AI エンジン開発リポジトリでは、AI エンジンに関するさまざまなチュートリアルが公開されており、テクノロジの詳細や設計手法について理解を深めることができます。

コンパイラとシミュレータを含む AI エンジン ツールは、Vitis IDE に統合されており、追加のライセンスが必要です。AI エンジン ツールおよびライセンスへのアクセス方法の詳細は、AMD 営業担当者へお問い合わせいただくか、お問い合わせフォームをご利用ください。 

AMD Vitis Model Composer は、Simulink® および MATLAB® 環境でデザインを短時間で試行できるモデル ベースのデザイン ツールです。これにより、RTL および HLS ブロックを AI エンジン カーネルやグラフと一体化させて同じシミュレーションに組み込むことができるため、AI エンジン ADF グラフ開発やシステム レベルでのテストが効率化されます。DSP エンジニアは、Simulink や MATLAB ツールの信号生成や可視化機能を活用できるため、使い慣れた環境で設計やデバッグが可能になります。Vitis Model Composer で Versal AI Engine を活用する方法については、AI エンジンのリソース ページをご覧ください。

Versal AI コア シリーズをベースとした VCK190 キットは、AI エンジンおよび DSP エンジンを活用したソリューションの開発を可能にします。この評価キットには、設計を始めるために必要なものがすべて含まれています。

PCIe® ベースの VCK5000 開発カードもご利用いただけます。これには、データセンターの高スループット AI 推論用に構築された AI エンジンを備える Versal AI コア デバイスが搭載されています。

AIE-ML 開発向けの VEK280 評価キットは、Versal AI エッジ シリーズをベースとしており、DSP や ML アプリケーションの開発が可能になります。

AMD のトレーニングおよび学習リソースは、開発者が次回の Versal アダプティブ SoC 開発プロジェクトで十分な生産性を発揮するために必要な実践的スキルと基礎知識を提供します。対象コースは次のとおりです。

ソリューション計画から、システム統合、検証まで、AMD は設計の生産性を最大限に高めるために、Versal アダプティブ SoC 関連の膨大な資料の中から必要なリソースをカスタマイズして提供します。Versal アダプティブ SoC デザイン プロセス ハブにアクセスして、設計のニーズに合った最新のコンテンツを入手し、AI エンジンの機能および設計手法の詳細をご覧ください。

リソース

最新情報を入手

アダプティブ SoC/FPGA の通知リストに登録された方には、最新情報をいち早くお届けします。