コスト効率に優れたエンタープライズ AI 向け推論
業界がモデルをトレーニングする段階から運用する段階へと移行する中、CPU は AI ワークロードと汎用ワークロードを並行して実行するという 2 つの仕事をこなしています。
オンプレミスやクラウドの AMD EPYC™ 9005 サーバー向け CPU に中小規模のモデルを展開することで、コンピューティングへの投資から最大限の価値を引き出すことができます。
オーバープロビジョニングを回避し、AI への投資から最大限の利益を得るには、モデル サイズとレイテンシ要件を適切なハードウェアに合わせることが重要です。最新世代の AMD EPYC サーバー向け CPU は、汎用ワークロードと共にさまざまな AI タスクを処理できます。モデル サイズの拡大、ボリュームの増加、レイテンシの低減が重要になるにつれ、GPU の効率性とコスト効率が向上します。
| AI 推論ワークロード | 最適な用途 |
||
CPU |
CPU + PCIe ベースの GPU |
GPU クラスター |
|
ドキュメント処理および分類 |
✓ |
|
|
データ マイニングおよび分析 |
✓ |
|
✓ |
科学的シミュレーション |
✓ |
|
|
翻訳 |
✓ |
|
|
インデックス作成 |
✓ |
|
|
コンテンツの適正化 |
✓ |
|
|
予防保全 |
✓ |
|
✓ |
バーチャル アシスタント |
✓ |
✓ |
|
チャットボット |
✓ |
✓ |
|
エキスパート エージェント |
✓ |
✓ |
|
動画のキャプション作成 |
✓ |
✓ |
|
不正検出 |
|
✓ |
✓ |
意思決定 |
|
✓ |
✓ |
動的価格設定 |
|
✓ |
✓ |
音声および動画のフィルタリング |
|
✓ |
✓ |
金融取引 |
|
|
✓ |
電気通信およびネットワーク |
|
|
✓ |
自律システム |
|
|
✓ |
ワークロード要件に応じて、高コア数 CPU のみ、あるいは CPU と GPU の組み合わせが推論に最適です。モデル サイズとレイテンシのニーズに適合するインフラストラクチャについて詳しく説明します。
最新の AMD EPYC サーバー向け CPU は、従来の機械学習、コンピューター ビジョン、AI エージェントなど、さまざまな AI ワークロードのパフォーマンス要件を満たすことができます。CPU で優れたパフォーマンスを発揮する 5 つの一般的なワークロードについて説明します。
CPU のみのサーバーに展開される場合でも、大規模モデルを実行する GPU のホストとして使用される場合でも、AMD EPYC サーバー向け CPU は最新のオープン スタンダード テクノロジを採用した設計でエンタープライズ AI 推論ワークロードを加速させます。
第 5 世代 AMD EPYC 9965 サーバー向け CPU と Intel Xeon 6980P の比較は次のとおりです。
第 5 世代 AMD EPYC 9965
Intel Xeon 6980P
第 5 世代 AMD EPYC 9965
Intel Xeon 6980P
第 5 世代 AMD EPYC 9965
Intel Xeon 6980P
第 5 世代 AMD EPYC 9965
Intel Xeon 6980P
第 5 世代 AMD EPYC 9965
Intel Xeon 6980P
まず、パフォーマンスのニーズを判断します。分単位、秒単位、ミリ秒単位で見たときに必要な応答速度はどれくらいでしょうか? パラメーター数で見ると、実行するモデルの大きさはどのくらいでしょうか? 第 5 世代 AMD EPYC CPU にアップグレードするだけで、パフォーマンス要件を満たし、GPU ハードウェアのコストを回避できる可能性があります。
リアルタイムの応答が不要な場合、バッチ推論の方が、キャンペーン パフォーマンスや予防保全の分析などの大規模で長期的な分析のコスト効率が高くなります。金融取引や自律システムなどのインタラクティブなユース ケースをサポートするリアルタイム推論には、GPU アクセラレータが必要になる場合があります。バッチ推論の場合は CPU だけで十分ですが、リアルタイム推論の場合は GPU が最適です。
CPU のみで、最大約 200 億個のパラメーターを持つモデルの推論に十分な性能を提供し、数秒から数分程度のレイテンシで応答できます。これは、多くの AI アシスタント、チャットボット、エージェントにとって十分な応答速度です。それよりもモデルのサイズが大きい場合や、応答時間を速くする必要がある場合は、GPU アクセラレータの追加を検討してください。
一言で答えると、それは状況しだいです。ワークロードに対して最大のパフォーマンスを引き出せるかどうかは、ワークロードの種類と専門性に大きく左右されます。それでも、特定の第 5 世代 AMD EPYC サーバー向け CPU は、大規模言語モデル (DeepSeek-R1 671B3)、中規模言語モデル (Llama 3.1 8B4、GPT-J 6B6)、小規模言語モデル (Llama 3.2 1B5) などの多くの一般的な AI ワークロードでの推論において、同等の Intel Xeon 6 より優れたパフォーマンスを発揮します。
AMD EPYC サーバー向け CPU には、シリコンベースのセキュリティ機能セットを提供する AMD Infinity Guard が搭載されています。7 AMD Infinity Guard には、AMD Secure Encrypted Virtualization (AMD SEV) が含まれています。AMD SEV は、機密性の高い仮想マシン (VM) を使用して実行時にデータ、AI モデル、ワークロードを保護する、広く採用されているコンフィデンシャル コンピューティング ソリューションです。
インフラストラクチャのニーズを AI の目標に合わせます。AMD は、業界をリードするパフォーマンスの高さに裏打ちされた幅広い AI ポートフォリオ、オープン スタンダード準拠のプラットフォーム、強力なエコシステムを提供しています。
AMD ZenDNN および AMD ROCm™ ソフトウェアを使用すると、開発者はフレームワークを選択し、アプリケーションのパフォーマンスを最適化できます。