Radeon Instinct and Epyc

Ускорители для высокопроизводительных вычислений

С появлением процессоров EPYC™ для серверов и графических ускорителей Radeon Instinct™ наступила новая эпоха гетерогенных и высокопроизводительных вычислений для искусственного интеллекта.

Становление новой эпохи горизонтально масштабируемых решений для высокопроизводительных вычислений и глубинного обучения

Настоящее ускорение глубинного обучения и соответствие разнообразным нуждам центра обработки данных требуют высокопроизводительных вычислений и ускорения графического процессора, что позволит оптимизировать работу с большими объемами данных с множеством вычислений с числами с плавающей запятой. Такие вычисления можно распределить по многим ядрам. Разработчики больших систем также ищут возможности проектировать эффективные системы, которые обладают гибкостью и открытостью, отвечающей требованиям самых тяжелых на сегодняшний день рабочих нагрузок.

Компания AMD предоставляет разработчикам эти возможности и позволяет им поднять планку достигаемой плотности вычислений. Это возможно благодаря оптимизированным серверам с высокой производительностью, сниженным временем задержек и улучшенной эффективностью в открытой, гибкой среде. Представив новые серверы на базе процессора EPYC с графическими ускорителями Radeon Instinct в сочетании с платформой открытого программного обеспечения ROCm, компания AMD открывает новую эру гетерогенных технологий для высокопроизводительных вычислений и глубинного обучения.

Серверные ускорители Radeon Instinct™ MI25

Компания AMD совершила прорыв, представив продукты семейства Radeon Instinct на основе открытых стандартов. Ускорители Radeon Instinct в сочетании с подходом открытой экосистемы к гетерогенным вычислениям поднимают планку достигаемой производительности, эффективности и гибкости, необходимых для создания систем, которые справятся с сегодняшними рабочими нагрузками по обработке данных.

Новый ускоритель Radeon Instinct MI25 на базе архитектуры следующего поколения Vega от AMD, который обладает мощным движком для параллельных вычислений, является лучшим в мире обучающим ускорителем для крупномасштабных приложений глубинного обучения. Этот исполнительный компонент для высокопроизводительных вычислений показывает пиковую производительность при обработке чисел с плавающей запятой в 24,6 терафлопс для формата FP16 и 12,3 терафлопс для формата FP321. Добавьте к этим показателям платформу открытого программного обеспечения ROCm и самую передовую архитектуру памяти графического процессора, память HBM2 объемом 16 ГБ с пропускной способностью до 484 ГБ/с — и вы получите лучшее решение для современных рабочих вычислительных нагрузок.

Особенности ускорителя Radeon Instinct MI25

  • Создан на базе архитектуры следующего поколения Vega от AMD — самой передовой в мире архитектуры памяти графического процессора
  • Великолепная производительность в форматах FP16 и FP32 для высокопроизводительных вычислений и глубинного обучения
  • Платформа открытого программного обеспечения ROCm для высокопроизводительных стоечных вычислений
  • Обширная поддержка базовых адресных регистров (BAR) для одноранговой коммуникации между несколькими графическими процессорами
  • Аппаратные технологии MxGPU для оптимального использования центра обработки данных

При совместной работе серверов с новыми процессорами AMD EPYC™ и ускорителями Radeon Instinct MI25 достигается превосходная плотность вычислений и производительность на узел

Производительность процессора EPYC™ для обработки рабочих нагрузок, связанных с высокопроизводительными вычислениями, на основе интенсивного использования памяти

Процессор AMD EPYC обеспечивает превосходную производительность для обработки рабочих нагрузок, связанных с высокопроизводительными вычислениями, на основе интенсивного использования памяти

HSA and Rocm logos

Платформа открытого программного обеспечения ROCm

Платформа открытого программного обеспечения ROCm предоставляет программные решения с открытым исходным кодом для высокопроизводительных гетерогенных вычислений и служит основой для построения первоклассных систем для центров обработки данных. В ее состав входят оптимизированные для высокой производительности драйверы для Linux®, компиляторы, инструменты и библиотеки. Принцип создания ПО на платформе ROCm предполагает выбор программирования, минимализм и модульный подход к разработке программного обеспечения. Все этого позволяет проводить более оптимизированные вычисления с помощью ускорителя графического процессора.

Благодаря сочетанию такого подхода с технологиями безопасной аппаратной виртуализации MxGPU от AMD системные разработчики могут менять методы создания систем для обеспечения большей эффективности и оптимизированного использования мощностей центра обработки данных.

Ключевые элементы платформы ROCm

  • Открытый 64-разрядный драйвер Headless Linux® и расширенный стек для переменных исполняемой программы системы оптимизированы для высокопроизводительных и гипермасштабируемых вычислений
  • Поддержка вычислений на нескольких графических процессорах как посредством серверной узловой коммуникации, так и без нее через удаленный прямой доступ к памяти (RDMA), а также поддержка драйвером прямой одноранговой синхронизированной RDMA-коммуникации
  • Более простая программная модель предоставляет разработчикам контроль тогда, когда это необходимо
  • Подлинные единые гетерогенные компиляторы HCC для C++ взаимодействуют с системой в целом, а не с отдельным устройством
  • Инструмент HIP для преобразования CUDA обеспечивает выбор платформы, на которой будет использоваться программный интерфейс с вычислениями на графическом процессоре

Платформа открытого программного обеспечения ROCm является надежной базой для широкомасштабных развертываний искусственного интеллекта и центра обработки данных с высокопроизводительными вычислениями. Она также содержит оптимизированный драйвер Linux с открытым кодом и независимую от языка обширную среду выполнения системы ROCr. Все это позволяет активно использовать программный интерфейс среды выполнения архитектуры гетерогенных систем (HSA). Такой подход предоставляет обширную основу для использования языков программирования, таких как HCC C++, OpenCL™ от Khronos Group, Anaconda Python от Continuum, а также инструмента HIP для преобразования CUDA.2

Компания AMD продолжает следовать открытому подходу, чтобы расширить поддержку важных инструментов графическими ускорителями процессора Radeon™, требуемых для ускорения класса NUMA и развертывания высокопроизводительных вычислений и глубинного обучения. Сейчас платформа ROCm поддерживает новое семейство ускорителей графического процессора Radeon Instinct, а также ряд других видеокарт AMD FirePro™ S-серии, Radeon™ RX-серии и Radeon™ Pro Duo. Чтобы ознакомиться с полным списком поддерживаемых видеокарт, посетите веб-сайт ROCm.

OpenCL logo

Поддержка стандартов OpenCL™, OpenMP и OpenACC​​

Компания AMD продолжает поддерживать эти стандарты в своих новейших продуктах3. Мы убеждены, что большинство специалистов в области высокопроизводительных вычислений хотят использовать открытые стандарты в своих проектах и модельных экспериментах. Компания AMD стремится поддерживать эту цель и, продвигая открытые стандарты, активно работает с пользователями.

Сноски
  1. Расчет показателя в терафлопс: для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Для стандарта FP64 частота в терафлопс вычисляется при значении частоты 1/16.
  2. Поддержка языка Python планируется, но до сих пор находится в разработке.
  3. Некоторые видеокарты S-серии могут поддерживать не все перечисленные стандарты. Для получения подробной информации о поддерживаемых программных интерфейсах см. технические характеристики каждой видеокарты