RAD 团队开源项目

AMD 通过开源项目推动创新,为开发人员提供用于高性能 GPU 和 CPU 计算的工具,并邀请各方合作以塑造未来系统。

ACCL

ACCL 通过 Vitis 内核和 XRT 驱动程序为 Xilinx FPGA 提供类似于 MPI 的集合通信功能,从而实现了快速且可扩展的数据传输。

Astra-Sim

Astra-Sim 是一种先进的分布式机器学习系统模拟器,由 AMD 进行了优化,能够更准确地模拟 MSCCL++ 所生成的集合通信算法。

AUP AI 教程

涵盖整个开发周期的一系列 AMD AI 笔记本电脑,分为五个部分:入门、模型设计、专业化、优化和服务。

Brevitas

Brevitas 是一个 PyTorch 库,可实现灵活的神经网络量化,支持训练后量化 (PTQ) 和量化感知训练 (QAT)。

Chakra

Chakra 是一个开放且可移植的基准测试与协同设计生态系统,它使用基于图形的执行轨迹。AMD 对工具包和模式进行了优化,以兼容 MI Instinct GPU。

FINN

FINN 是一种用于在 FPGA 上进行 AI 数据流推理的研究框架,它采用 Brevitas 进行量化,并支持 CNN、残差网络以及新兴的 Transformer 模型。

gem5

gem5 是全球应用最为广泛的架构模拟器,由 AMD 研究团队联合牵头开发。该团队将持续改进唯一一款完全开源的 MI Instinct GPU 模型。

GeniePIM

AMD GeniePIM 是一个基于 PIM 的 GenAI 分析模型,用于评估新兴 PIM 架构的 GEMV 性能,并将加速、时间以及配置情况与主机 GPU 进行对比。

Iris

Iris 是一个基于 Triton 的远程内存访问框架,由 AMD RAD 团队开发,它在 Triton 中提供了类似 SHMEM 的 API,从而能够实现高效的多 GPU 编程。

IRON

IRON 是一个开源、接近硬件 (close-to-metal) 的 Python API,它基于 MLIR-AIE 方言的语言绑定,可在 AMD 锐龙 AI NPU 上实现快速且高效的执行。

LogicNets

LogicNets 是一种用于设计、训练和部署稀疏量化神经网络的方法,这些网络由适合硬件使用的构建块构成,旨在实现高效推理。

NPUEval

NPUEval 是一个 LLM 评估数据集,用于对锐龙 AI 硬件上的 AIE 内核代码生成进行评估,准确地对以 NPU 为重点的模型进行基准测试。

Omnistat

Omnistat 提供了多款实用工具,可通过对整个集群或与用户作业相关联的主机子集进行低开销采样,汇总横向扩展系统的指标数据。

Omnitrace

Omnitrace 是一款功能全面的性能分析和跟踪工具,适用于在 CPU 或混合 CPU + GPU 系统上运行的并行 C、C++、Fortran、HIP、OpenCL 和 Python 应用。

OpenNIC

OpenNIC 项目为开源社区提供了一个基于 FPGA 的 NIC 平台,该平台包含一个 NIC shell 以及 Linux 内核和 DPDK 驱动程序。

P2P

P2P 技术能够在不使用主机内存的情况下,通过 PCIe 实现 AMD GPU 与 FPGA 之间的高效数据传输,这一功能现已上游合入苏黎世联邦理工学院的 Coyote 运行时系统中。

P4AI

P4AI 是一个功能强大的框架,用于快速开发基于 DNN 的 SmartNIC 解决方案原型,它利用自动化代码生成技术在 AMD Alveo™ 卡上构建高性能设计。

PACE

AMD PACE 是一款专为 AMD 平台上的 LLM 而设计的高性能推理解决方案,它提供了 PyTorch 扩展功能,便于快速集成新的内核和图形优化。

PYNQ

PYNQ 是 Xilinx 的一个开源项目,它简化了在 Zynq APSoC 上设计嵌入式系统的流程,使用户能够利用 Python 和灵活的硬件覆盖层进行快速开发。

QONNX

QONNX 通过自定义操作(即 IntQuant、FloatQuant、BipolarQuant 和 Trunc)来扩展 ONNX,以实现任意精度整数和迷你浮点数 (minifloat) 的量化表示。

RapidWright

RapidWright 是一个开源框架,能够实现定制化的、针对特定领域的 FPGA 实现流程,帮助开发人员对设计映射进行精细控制。

RecoNIC

RecoNIC 是一款支持 RDMA 的 SmartNIC,具有计算加速功能,能够降低数据复制开销,并将数据移动到更接近计算的位置,从而实现更快、更高效的处理。

ROC_SHMEM

rocSHMEM 起初是由 AMD 研究团队开展的一个项目,旨在通过类似 OpenSHMEM 的接口实现以 GPU 为中心的网络连接,如今它已成为 ROCm 平台上的一个完整生产库。

Ryzers

该库提供了可组合的 Dockerfile 和构建脚本,用于在 AMD 锐龙 AI 硬件上部署软件、完整应用和演示工具。

Tensorcast

TensorCast 是一个基于 PyTorch 的数据转换和量化库,专门针对 OCP MX 和 AMD 相关的低精度数据类型,提供了用于验证的工具和参考代码。