突破基因组学壁垒:Slorado 将开源基因组碱基识别引入 AMD GPU
Nov 25, 2025
悉尼新南威尔士大学、Pawsey 和 AMD 携手合作,推动 DNA 分析普及化
DNA 测序正迈入速度与开放并重的新时代。悉尼新南威尔士大学 (UNSW Sydney) 与 AMD 研究与高级开发 (RAD) 团队的研究人员共同开发了 Slorado,这是全球首款用于实时纳米孔 DNA 解码的完全开源工具。Slorado 基于 AMD GPU 和 ROCm 开源平台构建,为基因组学界提供了高性能、可扩展的碱基识别工具,使全球科学家能够在任何 GPU 硬件上分析纳米孔测序数据。Slorado 的出色性能与可扩展性已在澳大利亚 Pawsey 超级计算研究中心的 Setonix 超级计算机上得到验证。
借助开放计算加速基因组学研究
纳米孔测序设备凭借高性价比、高便携性、实时 DNA 分析优势,正在变革基因组学。Oxford Nanopore Technologies (ONT) 的设备会产生连续的电信号(或称为波形信号),再由 AI 模型将其解码为 DNA 碱基(A、C、G、T)。这一解码过程被称为碱基识别。ONT 的开源碱基识别器 Dorado 推动了该领域的重大进展,但此前一直依赖闭源组件,将研究人员限制在特定 GPU 上。
Slorado 消除了这一壁垒,为研究人员提供了一个完全开源的替代方案,可支持最新的基于 Transformer 的碱基识别模型,并通过 ROCm 在 AMD Instinct 和 Radeon GPU 上高效运行。凭借超高透明度、便携性和高性能,Slorado 让研究人员能够在从超级计算机到本地 GPU 工作站的各种计算环境中灵活部署纳米孔测序工作流程。
在澳大利亚旗舰级 AMD 超级计算机上完成验证
位于 Pawsey 超级计算研究中心的 Setonix 超级计算机(搭载 AMD Instinct MI250X GPU)是 Slorado 性能验证的主要测试平台。
运行一次典型的人类基因组纳米孔测序任务时,48 小时内可生成约 1TB 的原始信号数据。通过利用 Setonix 的多节点扩展能力,研究人员可以并行处理这些数据集,大幅缩短获取洞察的时间,并支持大规模基因组研究。Slorado 仅用 2.3 小时就能处理完一组人类基因组数据,速度远超传统工作流程。
图 1 比较了在 FAST、HAC 和 SUP v5 模型下,AMD Instinct MI250X 和 MI300X GPU 的总碱基识别耗时。在 Pawsey 的 Setonix 系统(每节点配备四个 AMD Instinct MI250X 加速器)上,处理完整的 HG002 ONT PromethION 数据集时,Slorado 在 FAST 模型下总耗时 2.3 小时,在 HAC 模型下耗时 5.4 小时,在计算密集型 SUP 模型下耗时 15.4 小时。这些结果充分证明,当前在大规模高性能计算环境中广泛部署的 MI250X 架构带来了强大吞吐量和高效扩展能力。Slorado 还在八路配置的 AMD Instinct MI300X(新一代加速器,专为支持更高内存容量和 AI 工作负载而设计)上进行了评估。在 MI300X 上处理相同数据集时,在 FAST 模型下耗时 0.8 小时,在 HAC 模型下耗时 2.3 小时,在 SUP 模型下耗时 3.7 小时。这充分体现了新一代产品的性能飞跃,以及 Slorado 在搭配更高带宽、更大容量 GPU 架构时所实现的显著效率提升。
这项工作由新南威尔士大学的 Hasindu Gamaarachchi 博士及其博士生 Bonson Wong 牵头完成。
基于 AMD GPU 进行碱基识别 - 快速入门指南
最简单的入门方式便是使用适用于 Linux 的预编译 Slorado 二进制文件。
第 1 步:下载最新的 x86_64-rocm-linux 二进制文件
VERSION=v0.3.0-beta
wget "https://github.com/BonsonW/slorado/releases/download/$VERSION/slorado-$VERSION-x86_64-rocm-linux-binaries.tar.xz"
第 2 步:解压 tarball 并验证安装
tar xvf slorado-$VERSION-x86_64-rocm-linux-binaries.tar.xz
cd slorado-$VERSION
bin/slorado --help
第 3 步:下载测试数据集(20,000 条读取)
wget -O PGXXXX230339_reads_20k.blow5 https://slow5.bioinf.science/hg2_prom_5khz_subsubsample
第 4 步:使用您选择的模型运行碱基识别器
以下示例使用的是 v5.0.0 高精度模型:
./bin/slorado basecaller models/dna_r10.4.1_e8.2_400bps_hac@v5.0.0 PGXXXX230339_reads_20k.blow5 -o out.fastq
如果二进制文件与您的系统不兼容,可按照说明从源代码编译 Slorado:
开放科学,开放计算,开放研究。
Slorado 展示了开放科学与开放计算如何协同推动科学发现。AMD 携手合作伙伴,将前沿 AI 碱基识别技术与开源 ROCm 软件栈相结合,使研究人员能够突破专有平台的限制,不断拓展基因组分析的边界。
通过 Slorado 及其他创新项目,AMD 持续赋能可扩展、透明且开源的新一代科学计算技术。
免责声明
Slorado 包含根据 Oxford Nanopore Technologies PLC 公共许可证 v1.0 授权的组件。仅允许用于研究目的。