从芯片到云端:AMD 携手 AWS — IT 领导者须掌握的核心要点
Apr 01, 2026
我拥有近三十年的一线技术工作经验,也曾在 AWS 任职,最近加入了 AMD。然而,我必须承认,即使经验丰富,AMD 销售和工程简报会所涉及的精深技术内容,依然让我晕头转向。如果您也曾全程参加过这类简报会,一定深有体会。
因此,有必要梳理这些深奥的技术概念,并专门用更加通俗易懂的语言为 IT 领导者和想要了解技术原理的决策者解释这些概念,帮助他们更好地理解 AMD 在 AWS 云生态系统中的作用。下面就是我的梳理和解读。
AMD 携手 AWS 的云端发展历程
首先来了解一下背景信息。AMD 于 1969 年在加利福尼亚州桑尼维尔市成立,早期业务聚焦于存储芯片与半导体领域。直到 1975 年,AMD 才推出首款 CPU AM9080 与 AM2900,为公司如今的发展格局奠定了基础。
时间来到 2018 年,AWS 与 AMD 正式展开合作,为客户提供更多超高性价比的云计算解决方案。自 2018 年起,AWS 陆续推出基于各代 EPYC(霄龙)CPU 的实例,涵盖通用型、内存优化型、计算优化型、突发性能型以及高性能计算型实例系列。
AMD EPYC(霄龙)服务器 CPU 并非仅适配 AWS 产品。这些 CPU 广泛应用于各大主流公有云平台,同时 AMD 全面布局云端与本地工作负载,凭借高能效、高性能的计算方案助力客户达成目标。
基于 AMD 处理器的 AWS 实例阵容
- AWS 5a 实例系列(m5a、c5a、r5a)
这是首批基于 AMD CPU 的 AWS 实例。虽然该系列实例在一些场景下可能仍有价格优势,但已属于老旧方案;该系列实例适合需要在算力、内存和网络之间实现平衡而非需要出色单线程性能的场景,或者适合需要以更低成本实现均衡性能的场景。
- AWS t3a(突发性能型)实例系列
这是唯一一批基于 AMD CPU 的突发性能型实例系列。该系列实例性价比高,专为 CPU 需求存在波动的工作负载而优化,可提供稳定基准性能,同时在需要时应对性能突发需求。它们非常适合低使用率的工作负载,而非有稳定性能需求或高性能需求的工作负载。如需进一步了解突发性能型实例的工作方式,请访问此处。
- AWS 6a 实例系列(m6a、c6a、r6a)
AWS 6a 实例是 7a 的前一代,基于 AMD EPYC(霄龙)服务器 CPU 构建,性价比极高。
- AWS 7a 实例系列(m7a、c7a、r7a)
该系列实例基于第四代 AMD EPYC(霄龙)服务器 CPU,与上一代 M6a 相比,性能提高了多达 50%。1 评估这些实例时,企业通常看重其更优的性价比和工作负载整合能力。例如,Pinterest 在 2025 年 AWS re:Invent 大会上分享称,根据内部分析,将工作负载迁移至 m7a.4xlarge 实例后,单位成本性能提升了约 35–40%。2
- AWS 8a 实例系列(m8a、c8a、r8a)
作为 M 实例系列的最新成员,m8a 实例基于第五代 AMD EPYC(霄龙)9005 服务器 CPU,最高频率达 4.5GHz。与 M7a 实例相比,其性能可提升多达 30%,而单位成本性能可提高多达 19%。此外,该系列实例还提供更高内存带宽、更优网络和更大存储吞吐量,以及适用于各类通用工作负载的灵活配置选项。
深入了解更多 AMD 技术概念
让我们来详细了解一些最具价值的 AMD 技术。
小芯片架构:高效智能的模块化架构
与采用单一大型芯片(单片设计)的传统 CPU 不同,AMD EPYC(霄龙)服务器 CPU 由多个小型模块化组件(称为“小芯片”)构成。每个小芯片都拥有专属的 L3 高速缓存和内存总线,而且在 7a 实例中,每个小芯片都包含八个核心。这一点至关重要,因为这种设计能在 EC2 等共享环境中提供强大的隔离能力,有效避免“嘈杂邻居”问题。如果某个实例独占资源,只会影响其所在的小芯片,而不会波及整个 CPU。这种设计能为您的工作负载带来高度稳定的性能,尤其是在虚拟化环境中。
CPU 缓存层级:L1、L2 和 L3
当 CPU 需要数据时,它会先在缓存中查找,然后再访问主内存(主内存速度较慢)。AMD CPU 采用三级缓存:
- L1(每核心 64KB):这是速度最快、容量最小的缓存层,用于存储即时指令。
- L2(每核心 1MB):用于存储近期或预测的数据。
- L3(每个小芯片 32MB):由同一小芯片内的所有核心共享,容量较大但速度较慢。
这种多层级缓存系统通过减少 CPU 访问 RAM 的需求,从而提升整体性能。
透明安全内存加密 (TSME)
TSME 可在无需修改应用或操作系统的情况下,对主内存中的所有数据进行加密。大多数系统会对静态数据(如 EBS 卷)进行加密,但 RAM 中的数据通常未加密。然而,借助 TSME,数据在内存中也能得到保护;在基于 AMD CPU 的 EC2 实例中,TSME 始终处于启用状态,且完全透明、无需任何手动配置。这在云计算等多租户环境中尤为重要。
支持安全嵌套分页的 AMD 安全加密虚拟化 (SEV)
AMD SEV 可在硬件层面实现全面的内存隔离。虽然 AWS 也提供 Nitro Enclaves(基于软件的安全防护),但 SEV 是内置于 CPU 中的。一些相关的须知事项:SEV 目前仅在 6a 实例上可用;SEV 必须在启动时启用,启用后便无法关闭,而且会带来 10% 的成本上涨;SEV 不支持休眠或 Nitro Enclaves。但总体而言,安全嵌套分页技术提供了额外的一层保护,可防止虚拟机管理器级别的访问,甚至包括 AWS 自身的访问。
同步多线程 (SMT)
SMT 允许一个 CPU 核心同时运行两个线程。即使某个线程处于停滞状态,也能确保核心保持忙碌。
- 6a 实例已启用 SMT
- 7a 实例已禁用 SMT
不过,这需要做出一定的权衡取舍。对于在专用主机上运行 BYOL(自带许可证)Windows Server 等工作负载的情况,SMT 会影响您所需的许可证数量。例如:
- r6a(启用 SMT):96 个物理核心 → 192 个 vCPU → 许可证费用约为 40626 美元
- r7a(禁用 SMT):192 个物理核心 → 192 个 vCPU → 许可证费用约为 81252 美元
虽然 vCPU 数量相同,但许可证成本却翻了一倍。
(如果您希望较新一代的 7a 实例支持 SMT,AMD 期待您的反馈!请通过 AWS@AMD.com 联系我们。)
高级指令集:AVX-512、VNNI 和 bfloat16
AMD EPYC(霄龙)CPU 支持多种强大的指令集,可加速现代工作负载处理速度:
- AVX-512 能够同时执行多项计算,非常适合 AI、数据分析和高性能计算。
- VNNI 优化了 AI 推理性能,非常适合图像识别和自然语言处理等应用场景。
- bfloat16 是一种专为深度学习设计的 16 位浮点格式,可将内存使用量减少一半,同时保持数值的动态范围。它有助于实现更快、更高效的机器学习训练和推理。
简而言之:如果您从事 AI、机器学习或大数据相关工作,这些指令集将帮助您以更低成本、更高效率完成工作任务。
总结
以下是对本文内容的简要总结:
- 基于 AMD CPU 的 EC2 实例性价比高且性能出众。
- 相比上一代 M6a 实例,7a 实例性能提升了高达 50%。1 小芯片架构有助于解决“嘈杂邻居”问题,并实现更稳定的性能。
- SME 和 SNP 为数据提供了额外的一层安全保护。
- 高级指令集使基于 AMD 的实例成为 AI 和机器学习的适合选择。
- SMT 状态对许可成本和性能优化至关重要。
无需孤军奋战
无论您是要进行现代化改造、缩减规模,还是单纯追求成本效益,AMD 都能为您提供所需工具和专业指导。AMD EPYC(霄龙)咨询工具套件可助您选出适合工作负载的 EC2 实例;AMD 与 AWS 合作伙伴紧密协作,为用户提供量身定制的解决方案。许多组织会针对不同的工作负载组合采用多种策略,以实现最大投资回报率。
如果需要帮助,AMD 及其合作伙伴可随时为您提供支持,助您根据现有架构选择合适的方案。如果想要就这篇博文提供反馈或就后续主题提供建议,请通过 AWS@AMD.com 与我们联系。
©2026 AMD 公司版权所有。保留所有权利。AMD、AMD 箭头、AMD 霄龙、AMD EPYC 及其组合是 AMD 公司的商标。本文中使用的其他产品名称仅用于标识目的,也可能是其各自公司的商标。支持的功能可能因操作系统而异。有关具体功能,请与系统制造商确认。任何技术或产品都无法做到绝对安全。
附注
- AWS,Amazon EC2 M7a 实例
- AWS,re: Invent 2025
- AWS,Amazon EC2 M7a 实例
- AWS,re: Invent 2025