NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

Jen-Hsun Huang 最近基于该系统的 DGX A100 系统 把它从烤箱里拿出来,包括八个 A100 GPU、六个 NVLink 3.0 交换机、九个 Mellanox 网络控制器、两个 64 核 AMD EPYC Rome 一代处理器、1 TB RAM 和 15 TB 支持 NVMe 的 SSD。

NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

NVIDIA DGX A100 是该公司的第三代计算系统,主要为解决人工智能问题而设计。 现在,此类系统基于 Ampere 系列最新的 A100 图形处理器构建,性能大幅提升,已达到 5 petaflops。 因此,DGX A100 能够处理更复杂的人工智能模型和更大的数据量。

对于DGX A100系统,NVIDIA仅标注了HBM2显存总量,达到了320GB。 简单的算术计算让我们可以确定每个 GPU 拥有 40 GB 内存,而新产品的图像清楚地表明这个容量分布在六个堆栈中。 还提到了整个 DGX A12,4 系统的显存带宽为 100 TB/s。

考虑到基于 1 个 Tesla V100 的 DGX-100 系统在混合精度计算中产生了 XNUMX petaflops,而 DGX AXNUMX 据称可以达到 XNUMX petaflops,我们可以假设在具体计算中,XNUMX Ampere GPU 的速度是 XNUMX petaflops 的 XNUMX 倍。它的前身是 Volta 架构。 在某些情况下,优势会变成二十倍。

NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

总的来说,DGX A8 系统在整数运算 (INT100) 中提供每秒 1016 次运算的峰值性能,在半精度浮点运算 (FP16) 中 - 5 petaflops,在双精度浮点运算 (FP64) 中 - 156 teraflops 。 此外,DGX A32 在 TF100 张量计算中实现了 2,5 petaflops 的峰值性能。 让我们回想一下,1012 teraflops 是每秒 1015 次浮点运算,XNUMX petaflops 是每秒 XNUMX 次浮点运算。

NVIDIA A100 加速器的一个重要特性是能够将一个 GPU 的资源划分为七个虚拟段。 这使您可以显着提高同一云段中的配置灵活性。 例如,一个具有 100 个物理 GPU 的 DGX A56 系统可以充当 2 个虚拟 GPU。 多实例 GPU (MIG) 技术允许您在计算核心之间选择不同大小的段作为高速缓存和 HBMXNUMX 内存的一部分,并且它们不会相互竞争带宽。

NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

值得注意的是,与之前的 DGX 系统相比,DGX A100 的解剖结构发生了一些变化。 SXM3模块的散热器中安装了带有HBM100内存的A2图形处理器,与Volta一代的Tesla V100模块相比,其散热器中的热管数量显着增加,尽管它们的末端隐藏在普通人的视野之外通过上盖。 该设计的实际限制是 400 W 的热能。 今天发布的 SXM100 版本中 A3 的官方特性也证实了这一点。

主板上的 A100 GPU 旁边是 4,8 个第三代 NVLink 接口交换机,它们共同提供 12 TB/s 速度的双向数据交换。 从带有热管的全剖面散热器来看,NVIDIA 也非常重视其冷却。 每个GPU分配有600个NVLink接口通道;相邻GPU可以以XNUMX GB/s的速度交换数据。

DGX A100 系统还配备了 6 个 Mellanox ConnectX-200 HDR 网络控制器,能够以高达 100 Gbit/s 的速度传输信息。 总的来说,DGX A3,6 以 4.0 TB/s 的速度提供双向数据传输。 该系统还使用专有的 Mellanox 技术,旨在通过此类架构有效扩展计算系统。 平台级别的 PCI Express 100 支持由 AMD EPYC Rome 一代处理器决定;因此,该接口不仅被 AXNUMX 图形加速器使用,还被具有 NVMe 协议的固态硬盘使用。

NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

除了DGX A100之外,NVIDIA还开始向其合作伙伴供应HGX A100主板,这是其他制造商将自行生产的服务器系统的组件之一。 单个 HGX A100 板可容纳四个或八个 NVIDIA A100 GPU。 此外,为了满足自身需求,NVIDIA 已经组装了 DGX SuperPOD - 一个由 140 个 DGX A100 系统组成的集群,可提供 700 petaflops 的性能,且整体尺寸相当适中。 该公司承诺为希望基于 DGX A100 构建类似计算集群的合作伙伴提供方法上的帮助。 顺便说一句,NVIDIA 构建 DGX SuperPOD 只花了不到一个月的时间,而此类任务通常需要几个月甚至几年的时间。

NVIDIA DGX A100:首次亮相的基于 Ampere 的平台提供 XNUMX petaflops 的性能

据 NVIDIA 称,DGX A100 已经开始交付,每份价格为 199 美元,该公司的合作伙伴已经在其云集群中托管这些系统,该生态系统已覆盖 000 个国家,包括越南和阿联酋。 此外,可以预见的是,采用 Ampere 架构的图形解决方案将成为 Cray 为美国能源部创建的 Perlmutter 超级计算机系统的一部分。 它将由 NVIDIA Ampere 图形处理器和采用 Zen 26 架构的 AMD EPYC Milan 一代中央处理器组成。基于 NVIDIA Ampere 的超级计算机节点将在今年下半年到达客户手中,尽管第一批副本已经到达了专门的实验室。美国部门。



来源: 3dnews.ru

添加评论