5.8 万 IOPS:为什么这么多?

你好哈布尔!大数据和机器学习的数据集呈指数级增长,我们需要跟上它们的步伐。我们关于高性能计算(HPC,高性能计算)领域另一项创新技术的文章,在金士顿展位展示 超级计算-2019。这是在具有图形处理单元 (GPU) 和 GPUDirect 存储总线技术的服务器中使用高端数据存储系统 (SDS)。由于存储系统和GPU之间直接进行数据交换,绕过CPU,将数据加载到GPU加速器中的速度提高了一个数量级,因此大数据应用程序可以以GPU提供的最大性能运行。反过来,HPC 系统开发人员对具有最高 I/O 速度的存储系统的进步感兴趣,例如金士顿生产的存储系统。

5.8 万 IOPS:为什么这么多?

GPU 性能超过数据加载

自从 CUDA(一种用于开发通用应用程序的基于 GPU 的硬件和软件并行计算架构)于 2007 年创建以来,GPU 本身的硬件能力已经取得了令人难以置信的增长。如今,GPU 越来越多地用于 HPC 应用程序,例如大数据、机器学习 (ML) 和深度学习 (DL)。

请注意,尽管术语相似,但最后两个任务在算法上是不同的。机器学习根据结构化数据训练计算机,而深度学习根据神经网络的反馈训练计算机。帮助理解差异的示例非常简单。我们假设计算机必须区分从存储系统加载的猫和狗的照片。对于机器学习,您应该提交一组带有许多标签的图像,每个标签都定义了动物的一个特定特征。对于深度学习来说,上传大量图像就足够了,但只需一个标签“这是一只猫”或“这是一只狗”。深度学习与幼儿的教育方式非常相似——简单地向他们展示书本和生活中的狗和猫的图片(大多数情况下,甚至没有解释详细的差异),然后孩子的大脑本身就开始确定动物的类型。用于比较的一定数量的图片(根据估计,我们谈论的整个幼儿期只有一百或两场演出)。深度学习算法还不是那么完美:神经网络要想成功识别图像,就必须将数百万张图像输入 GPU 并进行处理。

前言小结:基于GPU,可以构建大数据、ML和DL领域的HPC应用,但有一个问题——数据集太大,导致从存储系统加载数据到GPU所花费的时间开始降低应用程序的整体性能。换句话说,由于来自其他子系统的 I/O 数据缓慢,快速 GPU 仍未得到充分利用。 GPU 和 CPU/存储系统总线的 I/O 速度差异可能是一个数量级。

GPU直接存储技术如何工作?

I/O 过程由 CPU 控制,将数据从存储加载到 GPU 进行进一步处理的过程也是如此。这导致了对能够在 GPU 和 NVMe 驱动器之间提供直接访问以快速相互通信的技术的需求。 NVIDIA 是第一个提供此类技术的公司,并将其称为 GPUDirect Storage。事实上,这是他们之前开发的 GPUDirect RDMA(远程直接内存地址)技术的变体。

5.8 万 IOPS:为什么这么多?
NVIDIA 首席执行官黄仁勋 (Jensen Huang) 将在 SC-19 上展示 GPUDirect Storage 作为 GPUDirect RDMA 的变体。资料来源:英伟达

GPUDirect RDMA 和 GPUDirect Storage 之间的区别在于执行寻址的设备。 GPUDirect RDMA 技术被重新用于在前端网络接口卡 (NIC) 和 GPU 内存之间直接移动数据,GPUDirect 存储在本地或远程存储(例如 NVMe 或 NVMe over Fabric (NVMe-oF))和GPU内存。

GPUDirect RDMA 和 GPUDirect Storage 都避免了通过 CPU 内存中的缓冲区进行不必要的数据移动,并允许直接内存访问 (DMA) 机制将数据从网卡或存储直接移入或移出 GPU 内存 - 所有这些都不会给中央 CPU 带来负载。对于 GPUDirect Storage,存储的位置并不重要:它可以是 GPU 单元内、机架内的 NVME 磁盘,或者通过网络作为 NVMe-oF 连接。

5.8 万 IOPS:为什么这么多?
GPUDirect Storage 的操作方案。资料来源:英伟达

HPC应用市场需要基于NVMe的高端存储系统

意识到随着 GPUDirect Storage 的出现,大客户的兴趣将被吸引到提供与 GPU 吞吐量相对应的 I/O 速度的存储系统,金士顿在 SC-19 展会上展示了一个系统演示,该系统由基于 NVMe 磁盘和带有 GPU 的单元的存储系统,每秒分析数千张卫星图像。我们已经写过这样一个基于 10 个 DC1000M U.2 NVMe 驱动器的存储系统 在超级计算机展览会的报道中.

5.8 万 IOPS:为什么这么多?
基于 10 个 DC1000M U.2 NVMe 驱动器的存储系统充分补充了带有图形加速器的服务器。资料来源:金士顿

该存储系统设计为1U或更大的机架单元,可根据DC1000M U.2 NVMe驱动器的数量进行扩展,每个驱动器的容量为3.84-7.68 TB。 DC1000M 是金士顿数据中心硬盘系列中首款采用 U.2 外形尺寸的 NVMe SSD 型号。它具有耐用性评级(DWPD,驱动器每天写入次数),允许每天一次将数据重写至其全部容量,以保证驱动器的使用寿命。

在 Ubuntu 3.13 LTS 操作系统、Linux 内核 18.04.3-5.0.0-generic 上进行的 fio v31 测试中,展览存储样本显示出 5.8 万 IOPS 的读取速度(持续读取)和可持续吞吐量(持续带宽) )为 23.8 Gbit/s。

金士顿 SSD 业务经理 Ariel Perez 在谈到新存储系统时表示:“我们准备为下一代服务器配备 U.2 NVMe SSD 解决方案,以消除传统上与存储相关的许多数据传输瓶颈。 NVMe SSD 硬盘与我们的优质 Server Premier DRAM 的结合使金士顿成为业界最全面的端到端数据解决方案提供商之一。”

5.8 万 IOPS:为什么这么多?
gfio v3.13 测试显示 DC23.8M U.1000 NVMe 驱动器上的演示存储系统的吞吐量为 2 Gbps。资料来源:金士顿

使用 GPUDirect Storage 或类似技术的 HPC 应用程序的典型系统会是什么样子?这是一种机架内功能单元物理分离的架构:一个或两个单元用于 RAM,多个单元用于 GPU 和 CPU 计算节点,一个或多个单元用于存储系统。

随着 GPUDirect Storage 的发布以及其他 GPU 供应商可能出现的类似技术,金士顿对专为高性能计算而设计的存储系统的需求正在扩大。标志是从存储系统读取数据的速度,相当于带有 GPU 的计算单元入口处的 40 或 100 Gbit 网卡的吞吐量。因此,超高速存储系统(包括通过 Fabric 的外部 NVMe)将从奇特的 HPC 应用程序变为主流。除了科学和金融计算之外,它们还将在许多其他实际领域得到应用,例如平安城市城市级的安全系统或交通监控中心,这些领域需要每秒数百万张高清图像的识别和识别速度。”顶级存储系统的市场利基

有关金士顿产品的更多信息,请访问 官方网站 公司。

来源: habr.com

添加评论