情况:虚拟GPU在性能上并不逊色于硬件解决方案

二月份,斯坦福大学主办了一场关于高性能计算(HPC)的会议。 VMware代表表示,当使用GPU时,基于修改后的ESXi虚拟机管理程序的系统在速度上并不逊色于裸机解决方案。

我们讨论实现这一目标的技术。

情况:虚拟GPU在性能上并不逊色于硬件解决方案
/ 照片 维克托格里加斯 创用CC BY-SA

性能问题

据分析师称,数据中心约 70% 的工作负载 虚拟化。 然而,剩下的 30% 仍然在没有虚拟机管理程序的裸机上运行。 这 30% 主要由高负载应用程序组成,例如与训练神经网络和使用 GPU 相关的应用程序。

专家解释这一趋势的原因是,虚拟机管理程序作为中间抽象层,可以影响整个系统的性能。 五年前的研究中 你可以找到数据 大约降低 10% 的工作速度。 因此,公司和数据中心运营商并不急于将 HPC 工作负载转移到虚拟环境中。

但虚拟化技术正在发展和改进。 在一个月前的一次会议上,VMware表示ESXi虚拟机管理程序不会对GPU性能产生负面影响。 计算速度可降低百分之三,与裸机相当。

怎么开动这个

为了提高具有 GPU 的 HPC 系统的性能,VMware 对虚拟机管理程序进行了许多更改。 特别是,它取消了 vMotion 功能。 它是负载平衡所必需的,通常在服务器或 GPU 之间传输虚拟机 (VM)。 禁用 vMotion 会导致每个虚拟机现在被分配一个特定的 GPU。 这有助于降低交换数据时的成本。

系统的另一个关键组件 是技术 直接路径 I/O。 它允许 CUDA 并行计算驱动程序绕过虚拟机管理程序直接与虚拟机交互。 当您需要同时在一个 GPU 上运行多个虚拟机时,可以使用 GRID vGPU 解决方案。 它将卡的内存分为几个段(但计算周期不划分)。

本例中两台虚拟机的运行图如下所示:

情况:虚拟GPU在性能上并不逊色于硬件解决方案

结果和预测

公司 进行测试 虚拟机管理程序通过训练基于的语言模型 TensorFlow。 与裸机相比,性能“损失”仅为 3-4%。 作为回报,系统能够根据当前负载按需分配资源。

IT巨头还 进行测试 与容器。 该公司的工程师训练神经网络来识别图像。 同时,17个GPU的资源分布在XNUMX个容器VM上。 结果,单个机器的性能下降了 XNUMX%(与完全访问 GPU 资源的单个 VM 相比)。 然而,每秒处理的图像数量 增加了 三次。 预计此类系统 会找到的 在数据分析和计算机建模中的应用。

在 VMware 可能面临的潜在问题中,专家指出 孤立 目标受众相当狭窄。 少数公司仍在使用高性能系统。 虽然在 Statista 标记到 2021 年,全球 94% 的数据中心工作负载将实现虚拟化。 经过 预测 分析师预计,从 32 年到 45 年,HPC 市场价值将从 2017 亿美元增长到 2022 亿美元。

情况:虚拟GPU在性能上并不逊色于硬件解决方案
/ 照片 全球接入点 PD

类似的解决方案

市场上有一些由大型 IT 公司开发的类似产品:AMD 和 Intel。

第一家GPU虚拟化公司 报价 基于SR-IOV(单根输入/输出虚拟化)的方法。 该技术使VM能够访问系统的部分硬件功能。 该解决方案允许您在 16 个用户之间共享 GPU,并具有与虚拟化系统相同的性能。

至于第二个IT巨头,他们 基于技术 Citrix XenServer 7 管理程序上的它结合了标准 GPU 驱动程序和虚拟机的工作,允许后者在数百个用户的设备上显示 3D 应用程序和桌面。

科技的未来

虚拟 GPU 开发人员 下注 关于人工智能系统的实施以及高性能解决方案在商业技术市场中的日益普及。 他们希望处理大量数据的需求会增加对 vGPU 的需求。

现在厂家 寻找方法 将CPU和GPU的功能结合在一个核心中,以加速解决与图形、执行数学计算、逻辑运算和数据处理相关的问题。 未来市场上此类核心的出现将改变资源虚拟化的方法及其在虚拟和云环境中工作负载之间的分配。

在我们的企业博客中阅读有关该主题的内容:

我们的 Telegram 频道的几篇帖子:

来源: habr.com

添加评论