情況:虛擬GPU在性能上並不遜色於Iron解決方案

二月份,史丹佛大學主辦了一場關於高效能運算(HPC)的會議。 VMware代表表示,當使用GPU時,基於修改後的ESXi管理程式的系統在速度上並不遜於裸機解決方案。

我們討論實現這一目標的技術。

情況:虛擬GPU在性能上並不遜色於Iron解決方案
/ 照片 維克托格里加斯 CC BY-SA

效能問題

據分析師稱,資料中心約 70% 的工作負載 虛擬化。然而,剩下的 30% 仍然在沒有虛擬機器管理程式的裸機上運作。這 30% 主要由高負載應用程式組成,例如與訓練神經網路和使用 GPU 相關的應用程式。

專家解釋這一趨勢的原因是,虛擬機器管理程式作為中間抽象層,可以影響整個系統的效能。五年前的研究中 你可以找到數據 大約降低 10% 的工作速度。因此,公司和資料中心營運商並不急於將 HPC 工作負載轉移到虛擬環境中。

但虛擬化技術正在發展和改進。在一個月前的會議上,VMware表示ESXi虛擬機器管理程式不會對GPU效能產生負面影響。計算速度可降低百分之三,與裸機相當。

Какэтоработает

為了提高具有 GPU 的 HPC 系統的效能,VMware 對虛擬機器管理程式進行了許多變更。特別是,它取消了 vMotion 功能。它是負載平衡所必需的,通常在伺服器或 GPU 之間傳輸虛擬機器 (VM)。停用 vMotion 會導致每個虛擬機器現在被分配一個特定的 GPU。這有助於降低交換資料時的成本。

系統的另一個關鍵組件 是技術 直接路徑 I/O。它允許 CUDA 並行計算驅動程式繞過虛擬機器管理程式直接與虛擬機器互動。當您需要同時在一個 GPU 上執行多個虛擬機器時,可以使用 GRID vGPU 解決方案。它將卡片的記憶體分為幾個段(但計算週期不劃分)。

本範例中兩台虛擬機器的運作圖如下所示:

情況:虛擬GPU在性能上並不遜色於Iron解決方案

結果和預測

公司 進行測試 虛擬機器管理程序透過訓練基於的語言模型 TensorFlow。與裸機相比,效能「損失」僅為 3-4%。作為回報,系統能夠根據當前負載按需分配資源。

IT巨頭還 進行測試 與容器。該公司的工程師訓練神經網路來識別影像。同時,17個GPU的資源分佈在XNUMX個容器VM上。結果,單一機器的效能下降了 XNUMX%(與完全存取 GPU 資源的單一 VM 相比)。然而,每秒處理的影像數量 增加 三次。預計此類系統 會發現 在數據分析和電腦建模中的應用。

在 VMware 可能面臨的潛在問題中,專家指出 分配 目標受眾相當狹窄。少數公司仍在使用高性能係統。雖然在 Statista 慶祝到 2021 年,全球 94% 的資料中心工作負載將虛擬化。經過 預測 分析師預計,從 32 年到 45 年,HPC 市場價值將從 2017 億美元成長到 2022 億美元。

情況:虛擬GPU在性能上並不遜色於Iron解決方案
/ 照片 全球存取點 PD

類似的解決方案

市場上有一些由大型 IT 公司開發的類似產品:AMD 和 Intel。

第一家GPU虛擬化公司 優惠 基於SR-IOV(單一輸入/輸出虛擬化)的方法。該技術使VM能夠存取系統的部分硬體功能。此解決方案可讓您在 16 個使用者之間共用 GPU,並具有與虛擬化系統相同的效能。

至於第二個IT巨頭,他們 基於技術 Citrix XenServer 7 虛擬機器管理程式上的它結合了標準 GPU 驅動程式和虛擬機器的工作,允許後者在數百個使用者的裝置上顯示 3D 應用程式和桌面。

科技的未來

虛擬 GPU 開發人員 打賭 關於人工智慧系統的實施以及高效能解決方案在商業技術市場中的日益普及。他們希望處理大量資料的需求會增加對 vGPU 的需求。

現在廠家 尋找方法 將CPU和GPU的功能結合在一個核心中,以加速解決與圖形、執行數學計算、邏輯運算和資料處理相關的問題。未來市場上此類核心的出現將改變資源虛擬化的方法及其在虛擬和雲端環境中工作負載之間的分配。

在我們的企業部落格中閱讀有關該主題的內容:

我們的 Telegram 頻道的幾篇文章:

來源: www.habr.com

添加評論