情況:虛擬GPU在性能上並不遜色於Iron解決方案

今年二月,史丹佛大學主辦了一場高效能運算(HPC)會議。 VMware 代表表示,在使用 GPU 時,基於修改後的 ESXi 虛擬機器管理程式的系統的速度並不遜於裸機解決方案。

我們將向您介紹實現這一目標的技術。

情況:虛擬GPU在性能上並不遜色於Iron解決方案
/ 照片 維克托格里加斯 CC BY-SA

效能問題

分析師估計,資料中心約 70% 的工作負載 虛擬化。然而,剩下的 30% 仍然在沒有虛擬機器管理程式的裸機上運作。這 30% 主要由使用 GPU 的高負載應用程式組成,例如神經網路訓練。

專家透過以下事實來解釋這個趨勢:虛擬機器管理程式作為中間抽象層,可以影響整個系統的效能。在五年前進行的研究中 你可以找到數據 大約降低10%的運轉速度。這就是為什麼公司和資料中心營運商並不急於將 HPC 工作負載轉移到虛擬環境。

但虛擬化技術正在發展和改進。在一個月前的會議上,VMware 報告 ESXi 虛擬機器管理程式不會對 GPU 效能產生負面影響。計算速度可下降百分之三,與裸機相當。

Какэтоработает

為了提高具有 GPU 的 HPC 系統的效能,VMware 對虛擬機器管理程式進行了許多變更。特別是,它擺脫了 vMotion 功能。它用於負載平衡,通常在伺服器或 GPU 之間遷移虛擬機器 (VM)。停用 vMotion 意味著現在為每個 VM 分配一個特定的 GPU。這有助於降低資料交換的成本。

系統的另一個關鍵組件 是一項技術 直接路徑 I/O。它允許 CUDA 並行計算驅動程式繞過虛擬機器管理程式直接與虛擬機器互動。當需要在單一 GPU 上執行多個 VM 時,請使用 GRID vGPU 解決方案。它將卡片的記憶體分成幾個段(但是計算週期沒有劃分)。

這種情況下兩台虛擬機器的運作方案將如下所示:

情況:虛擬GPU在性能上並不遜色於Iron解決方案

結果與預測

公司 進行測試 虛擬機器管理程序,已經訓練了基於 TensorFlow。與裸機相比,性能「損失」僅為3-4%。作為回報,系統獲得了根據當前負載按需分配資源的能力。

這家 IT 巨頭還 進行測試 使用容器。該公司的工程師訓練神經網路來識別影像。在這種情況下,一個圖形處理器的資源分佈在四個容器虛擬機器之間。結果,單一機器的效能下降了 17%(與可以完全存取 GPU 資源的單一虛擬機器相比)。然而,每秒處理的影像數量 增加 三次。預計此類系統 會發現 數據分析和電腦建模領域的應用。

專家表示,VMware 可能面臨的潛在問題包括 分配 目標受眾相當狹窄。目前只有少數公司正在使用高性能係統。儘管在 Statista 慶祝,到 2021 年,全球 94% 的資料中心工作負載將實現虛擬化。經過 預測 分析師估計,32年至45年間,HPC市值將從2017億美元成長至2022億美元。

情況:虛擬GPU在性能上並不遜色於Iron解決方案
/ 照片 全球存取點 PD

類似的解決方案

市場上有幾種類似產品,由大型 IT 公司 AMD 和英特爾開發。

第一家虛擬化 GPU 的公司 優惠 基於SR-IOV(單一輸入/輸出虛擬化)的方法。這項技術使虛擬機器能夠存取系統的部分硬體功能。該解決方案允許 16 個使用者共享一個圖形處理器,並具有與虛擬化系統相同的效能。

至於第二家 IT 巨頭,他們的 該技術基於 在 Citrix XenServer 7 虛擬機器管理程式上。它結合了標準 GPU 驅動程式和虛擬機器的工作,使後者能夠在數百個使用者的裝置上顯示 3D 應用程式和桌面。

科技的未來

虛擬 GPU 開發人員 打賭 關於人工智慧系統的實施以及高效能解決方案在商業技術市場中日益普及。他們希望處理大量資料的需求將增加對 vGPU 的需求。

現在製片人 尋找方法 將CPU和GPU的功能結合在一個核心中,以加快解決與圖形相關的問題、執行數學計算、邏輯運算和資料處理。未來此類核心在市場上的出現將改變資源虛擬化的方法及其在虛擬和雲端環境中的工作負載之間的分配。

在我們的公司部落格中可以閱讀有關此主題的內容:

以下是我們 Telegram 頻道中的幾篇文章:

來源: www.habr.com