Situazione: le GPU virtuali non hanno prestazioni inferiori alle soluzioni hardware

Nel mese di febbraio, Stanford ha ospitato una conferenza sul calcolo ad alte prestazioni (HPC). I rappresentanti di VMware hanno affermato che quando si lavora con una GPU, un sistema basato su un hypervisor ESXi modificato non ha una velocità inferiore alle soluzioni bare metal.

Parliamo delle tecnologie che hanno permesso di raggiungere questo obiettivo.

Situazione: le GPU virtuali non hanno prestazioni inferiori alle soluzioni hardware
/ foto Victorgrigas CC BY-SA

Problema di prestazioni

Secondo gli analisti, circa il 70% dei carichi di lavoro nei data center virtualizzato. Tuttavia, il restante 30% funziona ancora su bare metal senza hypervisor. Questo 30% è costituito principalmente da applicazioni ad alto carico, come quelle relative all’addestramento delle reti neurali e all’utilizzo di GPU.

Gli esperti spiegano questa tendenza con il fatto che l’hypervisor, in quanto livello di astrazione intermedio, può influenzare le prestazioni dell’intero sistema. Negli studi cinque anni fa puoi trovare i dati sulla riduzione della velocità di lavoro del 10%. Pertanto, le aziende e gli operatori dei data center non hanno fretta di trasferire i carichi di lavoro HPC in un ambiente virtuale.

Ma le tecnologie di virtualizzazione si stanno sviluppando e migliorando. In una conferenza di un mese fa, VMware ha affermato che l'hypervisor ESXi non ha un impatto negativo sulle prestazioni della GPU. La velocità di elaborazione può essere ridotta del XNUMX%, paragonabile al bare metal.

Come funziona

Per migliorare le prestazioni dei sistemi HPC con GPU, VMware ha apportato una serie di modifiche all'hypervisor. In particolare, è stata eliminata la funzione vMotion. È necessario per il bilanciamento del carico e solitamente trasferisce macchine virtuali (VM) tra server o GPU. La disabilitazione di vMotion ha comportato l'assegnazione di una GPU specifica a ciascuna VM. Ciò ha contribuito a ridurre i costi durante lo scambio di dati.

Un altro componente chiave del sistema è la tecnologia I/O DirectPath. Consente al driver di calcolo parallelo CUDA di interagire direttamente con le macchine virtuali, bypassando l'hypervisor. Quando è necessario eseguire più VM su una GPU contemporaneamente, viene utilizzata la soluzione GRID vGPU. Divide la memoria della scheda in più segmenti (ma i cicli di calcolo non sono divisi).

Il diagramma operativo di due macchine virtuali in questo caso sarà simile al seguente:

Situazione: le GPU virtuali non hanno prestazioni inferiori alle soluzioni hardware

Risultati e previsioni

società test condotti hypervisor addestrando un modello linguistico basato su TensorFlow. Il "danno" sulle prestazioni è stato solo del 3-4% rispetto al metallo nudo. In cambio, il sistema è stato in grado di distribuire le risorse su richiesta in base al carico corrente.

Anche il gigante informatico test condotti con contenitori. Gli ingegneri dell'azienda hanno addestrato le reti neurali a riconoscere le immagini. Allo stesso tempo, le risorse di una GPU sono state distribuite tra quattro VM container. Di conseguenza, le prestazioni delle singole macchine sono diminuite del 17% (rispetto a una singola VM con pieno accesso alle risorse GPU). Tuttavia, il numero di immagini elaborate al secondo è aumentato tre volte. Si prevede che tali sistemi troverà applicazioni nell'analisi dei dati e nella modellazione computerizzata.

Tra i potenziali problemi che VMware potrebbe dover affrontare, gli esperti isolato target di riferimento piuttosto ristretto. Un piccolo numero di aziende lavora ancora con sistemi ad alte prestazioni. Anche se in Statista contrassegnoche entro il 2021, il 94% dei carichi di lavoro dei data center mondiali sarà virtualizzato. Di previsioni analisti, il valore del mercato HPC crescerà da 32 a 45 miliardi di dollari nel periodo dal 2017 al 2022.

Situazione: le GPU virtuali non hanno prestazioni inferiori alle soluzioni hardware
/ foto Punto di accesso globale PD

Soluzioni simili

Esistono diversi analoghi sul mercato sviluppati da grandi aziende IT: AMD e Intel.

La prima azienda per la virtualizzazione della GPU offre approccio basato su SR-IOV (virtualizzazione input/output single-root). Questa tecnologia fornisce alla VM l'accesso a parte delle funzionalità hardware del sistema. La soluzione consente di condividere la GPU tra 16 utenti con le stesse prestazioni dei sistemi virtualizzati.

Per quanto riguarda il secondo gigante informatico, loro basato sulla tecnologia sull'hypervisor Citrix XenServer 7. Combina il lavoro di un driver GPU standard e di una macchina virtuale, che consente a quest'ultima di visualizzare applicazioni e desktop 3D sui dispositivi di centinaia di utenti.

Futuro della tecnologia

Sviluppatori di GPU virtuali fare una scommessa sull’implementazione dei sistemi di intelligenza artificiale e sulla crescente popolarità di soluzioni ad alte prestazioni nel mercato della tecnologia aziendale. Sperano che la necessità di elaborare grandi quantità di dati aumenti la domanda di vGPU.

Ora i produttori cercando un modo combina le funzionalità di CPU e GPU in un unico core per accelerare la risoluzione dei problemi relativi alla grafica, l'esecuzione di calcoli matematici, operazioni logiche ed elaborazione dei dati. La futura comparsa di tali core sul mercato cambierà l’approccio alla virtualizzazione delle risorse e alla loro distribuzione tra carichi di lavoro in ambienti virtuali e cloud.

Cosa leggere sull’argomento nel nostro blog aziendale:

Un paio di post dal nostro canale Telegram:

Fonte: habr.com

Aggiungi un commento