Situație: GPU-urile virtuale nu sunt inferioare ca performanță față de soluțiile hardware

În februarie, Stanford a găzduit o conferință despre calculul de înaltă performanță (HPC). Reprezentanții VMware au spus că atunci când se lucrează cu un GPU, un sistem bazat pe un hypervisor ESXi modificat nu este inferior ca viteză față de soluțiile bare metal.

Vorbim despre tehnologiile care au făcut posibilă realizarea acestui lucru.

Situație: GPU-urile virtuale nu sunt inferioare ca performanță față de soluțiile hardware
/ fotografie Victorgrigas CC BY-SA

Problemă de performanță

Potrivit analiștilor, aproximativ 70% din sarcinile de lucru din centrele de date virtualizate. Cu toate acestea, restul de 30% funcționează în continuare pe metal fără hipervizoare. Aceste 30% constă în mare parte din aplicații cu încărcare mare, cum ar fi cele legate de antrenarea rețelelor neuronale și utilizarea GPU-urilor.

Experții explică această tendință prin faptul că hipervizorul, ca strat intermediar de abstractizare, poate afecta performanța întregului sistem. În studii în urmă cu cinci ani puteti gasi datele despre reducerea vitezei de lucru cu 10%. Prin urmare, companiile și operatorii de centre de date nu se grăbesc să transfere sarcinile de lucru HPC într-un mediu virtual.

Dar tehnologiile de virtualizare se dezvoltă și se îmbunătățesc. La o conferință în urmă cu o lună, VMware a spus că hipervizorul ESXi nu are un impact negativ asupra performanței GPU-ului. Viteza de calcul poate fi redusă cu trei procente, ceea ce este comparabil cu metalul gol.

Cum funcționează

Pentru a îmbunătăți performanța sistemelor HPC cu GPU, VMware a făcut o serie de modificări la hypervisor. În special, a scăpat de funcția vMotion. Este necesar pentru echilibrarea încărcăturii și, de obicei, transferă mașini virtuale (VM) între servere sau GPU. Dezactivarea vMotion a dus la fiecare VM să i se atribuie acum un anumit GPU. Acest lucru a ajutat la reducerea costurilor la schimbul de date.

O altă componentă cheie a sistemului este tehnologia I/O DirectPath. Acesta permite driverului de calcul paralel CUDA să interacționeze direct cu mașinile virtuale, ocolind hipervizorul. Când trebuie să rulați mai multe mașini virtuale pe un singur GPU simultan, este utilizată soluția GRID vGPU. Împarte memoria cardului în mai multe segmente (dar ciclurile de calcul nu sunt împărțite).

Diagrama de funcționare a două mașini virtuale în acest caz va arăta astfel:

Situație: GPU-urile virtuale nu sunt inferioare ca performanță față de soluțiile hardware

Rezultate și prognoze

companie teste efectuate hypervisor prin antrenarea unui model de limbaj bazat pe TensorFlow. „Daunele” de performanță a fost de doar 3-4% în comparație cu metalul gol. În schimb, sistemul a putut să distribuie resursele la cerere, în funcție de sarcina curentă.

De asemenea, gigantul IT teste efectuate cu containere. Inginerii companiei au instruit rețelele neuronale pentru a recunoaște imaginile. În același timp, resursele unui GPU au fost distribuite între patru VM-uri container. Ca urmare, performanța mașinilor individuale a scăzut cu 17% (comparativ cu o singură VM cu acces complet la resursele GPU). Cu toate acestea, numărul de imagini procesate pe secundă a crescut de trei ori. Este de așteptat ca astfel de sisteme vor găsi aplicatii in analiza datelor si modelare pe calculator.

Printre problemele potențiale cu care se poate confrunta VMware, experții aloca public țintă destul de restrâns. Un număr mic de companii încă lucrează cu sisteme de înaltă performanță. Deși în Statista marcacă până în 2021, 94% din sarcinile de lucru ale centrelor de date din lume vor fi virtualizate. De previziuni analiştilor, valoarea pieţei HPC va creşte de la 32 la 45 de miliarde de dolari în perioada 2017-2022.

Situație: GPU-urile virtuale nu sunt inferioare ca performanță față de soluțiile hardware
/ fotografie Punct de acces global PD

Soluții similare

Există mai mulți analogi pe piață care sunt dezvoltați de mari companii IT: AMD și Intel.

Prima companie de virtualizare GPU ofertele abordare bazată pe SR-IOV (virtualizare intrare/ieșire cu rădăcină unică). Această tehnologie oferă VM acces la o parte din capabilitățile hardware ale sistemului. Soluția vă permite să partajați GPU-ul între 16 utilizatori cu performanțe egale ale sistemelor virtualizate.

Cât despre al doilea gigant IT, ei bazat pe tehnologie pe hypervisorul Citrix XenServer 7. Combină munca unui driver GPU standard și a unei mașini virtuale, ceea ce îi permite acesteia din urmă să afișeze aplicații și desktop-uri 3D pe dispozitivele a sute de utilizatori.

Viitorul tehnologiei

Dezvoltatori GPU virtuali fa un pariu privind implementarea sistemelor AI și popularitatea tot mai mare a soluțiilor de înaltă performanță pe piața tehnologiei de afaceri. Ei speră că nevoia de a procesa cantități mari de date va crește cererea de vGPU.

Acum producătorii căutând o cale combină funcționalitatea CPU și GPU într-un singur nucleu pentru a accelera rezolvarea problemelor legate de grafică, efectuarea de calcule matematice, operații logice și procesarea datelor. Apariția unor astfel de nuclee pe piață în viitor va schimba abordarea asupra virtualizării resurselor și distribuția acestora între sarcinile de lucru din mediile virtuale și cloud.

Ce să citiți despre acest subiect pe blogul nostru corporativ:

Câteva postări de pe canalul nostru Telegram:

Sursa: www.habr.com

Adauga un comentariu