Situatie: virtuele GPU's doen qua prestaties niet onder voor hardwareoplossingen

In februari organiseerde Stanford een conferentie over high-performance computing (HPC). Vertegenwoordigers van VMware zeiden dat bij het werken met een GPU een systeem gebaseerd op een aangepaste ESXi-hypervisor qua snelheid niet onderdoet voor bare metal-oplossingen.

We praten over de technologieën die het mogelijk hebben gemaakt om dit te bereiken.

Situatie: virtuele GPU's doen qua prestaties niet onder voor hardwareoplossingen
/ foto Victor Griga's CC BY-SA

Prestatie probleem

Volgens analisten ligt ongeveer 70% van de werkdruk in datacenters gevirtualiseerd. De overige 30% draait echter nog steeds op bare metal zonder hypervisors. Deze 30% bestaat voornamelijk uit toepassingen met een hoge belasting, zoals toepassingen die betrekking hebben op het trainen van neurale netwerken en het gebruik van GPU's.

Experts verklaren deze trend door het feit dat de hypervisor, als tussenliggende abstractielaag, de prestaties van het hele systeem kan beïnvloeden. Uit onderzoeken van vijf jaar geleden je kunt de gegevens vinden over het verminderen van de werksnelheid met 10%. Daarom hebben bedrijven en datacenterexploitanten geen haast om HPC-workloads over te brengen naar een virtuele omgeving.

Maar virtualisatietechnologieën ontwikkelen en verbeteren. Op een conferentie een maand geleden zei VMware dat de ESXi-hypervisor geen negatieve invloed heeft op de GPU-prestaties. De rekensnelheid kan met drie procent worden verlaagd, wat vergelijkbaar is met bare metal.

Hoe werkt dit

Om de prestaties van HPC-systemen met GPU's te verbeteren, heeft VMware een aantal wijzigingen aan de hypervisor doorgevoerd. In het bijzonder werd de vMotion-functie verwijderd. Het is nodig voor taakverdeling en draagt ​​doorgaans virtuele machines (VM's) over tussen servers of GPU's. Het uitschakelen van vMotion resulteerde erin dat elke VM nu een specifieke GPU kreeg toegewezen. Dit hielp de kosten bij het uitwisselen van gegevens te verlagen.

Een ander belangrijk onderdeel van het systeem is technologie DirectPath I/O. Hiermee kan het CUDA parallelle computerstuurprogramma rechtstreeks communiceren met virtuele machines, waarbij de hypervisor wordt omzeild. Wanneer u meerdere VM’s tegelijk op één GPU moet draaien, wordt de GRID vGPU-oplossing gebruikt. Het verdeelt het geheugen van de kaart in verschillende segmenten (maar de rekencycli zijn niet verdeeld).

Het werkingsdiagram van twee virtuele machines ziet er in dit geval als volgt uit:

Situatie: virtuele GPU's doen qua prestaties niet onder voor hardwareoplossingen

Resultaten en prognoses

vennootschap uitgevoerde testen hypervisor door een taalmodel te trainen op basis van TensorFlow. De prestatieschade bedroeg slechts 3-4% vergeleken met blank metaal. In ruil daarvoor kon het systeem bronnen op aanvraag distribueren, afhankelijk van de huidige belasting.

De IT-gigant ook uitgevoerde testen met containers. De ingenieurs van het bedrijf hebben neurale netwerken getraind om beelden te herkennen. Tegelijkertijd werden de bronnen van één GPU verdeeld over vier container-VM's. Als gevolg hiervan daalden de prestaties van individuele machines met 17% (vergeleken met een enkele VM met volledige toegang tot GPU-bronnen). Wel het aantal beelden dat per seconde wordt verwerkt is gestegen drie keer. Er wordt verwacht dat dergelijke systemen zal vinden toepassingen in data-analyse en computermodellering.

Onder de potentiële problemen waarmee VMware te maken kan krijgen, zijn experts toewijzen vrij beperkte doelgroep. Een klein aantal bedrijven werkt nog met krachtige systemen. Hoewel in Statista markdat in 2021 94% van de datacenterwerklasten ter wereld gevirtualiseerd zal zijn. Door voorspellingen Analisten zullen de waarde van de HPC-markt in de periode 32-45 groeien van 2017 naar 2022 miljard dollar.

Situatie: virtuele GPU's doen qua prestaties niet onder voor hardwareoplossingen
/ foto Globaal toegangspunt PD

Soortgelijke oplossingen

Er zijn verschillende analogen op de markt die zijn ontwikkeld door grote IT-bedrijven: AMD en Intel.

Het eerste bedrijf voor GPU-virtualisatie biedt aanpak gebaseerd op SR-IOV (single-root input/output virtualisatie). Deze technologie geeft de VM toegang tot een deel van de hardwaremogelijkheden van het systeem. Met de oplossing kunt u de GPU delen tussen 16 gebruikers met dezelfde prestaties als gevirtualiseerde systemen.

Wat de tweede IT-gigant betreft, zij technologie gebaseerd op de hypervisor Citrix XenServer 7. Het combineert het werk van een standaard GPU-stuurprogramma en een virtuele machine, waardoor deze laatste 3D-applicaties en desktops kan weergeven op de apparaten van honderden gebruikers.

Toekomst van technologie

Virtuele GPU-ontwikkelaars wedden over de implementatie van AI-systemen en de groeiende populariteit van hoogwaardige oplossingen op de markt voor bedrijfstechnologie. Ze hopen dat de noodzaak om grote hoeveelheden gegevens te verwerken de vraag naar vGPU's zal vergroten.

Nu fabrikanten op zoek naar een manier combineer de functionaliteit van de CPU en GPU in één kern om het oplossen van problemen met betrekking tot grafische afbeeldingen, het uitvoeren van wiskundige berekeningen, logische bewerkingen en gegevensverwerking te versnellen. Het verschijnen van dergelijke kernen in de toekomst op de markt zal de benadering van resourcevirtualisatie en de verdeling ervan tussen werklasten in virtuele en cloudomgevingen veranderen.

Wat u over dit onderwerp kunt lezen in onze bedrijfsblog:

Een paar berichten van ons Telegram-kanaal:

Bron: www.habr.com

Voeg een reactie