Situació: les GPU virtuals no són inferiors en rendiment a les solucions de maquinari

Al febrer, Stanford va organitzar una conferència sobre informàtica d'alt rendiment (HPC). Els representants de VMware van dir que quan es treballa amb una GPU, un sistema basat en un hipervisor ESXi modificat no és inferior en velocitat a les solucions de metall nu.

Parlem de les tecnologies que han fet possible aconseguir-ho.

Situació: les GPU virtuals no són inferiors en rendiment a les solucions de maquinari
/ foto Victorgrigas CC BY-SA

Problema de rendiment

Segons els analistes, al voltant del 70% de les càrregues de treball als centres de dades virtualitzat. Tanmateix, el 30% restant encara funciona amb metall nu sense hipervisors. Aquest 30% consisteix principalment en aplicacions d'alta càrrega, com les relacionades amb l'entrenament de xarxes neuronals i l'ús de GPU.

Els experts expliquen aquesta tendència pel fet que l'hipervisor, com a capa d'abstracció intermèdia, pot afectar el rendiment de tot el sistema. En estudis fa cinc anys pots trobar les dades sobre reduir la velocitat de treball en un 10%. Per tant, les empreses i els operadors de centres de dades no tenen pressa per transferir les càrregues de treball HPC a un entorn virtual.

Però les tecnologies de virtualització s'estan desenvolupant i millorant. En una conferència fa un mes, VMware va dir que l'hipervisor ESXi no té un impacte negatiu en el rendiment de la GPU. La velocitat de càlcul es pot reduir en un tres per cent, que és comparable al metall nu.

Com funciona això

Per millorar el rendiment dels sistemes HPC amb GPU, VMware ha fet una sèrie de canvis a l'hipervisor. En particular, es va desfer de la funció vMotion. És necessari per a l'equilibri de càrrega i normalment transfereix màquines virtuals (VM) entre servidors o GPU. La desactivació de vMotion va fer que cada màquina virtual s'assignés una GPU específica. Això va ajudar a reduir els costos en intercanviar dades.

Un altre component clau del sistema és tecnologia E/S DirectPath. Permet que el controlador de computació paral·lel CUDA interactuï directament amb màquines virtuals, evitant l'hipervisor. Quan necessiteu executar diverses màquines virtuals en una GPU alhora, s'utilitza la solució GRID vGPU. Divideix la memòria de la targeta en diversos segments (però els cicles computacionals no estan dividits).

El diagrama de funcionament de dues màquines virtuals en aquest cas tindrà aquest aspecte:

Situació: les GPU virtuals no són inferiors en rendiment a les solucions de maquinari

Resultats i previsions

empresa proves realitzades hipervisor entrenant un model lingüístic basat en TensorFlow. El "dany" de rendiment només va ser del 3-4% en comparació amb el metall nu. A canvi, el sistema va poder distribuir els recursos segons la demanda en funció de la càrrega actual.

El gegant de les TIC també proves realitzades amb contenidors. Els enginyers de la companyia van entrenar xarxes neuronals per reconèixer imatges. Al mateix temps, els recursos d'una GPU es van distribuir entre quatre màquines virtuals de contenidors. Com a resultat, el rendiment de les màquines individuals va disminuir un 17% (en comparació amb una única màquina virtual amb accés complet als recursos de la GPU). No obstant això, el nombre d'imatges processades per segon augmentat tres vegades. S'espera que aquests sistemes trobaré aplicacions en anàlisi de dades i modelització informàtica.

Entre els problemes potencials que pot enfrontar VMware, els experts assignar públic objectiu més aviat reduït. Un petit nombre d'empreses encara treballen amb sistemes d'alt rendiment. Encara que a Statista celebrarque el 2021, el 94% de les càrregues de treball del centre de dades del món es virtualitzaran. Per previsions analistes, el valor del mercat d'HPC creixerà de 32 a 45 mil milions de dòlars en el període del 2017 al 2022.

Situació: les GPU virtuals no són inferiors en rendiment a les solucions de maquinari
/ foto Punt d'accés global PD

Solucions semblants

Hi ha diversos anàlegs al mercat que són desenvolupats per grans empreses de TI: AMD i Intel.

La primera empresa de virtualització de GPU ofertes enfocament basat en SR-IOV (virtualització d'entrada/sortida d'arrel única). Aquesta tecnologia proporciona a la màquina virtual accés a part de les capacitats de maquinari del sistema. La solució permet compartir la GPU entre 16 usuaris amb el mateix rendiment dels sistemes virtualitzats.

Pel que fa al segon gegant informàtic, ells basat en la tecnologia a l'hipervisor Citrix XenServer 7. Combina el treball d'un controlador GPU estàndard i una màquina virtual, que permet a aquesta última mostrar aplicacions i escriptoris en 3D als dispositius de centenars d'usuaris.

El futur de la tecnologia

Desenvolupadors de GPU virtuals fer una aposta sobre la implementació de sistemes d'IA i la creixent popularitat de les solucions d'alt rendiment al mercat de la tecnologia empresarial. Esperen que la necessitat de processar grans quantitats de dades augmenti la demanda de vGPU.

Ara fabricants buscant una manera combina la funcionalitat de la CPU i la GPU en un nucli per accelerar la resolució de problemes relacionats amb els gràfics, la realització de càlculs matemàtics, operacions lògiques i processament de dades. L'aparició d'aquests nuclis al mercat en el futur canviarà l'enfocament de la virtualització de recursos i la seva distribució entre càrregues de treball en entorns virtuals i en núvol.

Què cal llegir sobre el tema al nostre bloc corporatiu:

Un parell de publicacions del nostre canal de Telegram:

Font: www.habr.com

Afegeix comentari