Sitwasyon: ang mga virtual na GPU ay hindi mababa sa pagganap sa mga solusyon sa hardware

Noong Pebrero, nag-host si Stanford ng kumperensya sa high-performance computing (HPC). Sinabi ng mga kinatawan ng VMware na kapag nagtatrabaho sa isang GPU, ang isang sistemang batay sa isang binagong ESXi hypervisor ay hindi mababa sa bilis sa mga solusyong metal.

Pinag-uusapan natin ang mga teknolohiyang naging posible upang makamit ito.

Sitwasyon: ang mga virtual na GPU ay hindi mababa sa pagganap sa mga solusyon sa hardware
/ larawan Victorgrigas CC BY-SA

Isyu sa pagganap

Ayon sa mga analyst, humigit-kumulang 70% ng mga workload sa mga data center virtualized. Gayunpaman, ang natitirang 30% ay tumatakbo pa rin sa hubad na metal na walang hypervisors. Ang 30% na ito ay kadalasang binubuo ng mga high-load na application, gaya ng mga nauugnay sa pagsasanay sa mga neural network, at paggamit ng mga GPU.

Ipinaliwanag ng mga eksperto ang trend na ito sa pamamagitan ng katotohanan na ang hypervisor, bilang isang intermediate abstraction layer, ay maaaring makaapekto sa pagganap ng buong system. Sa pag-aaral limang taon na ang nakakaraan mahahanap mo ang data tungkol sa pagbabawas ng bilis ng trabaho ng 10%. Samakatuwid, ang mga kumpanya at operator ng data center ay hindi nagmamadaling ilipat ang mga workload ng HPC sa isang virtual na kapaligiran.

Ngunit ang mga teknolohiya ng virtualization ay umuunlad at bumubuti. Sa isang kumperensya noong isang buwan, sinabi ng VMware na ang ESXi hypervisor ay walang negatibong epekto sa pagganap ng GPU. Ang bilis ng pag-compute ay maaaring bawasan ng tatlong porsyento, na maihahambing sa hubad na metal.

Как это Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚

Upang mapabuti ang pagganap ng mga HPC system na may mga GPU, gumawa ang VMware ng ilang pagbabago sa hypervisor. Sa partikular, inalis nito ang vMotion function. Kailangan ito para sa load balancing at kadalasang naglilipat ng mga virtual machine (VM) sa pagitan ng mga server o GPU. Ang hindi pagpapagana sa vMotion ay nagresulta sa bawat VM na natatalaga na ngayon ng isang partikular na GPU. Nakatulong ito na mabawasan ang mga gastos kapag nagpapalitan ng data.

Isa pang pangunahing bahagi ng system ay teknolohiya DirectPath I/O. Pinapayagan nito ang CUDA parallel computing driver na direktang makipag-ugnayan sa mga virtual machine, na lampasan ang hypervisor. Kapag kailangan mong magpatakbo ng ilang VM sa isang GPU nang sabay-sabay, ginagamit ang GRID vGPU na solusyon. Hinahati nito ang memorya ng card sa ilang mga segment (ngunit ang mga computational cycle ay hindi nahahati).

Ang diagram ng pagpapatakbo ng dalawang virtual machine sa kasong ito ay magiging ganito:

Sitwasyon: ang mga virtual na GPU ay hindi mababa sa pagganap sa mga solusyon sa hardware

Mga resulta at hula

kompanya nagsagawa ng mga pagsusulit hypervisor sa pamamagitan ng pagsasanay ng isang modelo ng wika batay sa TensorFlow. Ang "pinsala" ng pagganap ay 3-4% lamang kumpara sa bare metal. Bilang kapalit, naipamahagi ng system ang mga mapagkukunan on demand depende sa kasalukuyang load.

Ang higanteng IT din nagsagawa ng mga pagsusulit may mga lalagyan. Ang mga inhinyero ng kumpanya ay nagsanay ng mga neural network upang makilala ang mga imahe. Kasabay nito, ang mga mapagkukunan ng isang GPU ay ipinamahagi sa apat na container VM. Bilang resulta, bumaba ng 17% ang performance ng mga indibidwal na machine (kumpara sa isang VM na may ganap na access sa mga mapagkukunan ng GPU). Gayunpaman, ang bilang ng mga imahe na naproseso bawat segundo nadagdagan tatlong beses. Inaasahan na ang mga ganitong sistema hahanapin mga aplikasyon sa pagsusuri ng data at pagmomodelo ng computer.

Kabilang sa mga potensyal na problema na maaaring harapin ng VMware, ang mga eksperto maglaan medyo makitid na target audience. Ang isang maliit na bilang ng mga kumpanya ay nagtatrabaho pa rin sa mga system na may mataas na pagganap. Bagama't sa Statista magdiwangna pagsapit ng 2021, 94% ng mga workload ng data center sa mundo ay magiging virtualize. Sa pamamagitan ng mga pagtataya analyst, ang halaga ng merkado ng HPC ay lalago mula 32 hanggang 45 bilyong dolyar sa panahon mula 2017 hanggang 2022.

Sitwasyon: ang mga virtual na GPU ay hindi mababa sa pagganap sa mga solusyon sa hardware
/ larawan Global Access Point PD

Mga katulad na solusyon

Mayroong ilang mga analogue sa merkado na binuo ng malalaking kumpanya ng IT: AMD at Intel.

Ang unang kumpanya para sa GPU virtualization Nag-aalok ang diskarte batay sa SR-IOV (single-root input/output virtualization). Ang teknolohiyang ito ay nagbibigay sa VM ng access sa bahagi ng mga kakayahan ng hardware ng system. Binibigyang-daan ka ng solusyon na ibahagi ang GPU sa pagitan ng 16 na user na may pantay na pagganap ng mga virtualized system.

Para naman sa pangalawang IT giant, sila batay sa teknolohiya sa hypervisor ng Citrix XenServer 7. Pinagsasama nito ang gawain ng isang karaniwang GPU driver at isang virtual machine, na nagpapahintulot sa huli na magpakita ng mga 3D na application at desktop sa mga device ng daan-daang user.

Kinabukasan ng teknolohiya

Mga Virtual GPU Developer pumusta sa pagpapatupad ng mga sistema ng AI at ang lumalagong katanyagan ng mga solusyon na may mataas na pagganap sa merkado ng teknolohiya ng negosyo. Inaasahan nila na ang pangangailangang magproseso ng malalaking halaga ng data ay magpapataas ng pangangailangan para sa mga vGPU.

Ngayon mga tagagawa naghahanap ng paraan pagsamahin ang functionality ng CPU at GPU sa isang core para mapabilis ang paglutas ng mga problemang nauugnay sa graphics, pagsasagawa ng mga kalkulasyon sa matematika, lohikal na operasyon, at pagproseso ng data. Ang hitsura ng naturang mga core sa merkado sa hinaharap ay magbabago sa diskarte sa resource virtualization at ang kanilang pamamahagi sa pagitan ng mga workload sa virtual at cloud na kapaligiran.

Ano ang dapat basahin sa paksa sa aming corporate blog:

Ang ilang mga post mula sa aming Telegram channel:

Pinagmulan: www.habr.com

Magdagdag ng komento