5.8 miljonit IOPS: miks nii palju?

Tere Habr! Suurandmete ja masinõppe andmekogumid kasvavad plahvatuslikult ja me peame nendega sammu pidama. Meie postitus teisest uuenduslikust tehnoloogiast kõrgjõudlusega andmetöötluse valdkonnas (HPC, High Performance Computing), mis on näidatud Kingstoni boksis kl. Superarvuti – 2019. See on Hi-End andmesalvestussüsteemide (SDS) kasutamine graafiliste töötlemisüksuste (GPU) ja GPUDirect Storage siini tehnoloogiaga serverites. Tänu otsesele andmevahetusele salvestussüsteemi ja GPU vahel, protsessorist mööda minnes, kiireneb andmete laadimine GPU kiirenditesse suurusjärgu võrra, nii et suurandmete rakendused töötavad GPU-de pakutava maksimaalse jõudlusega. HPC-süsteemide arendajad on omakorda huvitatud suurimate I/O-kiirustega salvestussüsteemide edusammudest, nagu need, mida toodab Kingston.

5.8 miljonit IOPS: miks nii palju?

GPU jõudlus ületab andmete laadimise

Alates 2007. aastal loodi CUDA, GPU-l põhinev riist- ja tarkvaraline paralleelarvutusarhitektuur üldotstarbeliste rakenduste arendamiseks, on GPU-de endi riistvaralised võimalused uskumatult kasvanud. Tänapäeval kasutatakse GPU-sid üha enam HPC rakendustes, nagu suurandmed, masinõpe (ML) ja sügavõpe (DL).

Pange tähele, et hoolimata terminite sarnasusest on kaks viimast algoritmiliselt erinevad ülesanded. ML treenib arvutit struktureeritud andmete põhjal, DL aga närvivõrgu tagasiside põhjal. Näide erinevuste mõistmiseks on üsna lihtne. Oletame, et arvuti peab eristama salvestussüsteemist laetud kasside ja koerte fotosid. ML-i puhul peaksite esitama pildikomplekti paljude siltidega, millest igaüks määratleb looma ühe konkreetse tunnuse. DL-i jaoks piisab palju suurema arvu piltide üleslaadimisest, kuid ainult ühe sildiga “see on kass” või “see on koer”. DL on väga sarnane sellele, kuidas väikelapsi õpetatakse – neile lihtsalt näidatakse raamatutes ja elus pilte koertest ja kassidest (enamasti isegi üksikasjalikku erinevust selgitamata) ning lapse aju hakkab ise looma tüüpi määrama pärast seda, kui teatud kriitiline arv pilte võrdluseks ( Hinnanguliselt räägime vaid sajast-kahest saatest kogu varase lapsepõlve). DL-algoritmid pole veel nii täiuslikud: et närvivõrk saaks edukalt töötada ka piltide tuvastamisel, on vaja GPU-sse sisestada ja töödelda miljoneid pilte.

Eessõna kokkuvõte: GPU-de põhjal saab ehitada HPC rakendusi Big Data, ML ja DL valdkonnas, kuid seal on probleem - andmekogud on nii suured, et aeg kulub andmete laadimiseks salvestussüsteemist GPU-sse. hakkab rakenduse üldist jõudlust vähendama. Teisisõnu, kiired GPU-d jäävad teistest alamsüsteemidest tulevate aeglaste I/O andmete tõttu alakasutatud. GPU ja CPU/salvestussüsteemi siini I/O kiiruse erinevus võib olla suurusjärgus.

Kuidas GPUDirect Storage tehnoloogia töötab?

I/O protsessi juhib protsessor, nagu ka andmete laadimist mälust GPU-sse edasiseks töötlemiseks. See tõi kaasa taotluse tehnoloogia järele, mis võimaldaks otsest juurdepääsu GPU-de ja NVMe-draivide vahel, et kiiresti üksteisega suhelda. NVIDIA oli esimene, kes sellist tehnoloogiat pakkus ja nimetas seda GPUDirect Storageks. Tegelikult on see nende varem välja töötatud GPUDirect RDMA (Remote Direct Memory Address) tehnoloogia variatsioon.

5.8 miljonit IOPS: miks nii palju?
NVIDIA tegevjuht Jensen Huang esitleb GPUDirect Storage'i kui GPUDirect RDMA varianti SC-19-l. Allikas: NVIDIA

GPUDirect RDMA ja GPUDirect Storage erinevus seisneb seadmetes, mille vahel adresseerimine toimub. GPUDirect RDMA-tehnoloogia on ümber paigutatud andmete teisaldamiseks otse esiotsa võrguliidese kaardi (NIC) ja GPU-mälu vahel ning GPUDirect Storage pakub otsest andmeteed kohaliku või kaugsalvestuse, nagu NVMe või NVMe over Fabric (NVMe-oF) ja vahel. GPU mälu.

Nii GPUDirect RDMA kui ka GPUDirect Storage väldivad tarbetut andmeliikumist läbi CPU mälus oleva puhvri ja võimaldavad otsemälu juurdepääsu (DMA) mehhanismil andmeid võrgukaardilt või mälust otse GPU mällu või sealt GPU mällu teisaldada – seda kõike ilma keskprotsessorit koormamata. GPUDirect Storage'i puhul ei oma salvestusruumi asukoht tähtsust: see võib olla NVME-ketas GPU-seadme sees, riiuli sees või võrgu kaudu NVMe-oF-ina ühendatud.

5.8 miljonit IOPS: miks nii palju?
GPUDirect Storage tööskeem. Allikas: NVIDIA

NVMe kõrgklassi salvestussüsteemid on HPC rakenduste turul nõutud

Mõistes, et GPUDirect Storage’i tulekuga tõmbab suurklientide huvi GPU läbilaskevõimele vastava I/O-kiirusega salvestussüsteemide pakkumise vastu, näitas Kingston näitusel SC-19 süsteemi demo, mis koosneb NVMe ketastel põhinev salvestussüsteem ja GPU-ga üksus, mis analüüsis tuhandeid satelliidipilte sekundis. Oleme juba kirjutanud sellisest salvestussüsteemist, mis põhineb 10 DC1000M U.2 NVMe draivil reportaažis superarvutite näituselt.

5.8 miljonit IOPS: miks nii palju?
10 DC1000M U.2 NVMe draivil põhinev salvestussüsteem täiendab piisavalt serverit graafikakiirenditega. Allikas: Kingston

See salvestussüsteem on konstrueeritud 1U või suurema rack-üksusena ja seda saab skaleerida sõltuvalt DC1000M U.2 NVMe-draivide arvust, millest igaühe maht on 3.84–7.68 TB. DC1000M on esimene NVMe SSD mudel U.2 vormingus Kingstoni andmekeskuste draivide sarjas. Sellel on vastupidavusreiting (DWPD, Drive kirjutab päevas), mis võimaldab draivi garanteeritud eluea jooksul kord päevas andmeid täisvõimsusele ümber kirjutada.

Ubuntu 3.13 LTS operatsioonisüsteemi, Linuxi kernel 18.04.3-5.0.0-generic fio v31 testis näitas näitusesalvestuse näidis lugemiskiiruseks (Sustained Read) 5.8 miljonit IOPS-i jätkusuutliku läbilaskevõimega (Sustained Bandwidth). ) 23.8 Gbit/s.

Kingstoni SSD ärijuht Ariel Perez ütles uute salvestussüsteemide kohta: „Oleme valmis varustama järgmise põlvkonna serverid U.2 NVMe SSD lahendustega, et kõrvaldada paljud andmeedastuse kitsaskohad, mida on traditsiooniliselt salvestusega seostatud. NVMe SSD-draivide ja meie esmaklassilise serveri Premier DRAM-i kombinatsioon teeb Kingstonist ühe valdkonna kõige põhjalikuma täieliku andmelahenduse pakkuja.

5.8 miljonit IOPS: miks nii palju?
Gfio v3.13 test näitas DC23.8M U.1000 NVMe draivi demosalvestussüsteemi läbilaskevõimet 2 Gbps. Allikas: Kingston

Kuidas näeks välja tüüpiline HPC-rakenduste süsteem, mis kasutab GPUDirect Storage'i või sarnast tehnoloogiat? See on arhitektuur, mille funktsionaalsed üksused on püstises füüsiliselt eraldatud: üks või kaks ühikut RAM-i jaoks, veel mitu GPU ja CPU andmetöötlussõlmede jaoks ning üks või mitu üksust salvestussüsteemide jaoks.

GPUDirect Storage'i väljakuulutamisega ja sarnaste tehnoloogiate võimaliku esilekerkimisega teistelt GPU-müüjatelt suureneb Kingstoni nõudlus suure jõudlusega andmetöötluse jaoks mõeldud salvestussüsteemide järele. Marker on salvestussüsteemist andmete lugemise kiirus, mis on võrreldav 40- või 100 Gbit-sete võrgukaartide läbilaskevõimega GPU-ga arvutusseadme sissepääsu juures. Seega muutuvad ülikiired salvestussüsteemid, sealhulgas väline NVMe Fabricu kaudu, eksootilistest HPC rakenduste peavooluks. Lisaks teadusele ja finantsarvutustele leiavad need rakendust ka paljudes teistes praktilistes valdkondades, nagu turvasüsteemid Safe City suurlinna tasandil või transpordiseirekeskused, kus on vaja miljonite HD-piltide tuvastus- ja tuvastamiskiirust sekundis,” tõi välja ülevaate. tippsalvestussüsteemi turunišš

Lisateavet Kingstoni toodete kohta leiate aadressilt ametlikul kodulehel ettevõte.

Allikas: www.habr.com

Lisa kommentaar