5.8 miliwn IOPS: pam cymaint?

Helo Habr! Mae setiau data ar gyfer Data Mawr a dysgu peirianyddol yn tyfu'n gynt ac mae angen inni gadw i fyny â nhw. Ein post am dechnoleg arloesol arall ym maes cyfrifiadura perfformiad uchel (HPC, Cyfrifiadura Perfformiad Uchel), a ddangosir yn y bwth Kingston yn Uwchgyfrifiadura-2019. Dyma'r defnydd o systemau storio data Hi-End (SDS) mewn gweinyddwyr ag unedau prosesu graffeg (GPU) a thechnoleg bws GPUDirect Storage. Diolch i gyfnewid data uniongyrchol rhwng y system storio a'r GPU, gan osgoi'r CPU, mae llwytho data i gyflymwyr GPU yn cael ei gyflymu gan orchymyn maint, felly mae cymwysiadau Data Mawr yn rhedeg ar y perfformiad uchaf y mae GPUs yn ei ddarparu. Yn eu tro, mae gan ddatblygwyr systemau HPC ddiddordeb mewn datblygiadau mewn systemau storio gyda'r cyflymderau I/O uchaf, fel y rhai a gynhyrchir gan Kingston.

5.8 miliwn IOPS: pam cymaint?

Mae perfformiad GPU yn well na llwytho data

Ers i CUDA, pensaernïaeth gyfrifiadurol gyfochrog caledwedd a meddalwedd GPU ar gyfer datblygu cymwysiadau pwrpas cyffredinol, gael ei chreu yn 2007, mae galluoedd caledwedd GPUs eu hunain wedi tyfu'n anhygoel. Heddiw, mae GPUs yn cael eu defnyddio fwyfwy mewn cymwysiadau HPC fel Data Mawr, dysgu peiriant (ML), a dysgu dwfn (DL).

Sylwch, er gwaethaf tebygrwydd termau, bod y ddau olaf yn dasgau algorithmig wahanol. Mae ML yn hyfforddi'r cyfrifiadur yn seiliedig ar ddata strwythuredig, tra bod DL yn hyfforddi'r cyfrifiadur yn seiliedig ar adborth o rwydwaith niwral. Mae enghraifft i helpu i ddeall y gwahaniaethau yn eithaf syml. Gadewch i ni dybio bod yn rhaid i'r cyfrifiadur wahaniaethu rhwng lluniau o gathod a chŵn sy'n cael eu llwytho o'r system storio. Ar gyfer ML, dylech gyflwyno set o ddelweddau gyda llawer o dagiau, pob un ohonynt yn diffinio un nodwedd benodol o'r anifail. Ar gyfer DL, mae’n ddigon uwchlwytho nifer llawer mwy o ddelweddau, ond gydag un tag yn unig “dyma gath” neu “ci yw hwn”. Mae DL yn debyg iawn i sut mae plant ifanc yn cael eu haddysgu - yn syml, dangosir lluniau cŵn a chathod mewn llyfrau ac mewn bywyd iddynt (yn fwyaf aml, heb hyd yn oed esbonio'r gwahaniaeth manwl), ac mae ymennydd y plentyn ei hun yn dechrau pennu'r math o anifail ar ôl nifer hollbwysig o luniau i'w cymharu ( Yn ôl amcangyfrifon, dim ond cant neu ddau o sioeau yr ydym yn sôn amdanynt trwy gydol plentyndod cynnar). Nid yw algorithmau DL mor berffaith eto: er mwyn i rwydwaith niwral weithio'n llwyddiannus ar adnabod delweddau, mae angen bwydo a phrosesu miliynau o ddelweddau i'r GPU.

Crynodeb o'r rhagair: yn seiliedig ar GPUs, gallwch adeiladu cymwysiadau HPC ym maes Data Mawr, ML a DL, ond mae problem - mae'r setiau data mor fawr fel bod yr amser a dreulir yn llwytho data o'r system storio i'r GPU yn dechrau lleihau perfformiad cyffredinol y cais. Mewn geiriau eraill, mae GPUs cyflym yn parhau i gael eu tanddefnyddio oherwydd data I / O araf yn dod o is-systemau eraill. Gall y gwahaniaeth yng nghyflymder I/O y GPU a'r bws i'r CPU/system storio fod yn drefn maint.

Sut mae technoleg GPUDirect Storage yn gweithio?

Mae'r broses I/O yn cael ei rheoli gan y CPU, yn ogystal â'r broses o lwytho data o'r storfa i'r GPUs i'w prosesu ymhellach. Arweiniodd hyn at gais am dechnoleg a fyddai'n darparu mynediad uniongyrchol rhwng GPUs a gyriannau NVMe i gyfathrebu'n gyflym â'i gilydd. NVIDIA oedd y cyntaf i gynnig technoleg o'r fath a'i alw'n GPUDirect Storage. Mewn gwirionedd, mae hwn yn amrywiad o'r dechnoleg GPUDirect RDMA (Cyfeiriad Cof Uniongyrchol o Bell) a ddatblygwyd ganddynt yn flaenorol.

5.8 miliwn IOPS: pam cymaint?
Bydd Jensen Huang, Prif Swyddog Gweithredol NVIDIA, yn cyflwyno GPUDirect Storage fel amrywiad o GPUDirect RDMA yn SC-19. Ffynhonnell: NVIDIA

Mae'r gwahaniaeth rhwng GPUDirect RDMA a GPUDirect Storage yn y dyfeisiau y mae cyfeiriadau yn cael eu cynnal rhyngddynt. Mae technoleg GPUDirect RDMA yn cael ei hailddefnyddio i symud data yn uniongyrchol rhwng y cerdyn rhyngwyneb rhwydwaith pen blaen (NIC) a chof GPU, ac mae GPUDirect Storage yn darparu llwybr data uniongyrchol rhwng storfa leol neu bell fel NVMe neu NVMe dros Fabric (NVMe-oF) a Cof GPU.

Mae GPUDirect RDMA a GPUDirect Storage yn osgoi symudiadau data diangen trwy glustogfa mewn cof CPU ac yn caniatáu i'r mecanwaith mynediad cof uniongyrchol (DMA) symud data o'r cerdyn rhwydwaith neu storfa yn uniongyrchol i neu o gof GPU - i gyd heb lwyth ar y CPU canolog. Ar gyfer GPUDirect Storage, nid yw lleoliad y storfa o bwys: gall fod yn ddisg NVME y tu mewn i uned GPU, y tu mewn i rac, neu wedi'i gysylltu dros y rhwydwaith fel NVMe-oF.

5.8 miliwn IOPS: pam cymaint?
Cynllun gweithredu GPUDirect Storage. Ffynhonnell: NVIDIA

Mae galw mawr am systemau storio Hi-End ar NVMe yn y farchnad cymwysiadau HPC

Gan sylweddoli, gyda dyfodiad GPUDirect Storage, y bydd diddordeb cwsmeriaid mawr yn cael ei dynnu i gynnig systemau storio gyda chyflymder I / O sy'n cyfateb i fewnbwn y GPU, yn arddangosfa SC-19 dangosodd Kingston arddangosiad o system sy'n cynnwys a system storio yn seiliedig ar ddisgiau NVMe ac uned gyda GPU, a ddadansoddodd filoedd o ddelweddau lloeren yr eiliad. Rydym eisoes wedi ysgrifennu am system storio o'r fath yn seiliedig ar yriannau 10 DC1000M U.2 NVMe mewn adroddiad o'r arddangosfa uwchgyfrifiaduron.

5.8 miliwn IOPS: pam cymaint?
Mae system storio sy'n seiliedig ar yriannau 10 DC1000M U.2 NVMe yn ategu gweinydd â chyflymwyr graffeg yn ddigonol. Ffynhonnell: Kingston

Mae'r system storio hon wedi'i chynllunio fel uned rac 1U neu fwy a gellir ei graddio yn dibynnu ar nifer y gyriannau DC1000M U.2 NVMe, pob un â chynhwysedd o 3.84-7.68 TB. Y DC1000M yw'r model NVMe SSD cyntaf yn y ffactor ffurf U.2 yn llinell gyriannau canolfan ddata Kingston. Mae ganddo sgôr dygnwch (DWPD, mae Drive yn ysgrifennu bob dydd), sy'n caniatáu iddo ailysgrifennu data i'w gapasiti llawn unwaith y dydd am oes warantedig y gyriant.

Yn y prawf fio v3.13 ar system weithredu Ubuntu 18.04.3 LTS, cnewyllyn Linux 5.0.0-31-generig, dangosodd sampl storio'r arddangosfa gyflymder darllen (Readu Parhaus) o 5.8 miliwn IOPS gyda thrwybwn cynaliadwy (Lled Band Parhaus ) o 23.8 Gbit yr eiliad.

Dywedodd Ariel Perez, rheolwr busnes SSD yn Kingston, am y systemau storio newydd: “Rydym yn barod i arfogi'r genhedlaeth nesaf o weinyddion ag atebion U.2 NVMe SSD i ddileu llawer o'r tagfeydd trosglwyddo data sydd wedi bod yn draddodiadol yn gysylltiedig â storio. Mae'r cyfuniad o yriannau NVMe SSD a'n Gweinyddwr Premier DRAM premiwm yn gwneud Kingston yn un o ddarparwyr datrysiadau data pen-i-ben mwyaf cynhwysfawr y diwydiant."

5.8 miliwn IOPS: pam cymaint?
Dangosodd y prawf gfio v3.13 trwybwn o 23.8 Gbps ar gyfer y system storio demo ar yriannau DC1000M U.2 NVMe. Ffynhonnell: Kingston

Sut olwg fyddai ar system nodweddiadol ar gyfer cymwysiadau HPC gan ddefnyddio GPUDirect Storage neu dechnoleg debyg? Mae hon yn bensaernïaeth gyda gwahaniad corfforol o unedau swyddogaethol o fewn rac: un neu ddwy uned ar gyfer RAM, sawl un arall ar gyfer nodau cyfrifiadura GPU a CPU, ac un neu fwy o unedau ar gyfer systemau storio.

Gyda chyhoeddiad GPUDirect Storage ac ymddangosiad posibl technolegau tebyg gan werthwyr GPU eraill, mae galw Kingston am systemau storio a ddyluniwyd i'w defnyddio mewn cyfrifiadura perfformiad uchel yn ehangu. Y marciwr fydd cyflymder darllen data o'r system storio, sy'n debyg i'r trwygyrch o gardiau rhwydwaith 40- neu 100-Gbit wrth fynedfa uned gyfrifiadurol gyda GPU. Felly, bydd systemau storio cyflym iawn, gan gynnwys NVMe allanol trwy Fabric, yn mynd o fod yn egsotig i'r brif ffrwd ar gyfer cymwysiadau HPC. Yn ogystal â chyfrifiadau gwyddoniaeth ac ariannol, byddant yn cael eu cymhwyso mewn llawer o feysydd ymarferol eraill, megis systemau diogelwch ar lefel fetropolitan Dinas Ddiogel neu ganolfannau gwyliadwriaeth trafnidiaeth, lle mae angen cyflymder adnabod ac adnabod miliynau o ddelweddau HD yr eiliad, ”amlinellwyd cilfach farchnad y system Storio uchaf

Mae rhagor o wybodaeth am gynnyrch Kingston ar gael yn gwefan swyddogol cwmni.

Ffynhonnell: hab.com

Ychwanegu sylw