5.8 decies centena millia IOPS: cur tam?

Salve Habr! Datae magnae Datae et apparatus discendi exponentialiter augentur et cum illis servare opus est. Nostrae stationes circa aliam technologiam porttitor in campo magni operis computandi (HPC, High Performance Computing), exhibitum est apud Kyngeston umbraculum apud Supercomputing-2019. Hic est usus rationum repositionis Hi-End (SDS) in ministris cum unitatibus graphicis (GPU) et GPUDirect Repono bus technologiae. Per directam datam commutationem inter systema reponendi et GPU, praeteriens CPU, acceleratores GPU onerantes notitia magnitudinis ordine accelerantur, ergo applicationes magnae Datae currunt ad maximam observantiam quam GPUs praebent. Rursus, HPC tincidunt systematis progressiones in repositionis systematis cum velocitatibus summis I/O quaerunt, quales sunt Kyngeston.

5.8 decies centena millia IOPS: cur tam?

GPU perficientur outpaces notitia loading

Cum a creatione CUDA, a GPU fundato ferramento-software architecturae parallelae computandi ad applicationes generales propositum explicandum, anno 2007, facultates ferramentorum ipsius GPUs incredibiliter creverunt. Hodie, GPUs in applicationibus HPC magis magisque adhibitis ut Big Data, apparatus discendi (ML), alta doctrina (DL).

Nota quod, non obstante similitudine terminorum, duo ultima opera sunt algorithmice diversa. ML computatorium in notitia structuris fundatum docet, dum DL computatrum subnixum feedback ex retis neuralis docet. Exemplum ad intelligendas differentias satis simplex est. Ponamus computatrum distinguendum esse inter imagines felium et canum quae e systematis repono oneratae sunt. Pro ML statutum imaginum cum multis textibus submittere debes, quarum singulae peculiare notam animalis definit. Nam DL satis est multo maiorem imaginum numerum ad upload DL simillimum est quomodo infantes docentur - simpliciter ostenduntur imagines canum et felium in libris et in vita (saepe etiam sine explicatione distinctorum differentiae), et ipsum cerebri infantis genus animalis posterius determinare incipit. certum numerum picturarum criticarum ad comparationem (secundum aestimationes loquimur de spectaculis per infantiam tantum centum vel duos). DL algorithms nondum ita perfecti sunt: ​​nam reticulum neurale ut etiam feliciter operantur in identitate imaginum, necesse est decies centena imaginum in GPU pascere et processum.

Summarium praefationis: fundatum in GPUs, potes applicationes HPC aedificare in agro Big Datae, ML et DL, sed quaestio est - copiae notitiarum tam magnae sunt ut tempus loading notitiarum ex systemate repono ad GPU confectum. incipit reducere altiore observantia applicationis. Aliis verbis, ieiunium GPUs subutilis manent ob tardam I/O datam ab aliis subsystematis venientibus. Differentia in I/O celeritate GPU et bus ad CPU/reponariam ordinem magnitudinis esse potest.

Quomodo opus technology GPUDirect PRAECLUSIO?

Processus I/O ab CPU refrenat, sicut processus notitiarum onerationum e repono ad GPUs ulterioris processus. Inde ad petitionem technologiarum quae directam accessum inter GPUs et NVMe praebere vellet, ut celeriter inter se communicarent. NVIDIA primus talem technologiam offert et eam GPUDirect Storage appellavit. Re vera, haec est variatio GPUDirect RDMA (Remote Direct Memoria Inscriptio) technologiae quas antea evolvit.

5.8 decies centena millia IOPS: cur tam?
Jensen Huang, CEO de NVIDIA, GPUDirect Repono ut variantes GPUDirect RDMA in SC-19. Source: NVIDIA

Discrimen inter GPUDirect RDMA et GPUDirect Repono in machinis inter quas oratio exercetur. GPUDirect RDMA technologia dicitur movere data directo inter retis interfaciei card (NIC) et GPU memoriam, et GPUDirect Storage directam datam praebet viam inter reposita localia vel remota ut NVMe vel NVMe super Fabric (NVMe-oF) et GPU memoriae.

Ambae GPUDirect RDMA et GPUDirect Repono ne supervacuas notitias motus per quiddam in memoria CPU evitent ac permittant rectae memoriae accessum (DMA) mechanismum movere notitia e card retis vel repositionis directe ad vel ex memoria GPU - sine onere in centrali CPU. Pro GPUDirect Repono, situm repositionis non refert: potest esse disci NVME intra unitatem GPU, intra eculeum vel super reticulum connexum ut NVMe-oF.

5.8 decies centena millia IOPS: cur tam?
Schema operandi GPUDirect Repono. Source: NVIDIA

Hi-End systemata repono in NVMe sunt in demanda in HPC application foro

Animadvertens GPUDirect Repono, usuras magnarum clientium ducetur ad systemata reposita cum I/O velocitatibus respondentibus perputationem GPU, in exhibitione SC-19 Kingston demom systematis constantis ostendisse. systema repono in NVMe orbis ac unitas cum GPU fundatur, quae milia imaginum satellitem secundo perpendunt. Iam de huiusmodi repositione systematis innixa 10 DC1000M U.2 NVMe agitationes scripsimus per famam ex supercomputadora spectaculi.

5.8 decies centena millia IOPS: cur tam?
Systema tabularium innixum 10 DC1000M U.2 NVMe cultorem cum acceleratoribus graphicis sufficienter complementum agit. Source: Kingston

Haec ratio reposita ut unitas eculei 1U vel maior designatus est et secundum numerum DC1000M U.2 NVMe agitet escendere potest, unaquaeque cum capacitate 3.84-7.68 TB. Primum DC1000M est exemplar NVMe SSD in U.2 forma factor in linea data centrum Kingston agit. Habet aestimationem patientiam (DWPD, Coegi per diem scribit), sinit eam rescribere datam suam plenam facultatem semel in die ad vitam coegi spondet.

In fi v3.13 experimentum in Ubuntu 18.04.3 LTS systematis operandi, Linux nucleum 5.0.0-31-genericum, specimen repositionis specimen celeritatis (Sustained Read) ostendit 5.8 decies centena IOPS cum sustinebili throughput (Sustained Bandwidth ) of 23.8 Gbit/s.

Ariel Perez, SSD procurator negotii apud Kingston, dixit de novis systematibus repositionis: "Parati sumus ut servientium generationi alterae cum U.2 NVMe SSD solutiones instruant ad tollendas multas notitiarum translationis lagunculas quae traditae sunt repositae consociatae. Coniunctio NVMe SSD agitet et nostrum premium Servo SUMMUS DRAM facit Kingston unum e industria latissime patet ad finem solutionum notitiarum provisorum.

5.8 decies centena millia IOPS: cur tam?
Expertus gfio v3.13 perputationem 23.8 Gbps pro demo repositionis systematis in DC1000M U.2 NVMe egit. Source: Kingston

Quid systema typica ad HPC applicationes spectant ut GPUDirect Repono vel similis technologiae usus? Architectura haec est cum separatione physica unitatum functionum intra eculeum: una vel duae unitates pro RAM, plures pro GPU et CPU nodis computandis, et una vel plures unitates pro rationum repositionis.

Cum nuntiatione GPUDirect Storage et possibilis emergentiæ similium technologiarum ab aliis GPU mercatoribus, postulatio Regumton pro rationum repositionis ad usum in magni operis computatione dilatatur. Titulus erit celeritas notitiarum legendi ex systemate repositorium, comparabile perputium 40- vel 100-Gbit chartarum retis in introitu ad unitatem computationis cum GPU. Ita systemata ultra-magno-celeritate reposita, NVMe externa per Fabric, ab exoticis ad amet applicationes HPC proficiscetur. Praeter scientias et rationes nummarias, applicationem in multis aliis locis practicis invenient, sicut systemata securitatis in gradu securitatis metropolitanae vel in custodias centra transportandas, ubi cognitio et identificatio celeritatum decies centena milia imaginum per alterum requiruntur", delineata. iussisti summo at ratio in foro

Plura de Kingston producta inveniri possunt at rutrum company.

Source: www.habr.com