5.8 miljoonaa IOPS: miksi niin paljon?

Hei Habr! Big Datan ja koneoppimisen tietojoukot kasvavat eksponentiaalisesti, ja meidän on pysyttävä niiden mukana. Viestimme toisesta innovatiivisesta teknologiasta korkean suorituskyvyn tietojenkäsittelyn alalla (HPC, High Performance Computing), näytettiin Kingstonin osastolla klo. Supertietokone 2019. Tämä on Hi-End-tietotallennusjärjestelmien (SDS) käyttöä palvelimissa, joissa on graafiset prosessointiyksiköt (GPU) ja GPUDirect Storage Bus -tekniikka. Tallennusjärjestelmän ja grafiikkasuorittimen välisen suoran tiedonvaihdon ansiosta CPU ohitetaan, tietojen lataaminen GPU-kiihdyttimiin kiihtyy suuruusluokkaa, joten Big Data -sovellukset toimivat GPU:iden tarjoamalla maksimiteholla. HPC-järjestelmien kehittäjät puolestaan ​​ovat kiinnostuneita korkeimpien I/O-nopeuksien tallennusjärjestelmien kehityksestä, kuten Kingstonin valmistamissa.

5.8 miljoonaa IOPS: miksi niin paljon?

GPU:n suorituskyky ylittää tiedonlatauksen

CUDA:n, GPU-pohjaisen laitteisto-ohjelmiston rinnakkaislaskenta-arkkitehtuurin yleiskäyttöisten sovellusten kehittämiseen, luomisen jälkeen vuonna 2007, itse grafiikkasuorittimien laitteistoominaisuudet ovat kasvaneet uskomattoman paljon. Nykyään GPU:ita käytetään yhä enemmän HPC-sovelluksissa, kuten Big Datassa, koneoppimisessa (ML) ja syväoppimisessa (DL).

Huomaa, että termien samankaltaisuudesta huolimatta kaksi viimeistä ovat algoritmisesti erilaisia ​​tehtäviä. ML kouluttaa tietokonetta strukturoidun datan perusteella, kun taas DL kouluttaa tietokonetta hermoverkon palautteen perusteella. Esimerkki erojen ymmärtämiseksi on melko yksinkertainen. Oletetaan, että tietokoneen on erotettava tallennusjärjestelmästä ladatut kissojen ja koirien valokuvat. ML:ssä sinun tulee lähettää joukko kuvia, joissa on useita tunnisteita, joista jokainen määrittelee eläimen tietyn ominaisuuden. DL:lle riittää, että ladataan paljon suurempi määrä kuvia, mutta yhdellä tunnisteella "tämä on kissa" tai "tämä on koira". DL on hyvin samankaltainen kuin pienille lapsille opetettu - heille yksinkertaisesti näytetään kuvia koirista ja kissoista kirjoissa ja elämässä (useimmiten edes selittämättä yksityiskohtaista eroa), ja lapsen aivot itse alkavat määrittää eläimen tyyppiä. tietty kriittinen määrä kuvia vertailua varten ( Arvioiden mukaan puhumme vain sadasta tai kahdesta esityksestä koko varhaislapsuuden aikana). DL-algoritmit eivät ole vielä niin täydellisiä: jotta hermoverkko toimisi onnistuneesti myös kuvien tunnistamisessa, on tarpeen syöttää ja käsitellä miljoonia kuvia GPU:hun.

Esipuheen tiivistelmä: GPU:iden perusteella voit rakentaa HPC-sovelluksia Big Datan, ML:n ja DL:n alalla, mutta siinä on ongelma - tietojoukot ovat niin suuria, että aika, joka kuluu tietojen lataamiseen tallennusjärjestelmästä GPU: lle alkaa heikentää sovelluksen yleistä suorituskykyä. Toisin sanoen nopeat GPU:t jäävät vajaakäyttöiseksi muista alajärjestelmistä tulevan hitaiden I/O-tietojen vuoksi. GPU:n ja CPU/tallennusjärjestelmään menevän väylän I/O-nopeuden ero voi olla suuruusluokkaa.

Kuinka GPUDirect Storage -tekniikka toimii?

CPU ohjaa I/O-prosessia, kuten myös tietojen lataamista tallennustilasta GPU:iin jatkokäsittelyä varten. Tämä johti pyyntöön teknologiasta, joka tarjoaisi suoran pääsyn GPU:iden ja NVMe-asemien välillä nopeaa kommunikointia varten. NVIDIA oli ensimmäinen, joka tarjosi tällaista tekniikkaa ja kutsui sitä GPUDirect Storageksi. Itse asiassa tämä on muunnelma heidän aiemmin kehittämästä GPUDirect RDMA (Remote Direct Memory Address) -tekniikasta.

5.8 miljoonaa IOPS: miksi niin paljon?
Jensen Huang, NVIDIA:n toimitusjohtaja, esittelee GPUDirect Storagen muunnelmana GPUDirect RDMA:sta SC-19:ssä. Lähde: NVIDIA

Ero GPUDirect RDMA:n ja GPUDirect Storagen välillä on laitteissa, joiden välillä osoite suoritetaan. GPUDirect RDMA -tekniikka on tarkoitettu siirtämään tietoja suoraan käyttöliittymän verkkokortin (NIC) ja GPU-muistin välillä, ja GPUDirect Storage tarjoaa suoran tietopolun paikallisen tai etätallennustilan, kuten NVMe tai NVMe over Fabric (NVMe-oF) ja välillä. GPU-muisti.

Sekä GPUDirect RDMA että GPUDirect Storage välttävät tarpeettomia tiedonsiirtoja suorittimen muistissa olevan puskurin kautta ja mahdollistavat suoran muistin pääsyn (DMA) mekanismin siirtää tietoja verkkokortista tai tallennustilasta suoraan GPU:n muistiin tai suoraan GPU:n muistista - kaikki ilman keskusprosessorin kuormitusta. GPUDirect Storagessa tallennustilan sijainnilla ei ole väliä: se voi olla NVME-levy GPU-yksikössä, telineessä tai kytketty verkon yli NVMe-oF-muodossa.

5.8 miljoonaa IOPS: miksi niin paljon?
GPUDirect Storagen toimintasuunnitelma. Lähde: NVIDIA

NVMe:n huippuluokan tallennusjärjestelmät ovat kysyttyjä HPC-sovellusmarkkinoilla

Ymmärtääkseen, että GPUDirect Storagen myötä suurasiakkaiden kiinnostus herää tarjota tallennusjärjestelmiä, joiden I/O-nopeus vastaa GPU:n suorituskykyä, Kingston esitteli SC-19-näyttelyssä demon järjestelmästä, joka koostuu NVMe-levyihin perustuva tallennusjärjestelmä ja GPU-yksikkö, joka analysoi tuhansia satelliittikuvia sekunnissa. Olemme jo kirjoittaneet tällaisesta tallennusjärjestelmästä, joka perustuu 10 DC1000M U.2 NVMe -asemaan raportissa supertietokonenäyttelystä.

5.8 miljoonaa IOPS: miksi niin paljon?
10 DC1000M U.2 NVMe -asemaan perustuva tallennusjärjestelmä täydentää riittävästi palvelinta grafiikkakiihdyttimillä. Lähde: Kingston

Tämä tallennusjärjestelmä on suunniteltu 1U:n tai suuremmiksi telineyksiköksi, ja sitä voidaan skaalata DC1000M U.2 NVMe -asemien lukumäärän mukaan, kunkin kapasiteetin ollessa 3.84–7.68 TB. DC1000M on ensimmäinen NVMe SSD -malli U.2-muodossa Kingstonin datakeskusasemien sarjassa. Sillä on kestävyysluokitus (DWPD, Drive kirjoittaa päivässä), joten se voi kirjoittaa tiedot uudelleen täyteen kapasiteettiinsa kerran päivässä aseman taatun käyttöiän ajan.

Ubuntu 3.13 LTS -käyttöjärjestelmän, Linux-ytimen 18.04.3-5.0.0-generic fio v31 -testissä näyttelytallennusnäyte osoitti 5.8 miljoonan IOPS:n lukunopeudeksi (Sustained Read) kestävällä suorituskyvyllä (Sustained Bandwidth). ) 23.8 Gbit/s.

Kingstonin SSD-liiketoiminnan johtaja Ariel Perez sanoi uusista tallennusjärjestelmistä: "Olemme valmiita varustamaan seuraavan sukupolven palvelimia U.2 NVMe SSD -ratkaisuilla poistaaksemme monet tiedonsiirron pullonkaulat, jotka perinteisesti ovat liittyneet tallennustilaan. NVMe SSD -asemien ja ensiluokkaisen Server Premier DRAM -muistin yhdistelmä tekee Kingstonista yhden alan kattavimmista kokonaisvaltaisten dataratkaisujen toimittajista."

5.8 miljoonaa IOPS: miksi niin paljon?
gfio v3.13 -testi osoitti DC23.8M U.1000 NVMe -asemien demotallennusjärjestelmän suorituskyvyksi 2 Gbps. Lähde: Kingston

Miltä näyttäisi tyypillinen järjestelmä HPC-sovelluksille käyttämällä GPUDirect Storagea tai vastaavaa tekniikkaa? Tämä on arkkitehtuuri, jossa telineessä olevat toiminnalliset yksiköt on erotettu fyysisesti toisistaan: yksi tai kaksi yksikköä RAM-muistia varten, useita muita GPU- ja CPU-laskentasolmuja varten ja yksi tai useampi yksikkö tallennusjärjestelmille.

GPUDirect Storagen julkistamisen ja samankaltaisten teknologioiden mahdollisen ilmestymisen myötä muilta GPU-toimittajilta Kingstonin kysyntä korkean suorituskyvyn laskentaan suunniteltujen tallennusjärjestelmien osalta kasvaa. Merkki tulee olemaan tallennusjärjestelmän tietojen lukemisen nopeus, joka on verrattavissa 40 tai 100 Gbit:n verkkokorttien suoritustehoon GPU:lla varustetun laskentayksikön sisäänkäynnissä. Näin ollen erittäin nopeat tallennusjärjestelmät, mukaan lukien ulkoinen NVMe Fabricin kautta, muuttuvat eksoottisista HPC-sovellusten valtavirtaan. Tieteen ja taloudellisten laskelmien lisäksi niille löytyy käyttöä monilla muilla käytännön aloilla, kuten pääkaupunkiseudun turvallisuusjärjestelmissä tai liikenteen valvontakeskuksissa, joissa vaaditaan miljoonien HD-kuvien tunnistus- ja tunnistusnopeuksia sekunnissa”, linjasi. kärkitallennusjärjestelmän markkinarako

Lisätietoja Kingstonin tuotteista löytyy osoitteesta virallisilla verkkosivuilla yritys.

Lähde: will.com

Lisää kommentti