Hei Habr! Big Datan ja koneoppimisen tietojoukot kasvavat eksponentiaalisesti, ja meidän on pysyttävä niiden mukana. Viestimme toisesta innovatiivisesta teknologiasta korkean suorituskyvyn tietojenkäsittelyn alalla (HPC, High Performance Computing), näytettiin Kingstonin osastolla klo.
GPU:n suorituskyky ylittää tiedonlatauksen
CUDA:n, GPU-pohjaisen laitteisto-ohjelmiston rinnakkaislaskenta-arkkitehtuurin yleiskäyttöisten sovellusten kehittämiseen, luomisen jälkeen vuonna 2007, itse grafiikkasuorittimien laitteistoominaisuudet ovat kasvaneet uskomattoman paljon. Nykyään GPU:ita käytetään yhä enemmän HPC-sovelluksissa, kuten Big Datassa, koneoppimisessa (ML) ja syväoppimisessa (DL).
Huomaa, että termien samankaltaisuudesta huolimatta kaksi viimeistä ovat algoritmisesti erilaisia tehtäviä. ML kouluttaa tietokonetta strukturoidun datan perusteella, kun taas DL kouluttaa tietokonetta hermoverkon palautteen perusteella. Esimerkki erojen ymmärtämiseksi on melko yksinkertainen. Oletetaan, että tietokoneen on erotettava tallennusjärjestelmästä ladatut kissojen ja koirien valokuvat. ML:ssä sinun tulee lähettää joukko kuvia, joissa on useita tunnisteita, joista jokainen määrittelee eläimen tietyn ominaisuuden. DL:lle riittää, että ladataan paljon suurempi määrä kuvia, mutta yhdellä tunnisteella "tämä on kissa" tai "tämä on koira". DL on hyvin samankaltainen kuin pienille lapsille opetettu - heille yksinkertaisesti näytetään kuvia koirista ja kissoista kirjoissa ja elämässä (useimmiten edes selittämättä yksityiskohtaista eroa), ja lapsen aivot itse alkavat määrittää eläimen tyyppiä. tietty kriittinen määrä kuvia vertailua varten ( Arvioiden mukaan puhumme vain sadasta tai kahdesta esityksestä koko varhaislapsuuden aikana). DL-algoritmit eivät ole vielä niin täydellisiä: jotta hermoverkko toimisi onnistuneesti myös kuvien tunnistamisessa, on tarpeen syöttää ja käsitellä miljoonia kuvia GPU:hun.
Esipuheen tiivistelmä: GPU:iden perusteella voit rakentaa HPC-sovelluksia Big Datan, ML:n ja DL:n alalla, mutta siinä on ongelma - tietojoukot ovat niin suuria, että aika, joka kuluu tietojen lataamiseen tallennusjärjestelmästä GPU: lle alkaa heikentää sovelluksen yleistä suorituskykyä. Toisin sanoen nopeat GPU:t jäävät vajaakäyttöiseksi muista alajärjestelmistä tulevan hitaiden I/O-tietojen vuoksi. GPU:n ja CPU/tallennusjärjestelmään menevän väylän I/O-nopeuden ero voi olla suuruusluokkaa.
Kuinka GPUDirect Storage -tekniikka toimii?
CPU ohjaa I/O-prosessia, kuten myös tietojen lataamista tallennustilasta GPU:iin jatkokäsittelyä varten. Tämä johti pyyntöön teknologiasta, joka tarjoaisi suoran pääsyn GPU:iden ja NVMe-asemien välillä nopeaa kommunikointia varten. NVIDIA oli ensimmäinen, joka tarjosi tällaista tekniikkaa ja kutsui sitä GPUDirect Storageksi. Itse asiassa tämä on muunnelma heidän aiemmin kehittämästä GPUDirect RDMA (Remote Direct Memory Address) -tekniikasta.
Jensen Huang, NVIDIA:n toimitusjohtaja, esittelee GPUDirect Storagen muunnelmana GPUDirect RDMA:sta SC-19:ssä. Lähde: NVIDIA
Ero GPUDirect RDMA:n ja GPUDirect Storagen välillä on laitteissa, joiden välillä osoite suoritetaan. GPUDirect RDMA -tekniikka on tarkoitettu siirtämään tietoja suoraan käyttöliittymän verkkokortin (NIC) ja GPU-muistin välillä, ja GPUDirect Storage tarjoaa suoran tietopolun paikallisen tai etätallennustilan, kuten NVMe tai NVMe over Fabric (NVMe-oF) ja välillä. GPU-muisti.
Sekä GPUDirect RDMA että GPUDirect Storage välttävät tarpeettomia tiedonsiirtoja suorittimen muistissa olevan puskurin kautta ja mahdollistavat suoran muistin pääsyn (DMA) mekanismin siirtää tietoja verkkokortista tai tallennustilasta suoraan GPU:n muistiin tai suoraan GPU:n muistista - kaikki ilman keskusprosessorin kuormitusta. GPUDirect Storagessa tallennustilan sijainnilla ei ole väliä: se voi olla NVME-levy GPU-yksikössä, telineessä tai kytketty verkon yli NVMe-oF-muodossa.
GPUDirect Storagen toimintasuunnitelma. Lähde: NVIDIA
NVMe:n huippuluokan tallennusjärjestelmät ovat kysyttyjä HPC-sovellusmarkkinoilla
Ymmärtääkseen, että GPUDirect Storagen myötä suurasiakkaiden kiinnostus herää tarjota tallennusjärjestelmiä, joiden I/O-nopeus vastaa GPU:n suorituskykyä, Kingston esitteli SC-19-näyttelyssä demon järjestelmästä, joka koostuu NVMe-levyihin perustuva tallennusjärjestelmä ja GPU-yksikkö, joka analysoi tuhansia satelliittikuvia sekunnissa. Olemme jo kirjoittaneet tällaisesta tallennusjärjestelmästä, joka perustuu 10 DC1000M U.2 NVMe -asemaan
10 DC1000M U.2 NVMe -asemaan perustuva tallennusjärjestelmä täydentää riittävästi palvelinta grafiikkakiihdyttimillä. Lähde: Kingston
Tämä tallennusjärjestelmä on suunniteltu 1U:n tai suuremmiksi telineyksiköksi, ja sitä voidaan skaalata DC1000M U.2 NVMe -asemien lukumäärän mukaan, kunkin kapasiteetin ollessa 3.84–7.68 TB. DC1000M on ensimmäinen NVMe SSD -malli U.2-muodossa Kingstonin datakeskusasemien sarjassa. Sillä on kestävyysluokitus (DWPD, Drive kirjoittaa päivässä), joten se voi kirjoittaa tiedot uudelleen täyteen kapasiteettiinsa kerran päivässä aseman taatun käyttöiän ajan.
Ubuntu 3.13 LTS -käyttöjärjestelmän, Linux-ytimen 18.04.3-5.0.0-generic fio v31 -testissä näyttelytallennusnäyte osoitti 5.8 miljoonan IOPS:n lukunopeudeksi (Sustained Read) kestävällä suorituskyvyllä (Sustained Bandwidth). ) 23.8 Gbit/s.
Kingstonin SSD-liiketoiminnan johtaja Ariel Perez sanoi uusista tallennusjärjestelmistä: "Olemme valmiita varustamaan seuraavan sukupolven palvelimia U.2 NVMe SSD -ratkaisuilla poistaaksemme monet tiedonsiirron pullonkaulat, jotka perinteisesti ovat liittyneet tallennustilaan. NVMe SSD -asemien ja ensiluokkaisen Server Premier DRAM -muistin yhdistelmä tekee Kingstonista yhden alan kattavimmista kokonaisvaltaisten dataratkaisujen toimittajista."
gfio v3.13 -testi osoitti DC23.8M U.1000 NVMe -asemien demotallennusjärjestelmän suorituskyvyksi 2 Gbps. Lähde: Kingston
Miltä näyttäisi tyypillinen järjestelmä HPC-sovelluksille käyttämällä GPUDirect Storagea tai vastaavaa tekniikkaa? Tämä on arkkitehtuuri, jossa telineessä olevat toiminnalliset yksiköt on erotettu fyysisesti toisistaan: yksi tai kaksi yksikköä RAM-muistia varten, useita muita GPU- ja CPU-laskentasolmuja varten ja yksi tai useampi yksikkö tallennusjärjestelmille.
GPUDirect Storagen julkistamisen ja samankaltaisten teknologioiden mahdollisen ilmestymisen myötä muilta GPU-toimittajilta Kingstonin kysyntä korkean suorituskyvyn laskentaan suunniteltujen tallennusjärjestelmien osalta kasvaa. Merkki tulee olemaan tallennusjärjestelmän tietojen lukemisen nopeus, joka on verrattavissa 40 tai 100 Gbit:n verkkokorttien suoritustehoon GPU:lla varustetun laskentayksikön sisäänkäynnissä. Näin ollen erittäin nopeat tallennusjärjestelmät, mukaan lukien ulkoinen NVMe Fabricin kautta, muuttuvat eksoottisista HPC-sovellusten valtavirtaan. Tieteen ja taloudellisten laskelmien lisäksi niille löytyy käyttöä monilla muilla käytännön aloilla, kuten pääkaupunkiseudun turvallisuusjärjestelmissä tai liikenteen valvontakeskuksissa, joissa vaaditaan miljoonien HD-kuvien tunnistus- ja tunnistusnopeuksia sekunnissa”, linjasi. kärkitallennusjärjestelmän markkinarako
Lisätietoja Kingstonin tuotteista löytyy osoitteesta
Lähde: will.com