BlazingSQL SQL -moottorin koodi auki, käyttämällä GPU:ta kiihdytykseen

Ilmoitettu SQL-moottorin lähteiden avaamisesta BlazingSQL, joka käyttää GPU:ta tiedonkäsittelyn nopeuttamiseen. BlazingSQL ei ole täysimittainen DBMS, vaan se on sijoitettu suurten tietojoukkojen analysoinnin ja käsittelyn moottoriksi, joka on verrattavissa tehtäviinsä. Apache Spark. Koodi on kirjoitettu Pythonilla ja on auki lisensoitu Apache 2.0:lla.

BlazingSQL soveltuu yksittäisten analyyttisten kyselyiden suorittamiseen suurille tietojoukoille (kymmeniä gigatavuja), jotka on tallennettu taulukkomuotoon (esimerkiksi lokit, NetFlow-tilastot jne.). BlazingSQL voi suorittaa kyselyitä CSV- ja Apache Parquet -muodoissa olevista raakatiedostoista, joita isännöidään verkko- ja pilvitiedostojärjestelmissä, kuten HDSF ja AWS S3, siirtäen tuloksen suoraan GPU-muistiin. GPU:n toimintojen rinnastamisen ja nopeamman videomuistin käytön ansiosta BlazingSQL-kyselyt suoritetaan alle 20-ajat nopeampi kuin Apache Spark.

BlazingSQL SQL -moottorin koodi auki, käyttämällä GPU:ta kiihdytykseen

GPU:iden kanssa työskentelyyn käytetään NVIDIA:n kanssa kehitettyä sarjaa avata kirjastot NOPEA, jonka avulla voit luoda tietojenkäsittely- ja analytiikkasovelluksia, jotka toimivat kokonaan GPU-puolella (tarjoaa Python käyttöliittymä käyttää matalan tason CUDA-primitiivejä ja rinnakkaista laskelmia).

BlazingSQL tarjoaa mahdollisuuden käyttää SQL:ää tietojenkäsittelysovellusliittymien sijaan cuUDF (pohjassa Apache Arrow) käytetään RAPIDSissa. BlazingSQL on lisäkerros, joka toimii cuDF:n päällä ja käyttää cuIO-kirjastoa tietojen lukemiseen levyltä. SQL-kyselyt muunnetaan kutsuiksi cuUDF-funktioille, joiden avulla voit ladata tietoja GPU:hun ja suorittaa siinä yhdistämis-, aggregointi- ja suodatustoimintoja. Tuetaan hajautettujen konfiguraatioiden luomista, jotka kattavat tuhansia GPU:ita.

BlazingSQL yksinkertaistaa huomattavasti tietojen käsittelyä – satojen cuDF-toimintojen kutsujen sijaan voit käyttää yhtä SQL-kyselyä. SQL:n käyttö mahdollistaa RAPIDSin integroinnin olemassa oleviin analytiikkajärjestelmiin kirjoittamatta tiettyjä prosessoreita ja turvautumatta tietojen välilataukseen ylimääräiseen DBMS:ään, mutta
säilyttäen samalla täyden yhteensopivuuden RAPIDSin kaikkien osien kanssa, muuntaen olemassa olevat toiminnot SQL:ksi ja tarjoamalla suorituskykyä cuDF-tasolla. Tämä sisältää tuen integraatiolle kirjastojen kanssa XGBoost и cuML analytiikan ja koneoppimisen ongelmien ratkaisemiseen.

Lähde: opennet.ru

Lisää kommentti