BlazingSQL SQL-motorkode åpen, bruker GPU for akselerasjon

Kunngjort om å åpne kildene til SQL-motoren BlazingSQL, som bruker GPU for å øke hastigheten på databehandlingen. BlazingSQL er ikke et fullverdig DBMS, men er posisjonert som en motor for å analysere og behandle store datasett, sammenlignbar i sine oppgaver med Apache Spark. Koden er skrevet i Python og åpen lisensiert under Apache 2.0.

BlazingSQL er egnet for å utføre enkeltstående analytiske spørringer på store datasett (tivis av gigabyte) lagret i tabellformater (for eksempel logger, NetFlow-statistikk, etc.). BlazingSQL kan kjøre spørringer fra råfiler i CSV- og Apache Parquet-formater som er vert for nettverks- og skyfilsystemer som HDSF og AWS S3, og overfører resultatet direkte til GPU-minne. Takket være parallellisering av operasjoner i GPU og bruk av raskere videominne, kjøres BlazingSQL-spørringer på mindre enn 20 ganger raskere enn Apache Spark.

BlazingSQL SQL-motorkode åpen, bruker GPU for akselerasjon

For å jobbe med GPUer brukes et sett utviklet med deltakelse av NVIDIA åpen biblioteker RAPIDS, som lar deg lage databehandlings- og analyseapplikasjoner som kjører utelukkende på GPU-siden (levert av Python-grensesnitt å bruke CUDA-primitiver på lavt nivå og parallellisere beregninger).

BlazingSQL gir muligheten til å bruke SQL i stedet for databehandlings-APIer cuUDF (på basen Apache pil) brukt i RAPIDS. BlazingSQL er et ekstra lag som kjører på toppen av cuDF og bruker cuIO-biblioteket til å lese data fra disk. SQL-spørringer oversettes til kall til cuUDF-funksjoner, som lar deg laste data inn i GPUen og utføre flette-, aggregerings- og filtreringsoperasjoner på den. Opprettelsen av distribuerte konfigurasjoner som spenner over tusenvis av GPUer støttes.

BlazingSQL forenkler arbeidet med data i stor grad - i stedet for hundrevis av kall til cuDF-funksjoner, kan du bruke én SQL-spørring. Bruken av SQL gjør det mulig å integrere RAPIDS med eksisterende analysesystemer, uten å skrive spesifikke prosessorer og uten å ty til mellomliggende lasting av data i en ekstra DBMS, men
samtidig som den opprettholder full kompatibilitet med alle deler av RAPIDS, oversetter eksisterende funksjonalitet til SQL og gir ytelse på cuDF-nivå. Dette inkluderer støtte for integrasjon med biblioteker Xgboost и cuML for å løse problemer med analyse og maskinlæring.

Kilde: opennet.ru

Legg til en kommentar