BlazingSQL SQL-motorkode åben, bruger GPU til acceleration

Meddelt om at åbne kilderne til SQL-motoren BlazingSQL, som bruger GPU'en til at fremskynde databehandlingen. BlazingSQL er ikke et fuldgyldigt DBMS, men er positioneret som en motor til at analysere og behandle store datasæt, sammenlignelig i sine opgaver med Apache Spark. Koden er skrevet i Python og åben licenseret under Apache 2.0.

BlazingSQL er velegnet til at udføre enkelte analytiske forespørgsler på store datasæt (tivis af gigabyte) gemt i tabelformater (f.eks. logfiler, NetFlow-statistikker osv.). BlazingSQL kan køre forespørgsler fra råfiler i CSV- og Apache Parquet-formater hostet på netværks- og cloud-filsystemer som HDSF og AWS S3, hvilket direkte overfører resultatet til GPU-hukommelsen. Takket være parallelisering af operationer i GPU'en og brugen af ​​hurtigere videohukommelse, udføres BlazingSQL-forespørgsler på mindre end 20 gange hurtigere end Apache Spark.

BlazingSQL SQL-motorkode åben, bruger GPU til acceleration

For at arbejde med GPU'er bruges et sæt udviklet med deltagelse af NVIDIA åben biblioteker HURTIGE, som giver dig mulighed for at oprette databehandlings- og analyseapplikationer, der kører udelukkende på GPU-siden (leveret af Python-grænseflade at bruge CUDA-primitiver på lavt niveau og parallelisere beregninger).

BlazingSQL giver mulighed for at bruge SQL i stedet for databehandlings-API'er cuUDF (på basen Apache pil) brugt i RAPIDS. BlazingSQL er et ekstra lag, der kører oven på cuDF og bruger cuIO-biblioteket til at læse data fra disken. SQL-forespørgsler oversættes til kald til cuUDF-funktioner, som giver dig mulighed for at indlæse data i GPU'en og udføre flette-, aggregerings- og filtreringsoperationer på den. Oprettelse af distribuerede konfigurationer, der spænder over tusindvis af GPU'er, understøttes.

BlazingSQL forenkler arbejdet med data i høj grad - i stedet for hundredvis af kald til cuDF-funktioner, kan du bruge én SQL-forespørgsel. Brugen af ​​SQL gør det muligt at integrere RAPIDS med eksisterende analysesystemer, uden at skrive specifikke processorer og uden at ty til mellemliggende indlæsning af data i en ekstra DBMS, men
samtidig med at den bevarer fuld kompatibilitet med alle dele af RAPIDS, oversætter eksisterende funktionalitet til SQL og leverer ydeevne på cuDF-niveau. Dette inkluderer understøttelse af integration med biblioteker XGBoost и cuML til at løse problemer med analyse og maskinlæring.

Kilde: opennet.ru

Tilføj en kommentar