Odprta koda mehanizma BlazingSQL SQL z uporabo GPE za pospeševanje

Napovedano o odpiranju izvornih kod motorja SQL BlazingSQL, ki uporablja GPE za pospešitev obdelave podatkov. BlazingSQL ni popoln DBMS, ampak je postavljen kot motor za analizo in obdelavo velikih nizov podatkov, ki je po svojih nalogah primerljiv z Apache Spark. Koda je napisana v Pythonu in odprto licenciran pod Apache 2.0.

BlazingSQL je primeren za izvajanje posameznih analitičnih poizvedb na velikih nizih podatkov (na desetine gigabajtov), ​​shranjenih v tabelarnih oblikah (na primer dnevniki, statistika NetFlow itd.). BlazingSQL lahko izvaja poizvedbe iz neobdelanih datotek v formatih CSV in Apache Parquet, ki gostujejo v omrežju in datotečnih sistemih v oblaku, kot sta HDSF in AWS S3, ter neposredno prenese rezultat v pomnilnik GPU. Zahvaljujoč paralelizaciji operacij v GPU in uporabi hitrejšega video pomnilnika se poizvedbe BlazingSQL izvedejo v manj kot 20-krat hitrejši od Apache Spark.

Odprta koda mehanizma BlazingSQL SQL z uporabo GPE za pospeševanje

Za delo z grafičnimi procesorji se uporablja komplet, razvit s sodelovanjem NVIDIA odprto knjižnice HITRI, ki vam omogoča ustvarjanje aplikacij za obdelavo podatkov in analitiko, ki se v celoti izvajajo na strani GPE (ponudba Python vmesnik za uporabo nizkonivojskih primitivov CUDA in vzporedne izračune).

BlazingSQL omogoča uporabo SQL namesto API-jev za obdelavo podatkov cuUDF (na podlagi Puščica Apache), ki se uporablja v RAPIDS. BlazingSQL je dodatna plast, ki deluje na vrhu cuDF in uporablja knjižnico cuIO za branje podatkov z diska. Poizvedbe SQL so prevedene v klice funkcij cuUDF, ki vam omogočajo nalaganje podatkov v GPE in izvajanje operacij združevanja, združevanja in filtriranja na njih. Podprto je ustvarjanje porazdeljenih konfiguracij, ki zajemajo na tisoče grafičnih procesorjev.

BlazingSQL močno poenostavi delo s podatki - namesto na stotine klicev funkcij cuDF lahko uporabite eno poizvedbo SQL. Uporaba SQL omogoča integracijo RAPIDS z obstoječimi analitičnimi sistemi, brez pisanja posebnih procesorjev in brez zatekanja k vmesnemu nalaganju podatkov v dodatno DBMS, vendar
hkrati pa ohranja popolno združljivost z vsemi deli RAPIDS, prevaja obstoječo funkcionalnost v SQL in zagotavlja zmogljivost na ravni cuDF. To vključuje podporo za integracijo s knjižnicami XGBoost и cuML za reševanje problemov analitike in strojnega učenja.

Vir: opennet.ru

Dodaj komentar