BlazingSQL SQL-motorkoade iepen, mei GPU foar fersnelling

Oankundige oer it iepenjen fan de boarnen fan 'e SQL-motor BlazingSQL, dy't de GPU brûkt om gegevensferwurking te fersnellen. BlazingSQL is gjin folweardich DBMS, mar is gepositioneerd as in motor foar it analysearjen en ferwurkjen fan grutte datasets, fergelykber yn har taken mei Apache Spark. De koade is skreaun yn Python en is iepen lisinsje ûnder Apache 2.0.

BlazingSQL is geskikt foar it útfieren fan inkele analytyske fragen op grutte datasets (tsientallen gigabytes) opslein yn tabelformaten (bygelyks logs, NetFlow-statistiken, ensfh.). BlazingSQL kin fragen útfiere fan rau bestannen yn CSV- en Apache Parquet-formaten hosted op netwurk- en wolkbestânsystemen lykas HDSF en AWS S3, en it resultaat direkt oerdrage nei GPU-ûnthâld. Mei tank oan parallelisaasje fan operaasjes yn 'e GPU en it gebrûk fan rapper fideoûnthâld, wurde BlazingSQL-fragen útfierd yn minder dan 20 tiden flugger as Apache Spark.

BlazingSQL SQL-motorkoade iepen, mei GPU foar fersnelling

Om te wurkjen mei GPU's wurdt in set ûntwikkele mei de dielname fan NVIDIA brûkt iepen biblioteken RAPIDS, wêrmei jo applikaasjes foar gegevensferwurking en analytyk kinne oanmeitsje dy't folslein op 'e GPU-kant rinne (fersoarge troch Python ynterface om CUDA-primitiven op leech nivo te brûken en berekkeningen te parallelisearjen).

BlazingSQL biedt de mooglikheid om SQL te brûken ynstee fan API's foar gegevensferwurking cuUDF (op de basis Apache Arrow) brûkt yn RAPIDS. BlazingSQL is in ekstra laach dy't boppe op cuDF rint en de cuIO-bibleteek brûkt om gegevens fan skiif te lêzen. SQL-fragen wurde oerset yn oproppen nei cuUDF-funksjes, wêrtroch jo gegevens yn 'e GPU kinne laden en derop fusearje, aggregearje en filterje. It oanmeitsjen fan ferdielde konfiguraasjes dy't tûzenen GPU's oerspant wurdt stipe.

BlazingSQL ferienfâldigt it wurk mei gegevens sterk - ynstee fan hûnderten oproppen nei cuDF-funksjes, kinne jo ien SQL-query brûke. It brûken fan SQL makket it mooglik om RAPIDS te yntegrearjen mei besteande analytyske systemen, sûnder spesifike processors te skriuwen en sûnder taflecht te nimmen ta tuskenlizzende laden fan gegevens yn in ekstra DBMS, mar
wylst it behâld fan folsleine kompatibiliteit mei alle dielen fan RAPIDS, it oersetten fan besteande funksjonaliteit yn SQL en it leverjen fan prestaasjes op it cuDF-nivo. Dit omfettet stipe foar yntegraasje mei bibleteken XGBoost и cuML foar it oplossen fan problemen fan analytyk en masine learen.

Boarne: opennet.ru

Add a comment