BlazingSQL SQL-enjinkode is oop, gebruik GPU vir versnelling

Aangekondig oor die opening van die bronne van die SQL-enjin BlazingSQL, wat die GPU gebruik om dataverwerking te bespoedig. BlazingSQL is nie 'n volwaardige DBBS nie, maar is geposisioneer as 'n enjin vir die ontleding en verwerking van groot datastelle, vergelykbaar in sy take met Apache Spark. Die kode is geskryf in Python en is oop gelisensieer onder Apache 2.0.

BlazingSQL is geskik vir die uitvoer van enkele analitiese navrae op groot datastelle (tiene gigagrepe) wat in tabelformate gestoor is (byvoorbeeld logs, NetFlow-statistieke, ens.). BlazingSQL kan navrae vanaf rou lΓͺers in CSV- en Apache Parket-formate laat loop wat op netwerk- en wolklΓͺerstelsels soos HDSF en AWS S3 aangebied word, wat die resultaat direk na GPU-geheue oordra. Danksy parallellisering van bedrywighede in die GPU en die gebruik van vinniger videogeheue, word BlazingSQL-navrae in minder as 20 keer vinniger as Apache Spark.

BlazingSQL SQL-enjinkode is oop, gebruik GPU vir versnelling

Om met GPU's te werk, word 'n stel wat met die deelname van NVIDIA ontwikkel is, gebruik oopmaak biblioteke SNELLIGHEID, wat jou toelaat om dataverwerking en analise-toepassings te skep wat geheel en al aan die GPU-kant loop (verskaf deur Python-koppelvlak om lae-vlak CUDA-primitiewe te gebruik en berekeninge te paralleliseer).

BlazingSQL bied die vermoΓ« om SQL te gebruik in plaas van dataverwerking API's cuUDF (op die basis Apache-pyltjie) gebruik in RAPIDS. BlazingSQL is 'n bykomende laag wat bo-op cuDF loop en die cuIO-biblioteek gebruik om data vanaf skyf te lees. SQL-navrae word vertaal in oproepe na cuUDF-funksies, wat jou toelaat om data in die GPU te laai en saamsmelt-, samevoegings- en filterbewerkings daarop uit te voer. Die skepping van verspreide konfigurasies wat oor duisende GPU's strek, word ondersteun.

BlazingSQL vergemaklik die werk met data aansienlik - in plaas van honderde oproepe na cuDF-funksies, kan jy een SQL-navraag gebruik. Die gebruik van SQL maak dit moontlik om RAPIDS met bestaande ontledingstelsels te integreer, sonder om spesifieke verwerkers te skryf en sonder om toevlug te neem tot tussentydse laai van data in 'n bykomende DBBS, maar
terwyl volle versoenbaarheid met alle dele van RAPIDS gehandhaaf word, bestaande funksionaliteit in SQL vertaal word en prestasie op cuDF-vlak verskaf word. Dit sluit ondersteuning vir integrasie met biblioteke in XGBoost ΠΈ cuML vir die oplossing van probleme van analise en masjienleer.

Bron: opennet.ru

Voeg 'n opmerking