BlazingSQL SQL variklio kodas atidarytas, naudojant GPU pagreitinimui

Paskelbta apie SQL variklio šaltinių atidarymą „BlazingSQL“, kuris naudoja GPU, kad pagreitintų duomenų apdorojimą. „BlazingSQL“ nėra visavertė DBVS, tačiau ji yra didelių duomenų rinkinių analizės ir apdorojimo variklis, savo užduotimis palyginamas su Apache Spark. Kodas parašytas Python ir atviras licencijuota pagal Apache 2.0.

„BlazingSQL“ tinka atlikti atskiras analitines užklausas dideliems duomenų rinkiniams (dešimtis gigabaitų), saugomiems lentelių formatais (pavyzdžiui, žurnaluose, „NetFlow“ statistikoje ir kt.). „BlazingSQL“ gali vykdyti užklausas iš neapdorotų CSV ir Apache Parquet formatų failų, priglobtų tinklo ir debesies failų sistemose, pvz., HDSF ir AWS S3, tiesiogiai perkeldama rezultatą į GPU atmintį. Dėl operacijų lygiagretinimo GPU ir greitesnės vaizdo atminties naudojimo, BlazingSQL užklausos vykdomos greičiau nei 20 kartas greičiau nei Apache Spark.

BlazingSQL SQL variklio kodas atidarytas, naudojant GPU pagreitinimui

Norėdami dirbti su GPU, naudojamas rinkinys, sukurtas dalyvaujant NVIDIA atviras bibliotekos GREIČIAI, kuri leidžia kurti duomenų apdorojimo ir analizės programas, kurios veikia tik GPU pusėje (pateikiama Python sąsaja naudoti žemo lygio CUDA primityvus ir lygiagretinti skaičiavimus).

„BlazingSQL“ suteikia galimybę naudoti SQL, o ne duomenų apdorojimo API cuUDF (ant pagrindo Apache rodyklė) naudojamas RAPIDS. „BlazingSQL“ yra papildomas sluoksnis, kuris veikia cuDF viršuje ir naudoja cuIO biblioteką duomenims iš disko nuskaityti. SQL užklausos paverčiamos iškvietimais į cuUDF funkcijas, kurios leidžia įkelti duomenis į GPU ir jame atlikti sujungimo, agregavimo ir filtravimo operacijas. Palaikomas paskirstytų konfigūracijų, apimančių tūkstančius GPU, kūrimas.

BlazingSQL labai supaprastina darbą su duomenimis – vietoj šimtų iškvietimų į cuDF funkcijas galite naudoti vieną SQL užklausą. SQL naudojimas leidžia integruoti RAPIDS su esamomis analizės sistemomis, neįrašant konkrečių procesorių ir nenaudojant tarpinio duomenų įkėlimo į papildomą DBVS, tačiau
išlaikant visišką suderinamumą su visomis RAPIDS dalimis, paverčiant esamas funkcijas į SQL ir užtikrinant našumą cuDF lygiu. Tai apima integracijos su bibliotekomis palaikymą XGBoost и cuML Analitikos ir mašininio mokymosi problemoms spręsti.

Šaltinis: opennet.ru

Добавить комментарий