BlazingSQL SQL dzinēja kods ir atvērts, izmantojot GPU paātrināšanai

Paziņots par SQL dzinēja avotu atvēršanu Degošs SQL, kas izmanto GPU, lai paātrinātu datu apstrādi. BlazingSQL nav pilnvērtīga DBVS, bet tā ir novietota kā dzinējs lielu datu kopu analīzei un apstrādei, kas pēc saviem uzdevumiem ir salīdzināms ar Apache Spark. Kods ir rakstīts Python un ir atvērts licencēts saskaņā ar Apache 2.0.

BlazingSQL ir piemērots atsevišķu analītisko vaicājumu veikšanai lielām datu kopām (desmitiem gigabaitu), kas glabājas tabulu formātos (piemēram, žurnāli, NetFlow statistika utt.). BlazingSQL var izpildīt vaicājumus no neapstrādātiem failiem CSV un Apache Parquet formātos, kas mitināti tīkla un mākoņdatņu sistēmās, piemēram, HDSF un AWS S3, tieši pārsūtot rezultātu uz GPU atmiņu. Pateicoties operāciju paralēlizācijai GPU un ātrākas video atmiņas izmantošanai, BlazingSQL vaicājumi tiek izpildīti mazāk nekā 20 reizes ātrāk nekā Apache Spark.

BlazingSQL SQL dzinēja kods ir atvērts, izmantojot GPU paātrināšanai

Lai strādātu ar GPU, tiek izmantots komplekts, kas izstrādāts, piedaloties NVIDIA atvērts bibliotēkas KRĀJUMI, kas ļauj izveidot datu apstrādes un analīzes lietojumprogrammas, kas pilnībā darbojas GPU pusē (nodrošina Python interfeiss lai izmantotu zema līmeņa CUDA primitīvas un paralizētu aprēķinus).

BlazingSQL nodrošina iespēju izmantot SQL, nevis datu apstrādes API cuUDF (uz pamatnes Apache bultiņa), ko izmanto RAPIDS. BlazingSQL ir papildu slānis, kas darbojas virs cuDF un izmanto cuIO bibliotēku, lai nolasītu datus no diska. SQL vaicājumi tiek pārvērsti izsaukumos uz cuUDF funkcijām, kas ļauj ielādēt datus GPU un veikt tajā sapludināšanas, apkopošanas un filtrēšanas darbības. Tiek atbalstīta izplatītu konfigurāciju izveide, kas aptver tūkstošiem GPU.

BlazingSQL ievērojami vienkāršo darbu ar datiem — simtiem cuDF funkciju izsaukumu vietā varat izmantot vienu SQL vaicājumu. SQL izmantošana ļauj integrēt RAPIDS ar esošajām analītikas sistēmām, nerakstot īpašus procesorus un neizmantojot starpposma datu ielādi papildu DBVS, bet
vienlaikus saglabājot pilnīgu savietojamību ar visām RAPIDS daļām, pārvēršot esošo funkcionalitāti SQL un nodrošinot veiktspēju cuDF līmenī. Tas ietver atbalstu integrācijai ar bibliotēkām XGBoost и cuML analītikas un mašīnmācīšanās problēmu risināšanai.

Avots: opennet.ru

Pievieno komentāru