Kode mesin BlazingSQL SQL mbukak, nggunakake GPU kanggo akselerasi

Diumumake babagan mbukak sumber mesin SQL BlazingSQL, sing nggunakake GPU kanggo nyepetake pangolahan data. BlazingSQL dudu DBMS sing lengkap, nanging dipanggonke minangka mesin kanggo nganalisa lan ngolah set data gedhe, sing bisa dibandhingake karo tugase. Apache Spark. Kode ditulis ing Python lan mbukak dilisensi ing Apache 2.0.

BlazingSQL cocog kanggo nindakake pitakon analitis tunggal ing set data gedhe (puluhan gigabyte) sing disimpen ing format tabular (contone, log, statistik NetFlow, lsp.). BlazingSQL bisa mbukak pitakon saka file mentah ing format CSV lan Apache Parquet sing di-host ing jaringan lan sistem file awan kaya HDSF lan AWS S3, langsung nransfer asil menyang memori GPU. Thanks kanggo paralelisasi operasi ing GPU lan panggunaan memori video sing luwih cepet, pitakon BlazingSQL dieksekusi kurang saka 20 kaping luwih cepet tinimbang Apache Spark.

Kode mesin BlazingSQL SQL mbukak, nggunakake GPU kanggo akselerasi

Kanggo nggarap GPU, pesawat sing dikembangake kanthi partisipasi NVIDIA digunakake mbukak perpustakaan RAPIDS, sing ngidini sampeyan nggawe aplikasi pangolahan data lan analytics sing mlaku kabeh ing sisih GPU (disedhiyakake dening antarmuka Python kanggo nggunakake primitif CUDA tingkat rendah lan paralel petungan).

BlazingSQL nyedhiyakake kemampuan kanggo nggunakake SQL tinimbang API pangolahan data cuUDF (ing dhasar Apache Arrow) digunakake ing RAPIDS. BlazingSQL minangka lapisan tambahan sing mlaku ing ndhuwur cuDF lan nggunakake perpustakaan cuIO kanggo maca data saka disk. Pitakonan SQL diterjemahake menyang telpon menyang fungsi cuUDF, sing ngidini sampeyan mbukak data menyang GPU lan nindakake operasi gabungan, agregasi lan nyaring. Nggawe konfigurasi sing disebarake kanthi ewu GPU didhukung.

BlazingSQL nyederhanakake banget nggarap data - tinimbang atusan telpon menyang fungsi cuDF, sampeyan bisa nggunakake siji pitakon SQL. Panggunaan SQL ndadekake iku bisa kanggo nggabungake RAPIDS karo sistem ana analytics, tanpa nulis prosesor tartamtu lan tanpa nggunakake intermediate loading data menyang DBMS tambahan, nanging
nalika njaga kompatibilitas lengkap karo kabeh bagean saka RAPIDS, nerjemahake fungsi ana menyang SQL lan menehi kinerja ing tingkat cuDF. Iki kalebu dhukungan kanggo integrasi karo perpustakaan XGBoost ΠΈ cuML kanggo ngrampungake masalah analytics lan machine learning.

Source: opennet.ru

Add a comment