BlazingSQL SQL motorearen kodea irekita, GPU erabiliz azeleraziorako

Iragarri SQL motorren iturriak irekitzeari buruz BlazingSQL, datuen prozesamendua azkartzeko GPU erabiltzen duena. BlazingSQL ez da guztizko DBMS bat, baina datu multzo handiak aztertzeko eta prozesatzeko motor gisa kokatuta dago, bere zereginetan parekoa. Apache Spark. Kodea Python-en idatzita dago eta irekita dago Apache 2.0 lizentziapean.

BlazingSQL egokia da taula formatuetan (adibidez, erregistroak, NetFlow estatistikak, etab.) gordetako datu multzo handietan (hamarka gigabyte) kontsulta analitiko bakarrak egiteko. BlazingSQL-ek HDSF eta AWS S3 bezalako sareko eta hodeiko fitxategi-sistemetan ostatatutako CSV eta Apache Parquet formatuetako fitxategi gordinak exekutatu ditzake, emaitza zuzenean GPU memoriara transferituz. GPUko eragiketen paralelizazioari eta bideo-memoria azkarragoaren erabilerari esker, BlazingSQL kontsultak baino gutxiagotan exekutatzen dira. 20 aldiz Apache Spark baino azkarragoa.

BlazingSQL SQL motorearen kodea irekita, GPU erabiliz azeleraziorako

GPUekin lan egiteko, NVIDIAren parte-hartzearekin garatutako multzo bat erabiltzen da irekia liburutegiak RAPIDOAK, eta horri esker, datuak prozesatzeko eta analitikoko aplikazioak sortzeko aukera ematen du, guztiz GPU aldean exekutatzen diren Python interfazea maila baxuko CUDA primitiboak erabiltzeko eta kalkuluak paralelizatzeko).

BlazingSQL-k datuak prozesatzeko APIen ordez SQL erabiltzeko gaitasuna eskaintzen du cuUDF (oinarrian Apache Arrow) RAPIDS-en erabiltzen da. BlazingSQL cuDFren gainean exekutatzen den geruza gehigarria da eta cuIO liburutegia erabiltzen du diskoko datuak irakurtzeko. SQL kontsultak cuUDF funtzioetarako deiak bihurtzen dira, eta horri esker datuak GPUan kargatu eta bertan bateratze, agregazio eta iragazketa eragiketak egiteko aukera ematen dute. Milaka GPU barne hartzen dituzten konfigurazio banatuak sortzea onartzen da.

BlazingSQL-k datuekin lan egitea asko errazten du - cuDF funtzioetara ehunka dei egin beharrean, SQL kontsulta bakarra erabil dezakezu. SQL erabiltzeak RAPIDS lehendik dauden analitiko sistemekin integratzea ahalbidetzen du, prozesadore zehatzik idatzi gabe eta datuak DBMS gehigarri batean tarteko kargatzera jo gabe, baina
RAPIDS-en atal guztiekin bateragarritasun osoa mantenduz, lehendik dauden funtzionalitateak SQLra itzuliz eta cuDF mailan errendimendua eskainiz. Horrek liburutegiekin integratzeko laguntza barne hartzen du XGBoost ΠΈ cuML analitika eta ikaskuntza automatikoko arazoak konpontzeko.

Iturria: opennet.ru

Gehitu iruzkin berria