🥇Motori BlazingSQL SQL, i cili përdor përshpejtimin GPU, është me burim të hapur

I shpallur në lidhje me hapjen e burimeve të motorit SQL BlazingSQL, i cili përdor GPU-në për të shpejtuar përpunimin e të dhënave. BlazingSQL nuk është një DBMS e plotë, por pozicionohet si një motor për analizimin dhe përpunimin e grupeve të mëdha të të dhënave, të krahasueshme në detyrat e tij me Apache Spark. Kodi është shkruar në Python dhe e hapur licencuar sipas Apache 2.0.

BlazingSQL është i përshtatshëm për kryerjen e pyetjeve të vetme analitike në grupe të mëdha të dhënash (dhjetëra gigabajt) të ruajtura në formate tabelare (për shembull, regjistrat, statistikat NetFlow, etj.). BlazingSQL mund të ekzekutojë pyetje nga skedarë të papërpunuar në formatet CSV dhe Apache Parquet të vendosura në sistemet e skedarëve të rrjetit dhe cloud si HDSF dhe AWS S3, duke transferuar drejtpërdrejt rezultatin në memorien GPU. Falë paralelizimit të operacioneve në GPU dhe përdorimit të memories video më të shpejtë, pyetjet BlazingSQL ekzekutohen në më pak se Herë 20 më shpejt se Apache Spark.

Kodi i motorit BlazingSQL SQL është i hapur, duke përdorur GPU për përshpejtim

Për të punuar me GPU, përdoret një grup i zhvilluar me pjesëmarrjen e NVIDIA e hapur bibliotekat RAPIDS, i cili ju lejon të krijoni aplikacione të përpunimit të të dhënave dhe analitikës që funksionojnë tërësisht në anën e GPU-së (siguruar nga Ndërfaqja Python për të përdorur primitive CUDA të nivelit të ulët dhe për të paralelizuar llogaritjet).

BlazingSQL ofron mundësinë për të përdorur SQL në vend të API-ve të përpunimit të të dhënave cuUDF (në bazë Shigjeta Apache) përdoret në RAPIDS. BlazingSQL është një shtresë shtesë që funksionon në krye të cuDF dhe përdor bibliotekën cuIO për të lexuar të dhënat nga disku. Pyetjet SQL përkthehen në thirrje për funksionet cuUDF, të cilat ju lejojnë të ngarkoni të dhënat në GPU dhe të kryeni operacione të bashkimit, grumbullimit dhe filtrimit në të. Mbështetet krijimi i konfigurimeve të shpërndara që përfshijnë mijëra GPU.

BlazingSQL thjeshton shumë punën me të dhënat - në vend të qindra thirrjeve në funksionet cuDF, mund të përdorni një pyetje SQL. Përdorimi i SQL bën të mundur integrimin e RAPIDS me sistemet ekzistuese analitike, pa shkruar procesorë specifikë dhe pa përdorur ngarkimin e ndërmjetëm të të dhënave në një DBMS shtesë, por
duke ruajtur përputhshmërinë e plotë me të gjitha pjesët e RAPIDS, duke përkthyer funksionalitetin ekzistues në SQL dhe duke ofruar performancë në nivelin cuDF. Kjo përfshin mbështetjen për integrimin me bibliotekat XGBoost и cuML për zgjidhjen e problemeve të analitikës dhe mësimit të makinerive.

Burimi: opennet.ru

Kodi i motorit BlazingSQL SQL është i hapur, duke përdorur GPU për përshpejtim