BlazingSQL SQL motorkód megnyitva, GPU-t használ a gyorsításhoz

Bejelentett az SQL motor forrásainak megnyitásáról Lángoló SQL, amely a GPU-t használja az adatfeldolgozás felgyorsítására. A BlazingSQL nem egy teljes értékű DBMS, hanem nagy adathalmazok elemzésének és feldolgozásának motorjaként van elhelyezve, feladatait tekintve hasonló Apache Spark. A kód Python és nyisd ki Apache 2.0 licenc alatt.

A BlazingSQL alkalmas nagyméretű (tíz gigabájt) adathalmazokon (például naplók, NetFlow statisztikák stb.) tárolt egyedi analitikai lekérdezések végrehajtására. A BlazingSQL lekérdezéseket tud futtatni CSV és Apache Parquet formátumú nyers fájlokból, amelyeket hálózati és felhőalapú fájlrendszereken, például HDSF-en és AWS S3-on tárolnak, és az eredményt közvetlenül a GPU memóriájába továbbítja. A GPU-ban végzett műveletek párhuzamosításának és a gyorsabb videomemória használatának köszönhetően a BlazingSQL-ben a lekérdezések akár 20 idők gyorsabb, mint az Apache Spark.

BlazingSQL SQL motorkód megnyitva, GPU-t használ a gyorsításhoz

A GPU-kkal való együttműködéshez az NVIDIA részvételével kifejlesztett készletet használnak nyisd ki könyvtárak ZUHATAG, amely lehetővé teszi olyan adatfeldolgozó és elemző alkalmazások létrehozását, amelyek teljes mértékben a GPU oldalon futnak (ezt a Python felület alacsony szintű CUDA-primitívek használatára és a számítások párhuzamosítására).

A BlazingSQL lehetőséget biztosít az SQL használatára adatfeldolgozási API-k helyett cuUDF (az alapon Apache nyíl) használják a RAPIDS-ben. A BlazingSQL egy további réteg, amely a cuDF tetején fut, és a cuIO könyvtárat használja az adatok lemezről történő olvasására. Az SQL-lekérdezéseket cuUDF-függvények hívásaira fordítják le, amelyek lehetővé teszik adatok betöltését a GPU-ba, valamint egyesítési, összesítési és szűrési műveletek végrehajtását. Több ezer GPU-t felölelő elosztott konfigurációk létrehozása támogatott.

A BlazingSQL nagyban leegyszerűsíti az adatokkal való munkát – a cuDF-függvények több száz hívása helyett egyetlen SQL-lekérdezést is használhat. Az SQL használata lehetővé teszi a RAPIDS integrálását a meglévő analitikai rendszerekkel anélkül, hogy speciális processzorokat kellene írni, és nem kellene közbenső adatokat betölteni egy további DBMS-be, de
miközben fenntartja a teljes kompatibilitást a RAPIDS minden részével, lefordítja a meglévő funkciókat SQL-be, és cuDF szintű teljesítményt biztosít. Ez magában foglalja a könyvtárakkal való integráció támogatását XGBoost и cuML az analitika és a gépi tanulás problémáinak megoldására.

Forrás: opennet.ru

Hozzászólás