Cod injan BlazingSQL SQL ar agor, gan ddefnyddio GPU ar gyfer cyflymiad

Cyhoeddwyd am agor ffynonellau'r injan SQL BlazingSQL, sy'n defnyddio'r GPU i gyflymu prosesu data. Nid yw BlazingSQL yn DBMS cyflawn, ond mae wedi'i leoli fel peiriant ar gyfer dadansoddi a phrosesu setiau data mawr, y gellir eu cymharu yn ei dasgau Γ’ Apache Spark. Mae'r cod wedi'i ysgrifennu yn Python a agored trwyddedig o dan Apache 2.0.

Mae BlazingSQL yn addas ar gyfer perfformio ymholiadau dadansoddol sengl ar setiau data mawr (degau o gigabeit) wedi'u storio mewn fformatau tabl (er enghraifft, logiau, ystadegau NetFlow, ac ati). Gall BlazingSQL redeg ymholiadau o ffeiliau amrwd mewn fformatau CSV ac Apache Parquet a gynhelir ar systemau ffeiliau rhwydwaith a chymylau fel HDSF ac AWS S3, gan drosglwyddo'r canlyniad yn uniongyrchol i gof GPU. Diolch i gyfochrogiad gweithrediadau yn y GPU a'r defnydd o gof fideo cyflymach, mae ymholiadau BlazingSQL yn gweithredu mewn llai na 20 gwaith yn gyflymach nag Apache Spark.

Cod injan BlazingSQL SQL ar agor, gan ddefnyddio GPU ar gyfer cyflymiad

I weithio gyda GPUs, defnyddir set a ddatblygwyd gyda chyfranogiad NVIDIA agored llyfrgelloedd RAPIDAU, sy'n eich galluogi i greu cymwysiadau prosesu data a dadansoddeg sy'n rhedeg yn gyfan gwbl ar ochr GPU (a ddarperir gan Rhyngwyneb Python defnyddio cyntefigion CUDA lefel isel a chyfateb cyfrifiadau).

Mae BlazingSQL yn darparu'r gallu i ddefnyddio SQL yn lle APIs prosesu data cuUDF (ar y gwaelod Saeth Apache) a ddefnyddir yn RAPIDS. Mae BlazingSQL yn haen ychwanegol sy'n rhedeg ar ben cuDF ac yn defnyddio'r llyfrgell cuIO i ddarllen data o ddisg. Mae ymholiadau SQL yn cael eu trosi'n alwadau i swyddogaethau cuUDF, sy'n eich galluogi i lwytho data i'r GPU a pherfformio gweithrediadau uno, cydgasglu a hidlo arno. Cefnogir creu ffurfweddiadau dosbarthedig sy'n rhychwantu miloedd o GPUs.

Mae BlazingSQL yn symleiddio gweithio gyda data yn fawr - yn lle cannoedd o alwadau i swyddogaethau cuDF, gallwch ddefnyddio un ymholiad SQL. Mae'r defnydd o SQL yn ei gwneud hi'n bosibl integreiddio RAPIDS gyda systemau dadansoddeg presennol, heb ysgrifennu proseswyr penodol a heb droi at lwytho data yn y canol i mewn i DBMS ychwanegol, ond
tra'n cynnal cydnawsedd llawn Γ’ phob rhan o RAPIDS, trosi swyddogaethau presennol yn SQL a darparu perfformiad ar lefel cuDF. Mae hyn yn cynnwys cymorth ar gyfer integreiddio Γ’ llyfrgelloedd XGBoost ΠΈ cuML ar gyfer datrys problemau dadansoddeg a dysgu peirianyddol.

Ffynhonnell: opennet.ru

Ychwanegu sylw