BlazingSQL SQL-motorkodo malfermita, uzante GPU por akcelo

Anoncita pri malfermo de la fontoj de la SQL-motoro BlazingSQL, kiu uzas la GPU por akceli datumtraktadon. BlazingSQL ne estas plentaŭga DBMS, sed estas poziciigita kiel motoro por analizi kaj prilabori grandajn datumajn arojn, kompareblaj en siaj taskoj al Apache Spark. La kodo estas skribita en Python kaj malfermi licencita sub Apache 2.0.

BlazingSQL taŭgas por fari ununurajn analizajn demandojn sur grandaj datumseroj (dekoj da gigabajtoj) stokitaj en tabelaj formatoj (ekzemple, protokoloj, NetFlow-statistiko, ktp.). BlazingSQL povas fari demandojn de krudaj dosieroj en formatoj CSV kaj Apache Parquet gastigitaj en retaj kaj nubaj dosiersistemoj kiel HDSF kaj AWS S3, rekte transdonante la rezulton al GPU-memoro. Danke al paraleligo de operacioj en la GPU kaj la uzo de pli rapida videomemoro, demandoj en BlazingSQL estas efektivigitaj ĝis Nekunufoje pli rapide ol Apache Spark.

BlazingSQL SQL-motorkodo malfermita, uzante GPU por akcelo

Por labori kun GPUoj, aro evoluigita kun la partopreno de NVIDIA estas uzata malfermita bibliotekoj RAPIDOJ, kiu ebligas al vi krei datumtraktadon kaj analizajn aplikaĵojn kiuj funkcias tute ĉe la GPU-flanko (provizita de Python-interfaco uzi malaltnivelajn CUDA-primitivojn kaj paraleligi kalkulojn).

BlazingSQL disponigas la kapablon uzi SQL anstataŭe de API pri datumtraktado cuUDF (sur la bazo Apaĉa Sago) uzata en RAPIDS. BlazingSQL estas plia tavolo, kiu funkcias sur cuDF kaj uzas la cuIO-bibliotekon por legi datumojn de disko. SQL-demandoj estas tradukitaj en alvokojn al cuUDF-funkcioj, kiuj ebligas al vi ŝargi datumojn en la GPU kaj fari kunfandi, agregadon kaj filtrajn operaciojn sur ĝi. La kreado de distribuitaj agordoj ampleksantaj milojn da GPU-oj estas subtenata.

BlazingSQL multe simpligas labori kun datumoj - anstataŭ centoj da alvokoj al cuDF-funkcioj, vi povas uzi unu SQL-demandon. La uzo de SQL ebligas integri RAPIDS kun ekzistantaj analizaj sistemoj, sen verki specifajn procesorojn kaj sen recurri al meza ŝarĝo de datumoj en plian DBMS, sed
konservante plenan kongruecon kun ĉiuj partoj de RAPIDS, tradukante ekzistantan funkciecon en SQL kaj disponigante efikecon ĉe la cuDF-nivelo. Ĉi tio inkluzivas subtenon por integriĝo kun bibliotekoj XGBoost и cuML por solvi problemojn de analizo kaj maŝinlernado.

fonto: opennet.ru

Aldoni komenton