BlazingSQL SQL շարժիչի կոդը բաց է՝ օգտագործելով GPU արագացման համար

Հայտարարվել է SQL շարժիչի աղբյուրները բացելու մասին BlazingSQL, որն օգտագործում է GPU-ն տվյալների մշակումն արագացնելու համար: BlazingSQL-ը լիարժեք DBMS չէ, այլ դիրքավորված է որպես մեծ տվյալների հավաքածուներ վերլուծելու և մշակելու շարժիչ, որն իր առաջադրանքով համեմատելի է Apache Spark- ը. Կոդը գրված է Python-ով և բացել լիցենզավորված Apache 2.0-ի համաձայն:

BlazingSQL-ը հարմար է աղյուսակային ձևաչափերով (օրինակ՝ տեղեկամատյաններ, NetFlow վիճակագրություն և այլն) տվյալների մեծ հավաքածուների (տասնյակ գիգաբայթ) վրա պահվող մեկ վերլուծական հարցումներ կատարելու համար: BlazingSQL-ը կարող է հարցումներ կատարել CSV և Apache Parquet ձևաչափերով չմշակված ֆայլերից, որոնք տեղակայված են ցանցային և ամպային ֆայլային համակարգերում, ինչպիսիք են HDSF-ը և AWS S3-ը, ուղղակիորեն արդյունքը փոխանցելով GPU հիշողությանը: Շնորհիվ GPU-ում գործողությունների զուգահեռացման և ավելի արագ վիդեո հիշողության օգտագործման, BlazingSQL հարցումները կատարվում են ավելի քիչ, քան 20 անգամ ավելի արագ, քան Apache Spark-ը:

BlazingSQL SQL շարժիչի կոդը բաց է՝ օգտագործելով GPU արագացման համար

GPU-ների հետ աշխատելու համար օգտագործվում է NVIDIA-ի մասնակցությամբ մշակված հավաքածու բացել գրադարաններ ՇՏԱՊՈՄ, որը թույլ է տալիս ստեղծել տվյալների մշակման և վերլուծության հավելվածներ, որոնք ամբողջությամբ աշխատում են GPU-ի կողմից (տրամադրված է Python ինտերֆեյս օգտագործել ցածր մակարդակի CUDA պրիմիտիվներ և զուգահեռացնել հաշվարկները):

BlazingSQL-ն ապահովում է տվյալների մշակման API-ների փոխարեն SQL-ն օգտագործելու հնարավորություն cuUDF (հիմքի վրա Apache Arrow) օգտագործվում է RAPIDS-ում: BlazingSQL-ը լրացուցիչ շերտ է, որն աշխատում է cuDF-ի վերևում և օգտագործում է cuIO գրադարանը՝ սկավառակից տվյալները կարդալու համար: SQL հարցումները վերածվում են cuUDF ֆունկցիաների կանչերի, որոնք թույլ են տալիս բեռնել տվյալները GPU-ում և կատարել դրա վրա միաձուլման, ագրեգացման և զտման գործողություններ: Աջակցվում է բաշխված կոնֆիգուրացիաների ստեղծումը, որն ընդգրկում է հազարավոր GPU:

BlazingSQL-ը զգալիորեն հեշտացնում է տվյալների հետ աշխատանքը. cuDF ֆունկցիաներին հարյուրավոր զանգերի փոխարեն կարող եք օգտագործել մեկ SQL հարցում: SQL-ի օգտագործումը հնարավորություն է տալիս ինտեգրել RAPIDS-ը գոյություն ունեցող վերլուծական համակարգերի հետ՝ առանց հատուկ պրոցեսորներ գրելու և առանց տվյալների միջանկյալ բեռնման լրացուցիչ DBMS-ի մեջ դիմելու, բայց
միևնույն ժամանակ պահպանելով ամբողջական համատեղելիությունը RAPIDS-ի բոլոր մասերի հետ՝ թարգմանելով առկա ֆունկցիոնալությունը SQL-ի և ապահովելով կատարողականություն cuDF մակարդակում: Սա ներառում է գրադարանների հետ ինտեգրման աջակցություն XGBoost и cuML վերլուծության և մեքենայական ուսուցման խնդիրների լուծման համար։

Source: opennet.ru

Добавить комментарий