BlazingSQL SQL kod motora otvoren, koristeći GPU za ubrzanje

Najavljeno o otvaranju izvora SQL motora BlazingSQL, koji koristi GPU za ubrzavanje obrade podataka. BlazingSQL nije potpuni DBMS, ali je pozicioniran kao motor za analizu i obradu velikih skupova podataka, usporediv u svojim zadacima s Apache Spark. Kod je napisan u Pythonu i otvoren licenciran pod Apache 2.0.

BlazingSQL je prikladan za izvođenje pojedinačnih analitičkih upita na velikim skupovima podataka (desetke gigabajta) pohranjenih u tabelarnim formatima (na primjer, zapisnici, NetFlow statistika, itd.). BlazingSQL može pokrenuti upite iz neobrađenih datoteka u formatima CSV i Apache Parquet koji se nalaze na mrežnim i cloud sustavima datoteka kao što su HDSF i AWS S3, izravno prenoseći rezultat u GPU memoriju. Zahvaljujući paralelizaciji operacija u GPU-u i korištenju brže video memorije, upiti u BlazingSQL-u izvršavaju se do 20 puta brži od Apache Spark.

BlazingSQL SQL kod motora otvoren, koristeći GPU za ubrzanje

Za rad s GPU-om koristi se set razvijen uz sudjelovanje NVIDIA-e otvoren knjižnicama BRZICE, koji vam omogućuje stvaranje aplikacija za obradu podataka i analitiku koje se u potpunosti izvode na strani GPU-a (omogućuje Python sučelje koristiti CUDA primitive niske razine i paralelizirati izračune).

BlazingSQL pruža mogućnost korištenja SQL-a umjesto API-ja za obradu podataka cuUDF (na bazi Apache Arrow) koristi se u RAPIDS-u. BlazingSQL je dodatni sloj koji radi povrh cuDF-a i koristi biblioteku cuIO za čitanje podataka s diska. SQL upiti prevode se u pozive funkcija cuUDF, koje vam omogućuju učitavanje podataka u GPU i izvođenje operacija spajanja, združivanja i filtriranja na njima. Podržano je stvaranje distribuiranih konfiguracija koje obuhvaćaju tisuće GPU-a.

BlazingSQL uvelike pojednostavljuje rad s podacima - umjesto stotina poziva cuDF funkcija, možete koristiti jedan SQL upit. Korištenje SQL-a omogućuje integraciju RAPIDS-a s postojećim analitičkim sustavima, bez pisanja specifičnih procesora i bez pribjegavanja međuučitavanju podataka u dodatni DBMS, ali
uz zadržavanje pune kompatibilnosti sa svim dijelovima RAPIDS-a, prevođenje postojeće funkcionalnosti u SQL i pružanje performansi na razini cuDF-a. To uključuje podršku za integraciju s knjižnicama XGBoost и cuML za rješavanje problema analitike i strojnog učenja.

Izvor: opennet.ru

Dodajte komentar