BlazingSQL SQL қозғалтқыш коды ашық, жеделдету үшін GPU пайдаланады

Жарияланды SQL қозғалтқышының көздерін ашу туралы BlazingSQL, ол деректерді өңдеуді жылдамдату үшін GPU пайдаланады. BlazingSQL толыққанды ДҚБЖ емес, бірақ оның тапсырмалары бойынша салыстыруға болатын үлкен деректер жиынын талдау және өңдеу үшін қозғалтқыш ретінде орналасқан. Apache Spark. Код Python тілінде жазылған және ашық Apache 2.0 бойынша лицензияланған.

BlazingSQL кестелік пішімдерде сақталған (мысалы, журналдар, NetFlow статистикасы және т. BlazingSQL нәтижені тікелей GPU жадына тасымалдай отырып, HDSF және AWS S3 сияқты желілік және бұлттық файлдық жүйелерде орналастырылған CSV және Apache Parquet пішіміндегі өңделмеген файлдардан сұрауларды орындай алады. GPU-дағы операцияларды параллелизациялау және жылдамырақ бейнежадты пайдалану арқасында BlazingSQL-де сұраулар 20 рет Apache Spark қарағанда жылдамырақ.

BlazingSQL SQL қозғалтқыш коды ашық, жеделдету үшін GPU пайдаланады

GPU-мен жұмыс істеу үшін NVIDIA қатысуымен жасалған жиынтық пайдаланылады ашық кітапханалар РАПИДС, ол толығымен GPU жағында жұмыс істейтін деректерді өңдеу және аналитикалық қолданбаларды жасауға мүмкіндік береді (берілген: Python интерфейсі төмен деңгейлі CUDA примитивтерін пайдалану және есептеулерді параллельдеу).

BlazingSQL деректерді өңдеу API интерфейстерінің орнына SQL пайдалану мүмкіндігін береді cuUDF (негізінде Apache көрсеткі) RAPIDS-те қолданылады. BlazingSQL - cuDF үстінде жұмыс істейтін және дискіден деректерді оқу үшін cuIO кітапханасын пайдаланатын қосымша қабат. SQL сұраулары GPU-ға деректерді жүктеуге және онда біріктіру, біріктіру және сүзу әрекеттерін орындауға мүмкіндік беретін cuUDF функцияларына қоңырауларға аударылады. Мыңдаған графикалық процессорларды қамтитын бөлінген конфигурацияларды жасауға қолдау көрсетіледі.

BlazingSQL деректермен жұмыс істеуді айтарлықтай жеңілдетеді - cuDF функцияларына жүздеген қоңыраулардың орнына бір SQL сұрауын пайдалануға болады. SQL қолдану RAPIDS-ті қолданыстағы аналитикалық жүйелермен, нақты процессорларды жазбай және деректерді қосымша ДҚБЖ-ға аралық жүктеуге жүгінбестен біріктіруге мүмкіндік береді, бірақ
RAPIDS бағдарламасының барлық бөліктерімен толық үйлесімділікті сақтай отырып, бар функционалдылықты SQL тіліне аудару және cuDF деңгейінде өнімділікті қамтамасыз ету. Бұл кітапханалармен интеграцияны қолдауды қамтиды XGBoost и cuML аналитика және машиналық оқыту мәселелерін шешуге арналған.

Ақпарат көзі: opennet.ru

пікір қалдыру