Kode mesin BlazingSQL SQL terbuka, menggunakan GPU untuk akselerasi

Diumumkan tentang membuka sumber mesin SQL SQL yang menyala-nyala, yang menggunakan GPU untuk mempercepat pemrosesan data. BlazingSQL bukanlah DBMS yang lengkap, tetapi diposisikan sebagai mesin untuk menganalisis dan memproses kumpulan data besar, tugasnya sebanding dengan Apache Spark. Kode ini ditulis dengan Python dan terbuka berlisensi di bawah Apache 2.0.

BlazingSQL cocok untuk melakukan kueri analitik tunggal pada kumpulan data besar (puluhan gigabyte) yang disimpan dalam format tabel (misalnya, log, statistik NetFlow, dll.). BlazingSQL dapat menjalankan kueri dari file mentah dalam format CSV dan Apache Parket yang dihosting di sistem file jaringan dan cloud seperti HDSF dan AWS S3, langsung mentransfer hasilnya ke memori GPU. Berkat paralelisasi operasi di GPU dan penggunaan memori video yang lebih cepat, kueri BlazingSQL dijalankan dalam waktu kurang dari 20 kali lebih cepat dari Apache Spark.

Kode mesin BlazingSQL SQL terbuka, menggunakan GPU untuk akselerasi

Untuk bekerja dengan GPU, kit yang dikembangkan dengan partisipasi NVIDIA digunakan membuka perpustakaan CEPAT, yang memungkinkan Anda membuat aplikasi pemrosesan dan analitik data yang berjalan sepenuhnya di sisi GPU (disediakan oleh Antarmuka ular piton untuk menggunakan primitif CUDA tingkat rendah dan memparalelkan penghitungan).

BlazingSQL menyediakan kemampuan untuk menggunakan SQL alih-alih API pemrosesan data cuUDF (di pangkalan Apache Panah) digunakan dalam RAPIDS. BlazingSQL adalah lapisan tambahan yang berjalan di atas cuDF dan menggunakan perpustakaan cuIO untuk membaca data dari disk. Kueri SQL diterjemahkan menjadi panggilan ke fungsi cuUDF, yang memungkinkan Anda memuat data ke dalam GPU dan melakukan operasi penggabungan, agregasi, dan pemfilteran di dalamnya. Pembuatan konfigurasi terdistribusi yang mencakup ribuan GPU didukung.

BlazingSQL sangat menyederhanakan pekerjaan dengan data - alih-alih ratusan panggilan ke fungsi cuDF, Anda dapat menggunakan satu kueri SQL. Penggunaan SQL memungkinkan untuk mengintegrasikan RAPIDS dengan sistem analitik yang ada, tanpa menulis prosesor tertentu dan tanpa menggunakan pemuatan data perantara ke dalam DBMS tambahan, tetapi
sambil mempertahankan kompatibilitas penuh dengan semua bagian RAPIDS, menerjemahkan fungsionalitas yang ada ke dalam SQL dan memberikan kinerja pada tingkat cuDF. Ini termasuk dukungan untuk integrasi dengan perpustakaan XGBoost ΠΈ cumML untuk memecahkan masalah analitik dan pembelajaran mesin.

Sumber: opennet.ru

Tambah komentar