Mã công cụ SQL BlazingSQL mở, sử dụng GPU để tăng tốc

Công bố về việc mở các nguồn của công cụ SQL SQL rực rỡ, sử dụng GPU để tăng tốc độ xử lý dữ liệu. BlazingSQL không phải là một DBMS chính thức, nhưng được định vị là một công cụ để phân tích và xử lý các tập dữ liệu lớn, có thể so sánh các nhiệm vụ của nó với Apache Spark. Mã này được viết bằng Python và đang mở được cấp phép theo Apache 2.0.

BlazingSQL phù hợp để thực hiện các truy vấn phân tích đơn lẻ trên các tập dữ liệu lớn (hàng chục gigabyte) được lưu trữ ở định dạng bảng (ví dụ: nhật ký, thống kê NetFlow, v.v.). BlazingSQL có thể chạy truy vấn từ các tệp thô ở định dạng CSV và Apache Parquet được lưu trữ trên hệ thống tệp mạng và đám mây như HDSF và AWS S3, chuyển trực tiếp kết quả sang bộ nhớ GPU. Nhờ khả năng song song hóa các hoạt động trong GPU và sử dụng bộ nhớ video nhanh hơn, các truy vấn BlazingSQL thực hiện trong thời gian ít hơn Lần 20 nhanh hơn Apache Spark.

Mã công cụ SQL BlazingSQL mở, sử dụng GPU để tăng tốc

Để hoạt động với GPU, một bộ được phát triển với sự tham gia của NVIDIA được sử dụng mở thư viện NHANH CHÓNG, cho phép bạn tạo các ứng dụng phân tích và xử lý dữ liệu chạy hoàn toàn trên GPU (được cung cấp bởi Giao diện Python để sử dụng các nguyên hàm CUDA cấp thấp và tính toán song song).

BlazingSQL cung cấp khả năng sử dụng SQL thay vì API xử lý dữ liệu cuUDF (trên cơ sở Mũi tên Apache) được sử dụng trong RAPIDS. BlazingSQL là một lớp bổ sung chạy trên cuDF và sử dụng thư viện cuIO để đọc dữ liệu từ đĩa. Các truy vấn SQL được dịch thành các lệnh gọi đến các hàm cuUDF, cho phép bạn tải dữ liệu vào GPU và thực hiện các hoạt động hợp nhất, tổng hợp và lọc trên đó. Hỗ trợ việc tạo các cấu hình phân tán trải rộng trên hàng nghìn GPU.

BlazingSQL đơn giản hóa đáng kể việc làm việc với dữ liệu - thay vì hàng trăm lệnh gọi đến hàm cuDF, bạn có thể sử dụng một truy vấn SQL. Việc sử dụng SQL giúp có thể tích hợp RAPIDS với các hệ thống phân tích hiện có mà không cần ghi các bộ xử lý cụ thể và không cần dùng đến việc tải dữ liệu trung gian vào một DBMS bổ sung, nhưng
đồng thời duy trì khả năng tương thích hoàn toàn với tất cả các phần của RAPIDS, chuyển chức năng hiện có sang SQL và cung cấp hiệu suất ở cấp độ cuDF. Điều này bao gồm hỗ trợ tích hợp với các thư viện. XGBoost и cuML để giải quyết các vấn đề về phân tích và học máy.

Nguồn: opennet.ru

Thêm một lời nhận xét