BlazingSQL SQL引擎程式碼開放,使用GPU進行加速

宣布 關於開放SQL引擎的原始碼 熾烈的SQL,它使用GPU來加速資料處理。 BlazingSQL 不是一個成熟的 DBMS,而是定位為分析和處理大型資料集的引擎,其任務類似於 Apache Spark。 該程式碼是用 Python 編寫的,並且 是開放的 在 Apache 2.0 下獲得許可。

BlazingSQL 適合用於以表格格式儲存的大型資料集(數十 GB)(例如日誌、NetFlow 統計資料等)執行單一分析查詢。 BlazingSQL 可以對託管在 HDSF 和 AWS S3 等網路和雲端檔案系統上的 CSV 和 Apache Parquet 格式的原始檔案執行查詢,並將結果直接傳輸到 GPU 記憶體。 由於 GPU 中的平行操作以及更快的視訊記憶體的使用,BlazingSQL 查詢的執行時間小於 20次 比 Apache Spark 更快。

BlazingSQL SQL引擎程式碼開放,使用GPU進行加速

為了與 GPU 搭配使用,使用了 NVIDIA 參與開發的套件 打開 圖書館 急流,它允許您創建完全在 GPU 端運行的資料處理和分析應用程式(由 Python介面 使用低階 CUDA 原語並並行化計算)。

BlazingSQL 提供了使用 SQL 而不是資料處理 API 的能力 銅UDF (在底座上 阿帕奇箭)用於 RAPIDS。 BlazingSQL 是在 cuDF 之上運行的附加層,並使用 cuIO 函式庫從磁碟讀取資料。 SQL 查詢會轉換為對 cuUDF 函數的調用,它允許您將資料載入到 GPU 中並對其執行合併、聚合和過濾操作。 支援建立跨越數千個 GPU 的分散式配置。

BlazingSQL 大大簡化了資料處理 - 您可以使用一個 SQL 查詢,而不是對 cuDF 函數進行數百次呼叫。 SQL 的使用使得將 RAPIDS 與現有分析系統整合成為可能,無需編寫特定的處理器,也無需將資料中間載入到額外的 DBMS 中,但是
同時保持與 RAPIDS 所有部分的完全相容性,將現有功能轉換為 SQL 並提供 cuDF 層級的效能。 這包括對與庫集成的支援。 XGBoost и 立方體語言 用於解決分析和機器學習問題。

來源: opennet.ru

添加評論