BlazingSQL SQL エンジン コードがオープン、GPU を使用して高速化

発表した SQL エンジンのソースのオープンについて ブレイジングSQL、GPU を使用してデータ処理を高速化します。 BlazingSQL は本格的な DBMS ではありませんが、大規模なデータ セットを分析および処理するためのエンジンとして位置付けられており、そのタスクは DBMS に匹敵します。 Apache Spark。 コードはPythonで書かれており、 開いている Apache 2.0 に基づいてライセンスされています。

BlazingSQL は、表形式で保存された大規模なデータ セット (数十ギガバイト) (ログ、NetFlow 統計など) に対して単一の分析クエリを実行するのに適しています。 BlazingSQL は、HDSF や AWS S3 などのネットワークおよびクラウド ファイル システムでホストされている CSV および Apache Parquet 形式の生ファイルからクエリを実行し、結果を GPU メモリに直接転送できます。 GPU での操作の並列化と高速ビデオ メモリの使用により、BlazingSQL クエリは XNUMX 時間未満で実行されます。 20回 Apache Spark よりも高速です。

BlazingSQL SQL エンジン コードがオープン、GPU を使用して高速化

GPU と連携するには、NVIDIA の参加により開発されたセットが使用されます 開いた ライブラリ 急流これにより、完全に GPU 側で実行されるデータ処理および分析アプリケーションを作成できます (提供: Pythonインターフェース 低レベルの CUDA プリミティブを使用し、計算を並列化します)。

BlazingSQL は、データ処理 API の代わりに SQL を使用する機能を提供します。 cuUDF (ベースに アパッチアロー) RAPIDS で使用されます。 BlazingSQL は、cuDF 上で実行される追加レイヤーであり、cuIO ライブラリを使用してディスクからデータを読み取ります。 SQL クエリは cuUDF 関数の呼び出しに変換され、これによりデータを GPU にロードし、マージ、集計、およびフィルタリング操作を実行できるようになります。 数千の GPU にわたる分散構成の作成がサポートされています。

BlazingSQL を使用すると、データの操作が大幅に簡素化されます。cuDF 関数を何百も呼び出す代わりに、XNUMX つの SQL クエリを使用できます。 SQL を使用すると、特定のプロセッサを作成したり、追加の DBMS にデータを中間ロードしたりすることなく、RAPIDS を既存の分析システムと統合できます。
RAPIDS のすべての部分との完全な互換性を維持しながら、既存の機能を SQL に変換し、cuDF レベルでのパフォーマンスを提供します。 これには、ライブラリとの統合のサポートが含まれます XGブースト и cuML 分析と機械学習の問題を解決します。

出所: オープンネット.ru

コメントを追加します