BlazingSQL SQL引擎代码开放,使用GPU进行加速

公布 关于开放SQL引擎的源代码 炽烈的SQL,它使用GPU来加速数据处理。 BlazingSQL 不是一个成熟的 DBMS,而是定位为分析和处理大型数据集的引擎,其任务类似于 Apache Spark。 该代码是用 Python 编写的,并且 是开放的 在 Apache 2.0 下获得许可。

BlazingSQL 适合对以表格格式存储的大型数据集(数十 GB)(例如日志、NetFlow 统计信息等)执行单一分析查询。 BlazingSQL 可以对托管在 HDSF 和 AWS S3 等网络和云文件系统上的 CSV 和 Apache Parquet 格式的原始文件运行查询,并将结果直接传输到 GPU 内存。 由于 GPU 中操作的并行化以及更快视频内存的使用,BlazingSQL 中的查询执行次数可达 20次 比 Apache Spark 更快。

BlazingSQL SQL引擎代码开放,使用GPU进行加速

为了与 GPU 配合使用,使用了 NVIDIA 参与开发的套件 开放 图书馆 急流,它允许您创建完全在 GPU 端运行的数据处理和分析应用程序(由 Python接口 使用低级 CUDA 原语并并行化计算)。

BlazingSQL 提供了使用 SQL 而不是数据处理 API 的能力 铜UDF (在底座上 阿帕奇箭)用于 RAPIDS。 BlazingSQL 是在 cuDF 之上运行的附加层,并使用 cuIO 库从磁盘读取数据。 SQL 查询被转换为对 cuUDF 函数的调用,它允许您将数据加载到 GPU 中并对其执行合并、聚合和过滤操作。 支持创建跨越数千个 GPU 的分布式配置。

BlazingSQL 极大地简化了数据处理 - 您可以使用一个 SQL 查询,而不是数百次调用 cuDF 函数。 SQL 的使用使得将 RAPIDS 与现有分析系统集成成为可能,无需编写特定的处理器,也无需将数据中间加载到额外的 DBMS 中,但是
同时保持与 RAPIDS 所有部分的完全兼容性,将现有功能转换为 SQL 并提供 cuDF 级别的性能。 这包括支持与库集成 XGBoost и 立方体语言 用于解决分析和机器学习问题。

来源: opennet.ru

添加评论