• 联系我们
  • 地址:湖北武汉三环科技园
  • 电话:159116031100
  • 传真:027-68834628
  • 邮箱:mmheng@foxmail.com
  • 当前所在位置:首页 - 瑶族文化
  • 滴滴云Notebook上使用 BlazingSQL 加速BI分析
  • 滴滴云Notebook上使用 BlazingSQL 加速BI分析

    BlazingSQL

    BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎,现在在 Apache 2.0 许可下开源。
    RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

    BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于Apache Arrow柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据,

    BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

    主要特性:

    查询本地和外部存储数据 - 单行代码可以注册远程存储解决方案,例如 Google Cloud Storage。

    简单的SQL - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。

    互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

    滴滴云平台团队在此基础上打通了滴滴云对象存储S3,使得BlazingSQL可以直接用SQL操作S3上的文件对象。支持的文件格式包括:csv,parquet, orc, gdf,json。

     举例

    如图创建 notebook SQL-GPU分析实例,输入大师码2048享受9折优惠。*注意选择16GB内存规格。然后在[我的对象存储密钥]拿到S3的AK,SK密钥, 成功创建 notebook 后,我们打开 python rapids 环境。

    我们来看一个分析 Graphistry Netflow Analysis 实际的例子,
    原始数据集来自:

    https://blazingsql-colab.s3.amazonaws.com/netflow_data/nf-chunk2.csv

    上图是读取S3 并进行SQL分析的例子。
    https://github.com/BlazingDB/bsql-demos/blob/master/vs_pyspark_netflow.ipynb

    这里是读取本地文件分析的例子,经过GPU加速后,比用spark分析快了6x。

     总结

    在滴滴云GPU notebook产品里,我们将易用性更进一步。结合我们的DAI notebook产品,可以直接在基于jupyter环境的notebook里进行SQL开发、调试、运行,简单易用。

    开发者不用关心底层CUDA和GPU技术细节,甚至不用了解CUDF,CUML的API,开发者可以聚焦和投入到数据分析最核心的业务逻辑上去,滴滴云DAI notebook产品和底层GPU云服务器,为这一切提供了强有力的底层技术支撑。更关键的是,物美价廉,性价比高!欢迎大家使用!

    另外敬请期待SaaS 版的BlazingSQL!输入AI大师码【1122】,滴滴云GPU全线产品享9折优惠。