我试图了解 BlazingSQL 是竞争对手还是 dask 的补充。
我有一些中型数据(10-50GB)保存为 Azure blob 存储中的 parquet 文件。
dask_cudf
IIUC 我可以使用 SQL 语法通过 BlazingSQL 查询、加入、聚合、分组,但我也可以使用 python/ dataframe 语法将数据读入 CuDF并执行所有相同的操作。
所以,在我看来,他们是直接竞争对手?
使用 dask 的(其中一个)好处是它可以在分区上运行,因此可以在大于 GPU 内存的数据集上运行,而 BlazingSQL 仅限于 GPU 上可以容纳的东西,这是否正确?
为什么要选择使用 BlazingSQL 而不是 dask?
编辑:
文档谈论dask_cudf
但实际的回购已存档,说现在支持 daskcudf
本身。最好知道如何dask
利用cudf