3

Dask 支持哪些分布式文件系统?具体来说,可以从哪些文件系统读取 dask.dataframe 的?从 Dask 文档中,我可以看到肯定支持 HDFS。是否支持任何其他分布式文件系统,例如 Ceph 等?

我可以在这里找到一些关于支持其他文件系统的想法的讨论:https ://github.com/dask/distributed/issues/33但没有最终结论,除了 HDFS 比其他选项“更糟糕”。

感谢您的帮助!

4

2 回答 2

1

最简单的答案是,如果您可以将文件系统挂载到每个节点上,即它可以作为本地文件系统访问,那么您可以使用任何分布式系统——无需对任何给定文件块的原始位置进行任何性能优化。

如果您可以从元数据服务中获得数据位置(对于 ceph 来说是这样),您可以将加载任务限制为仅在数据所在的机器上运行。这没有实现,但从用户方面可能不会太复杂。过去对 hdfs 做过类似的事情,但我们发现优化并不能证明代码的额外复杂性是合理的。

于 2018-05-13T01:09:36.443 回答
1

Dask 当前支持哪些远程文件系统以及如何支持其他文件系统的文档可在此处获得:

于 2018-05-15T12:21:56.660 回答