kubernetes - 在 Azure Kubernetes 服务 (AKS) 中处理 Dask Kubernetes 上的大数据

Question

我想对笔记本电脑硬盘中的 8gb 数据集（如 csv 文件）进行分析。我已经在 AKS 上设置了一个 dask kubernetes 集群，其中有 1 个调度程序和 3 个工作程序，每个 7 GB。

如何在 AKS 上使用这个 dask kubernetes 集群处理我的数据集？哪个文件系统在工作人员之间共享数据集最适合此目的？

任何我应该在哪里存储这个数据集的建议，以便我可以轻松地处理这个数据集。

该方法应该适用于 jupyter notebook 和 python 文件。

score 0 · Accepted Answer

您可能希望将数据上传到 Azure Blob 存储。这里有更多关于 dask 远程数据（包括 Azure）的信息：

1 回答 1