3

我有 4 台机器,M1、M2、M3 和 M4。调度程序、客户端、工作程序在 M1 上运行。我在 M1 中放了一个 csv 文件。其余的机器是工人。

当我在 dask 中使用 read_csv 文件运行程序时。它给了我错误,找不到文件

4

1 回答 1

3

当您的一名工作人员尝试加载 CSV 时,它将无法找到它,因为它不在该本地磁盘上。这应该不足为奇。您可以通过多种方式解决此问题:

  • 将文件复制给每个工人;这在磁盘空间方面显然是浪费的,但最容易实现
  • 将文件放在网络文件系统(NFS 挂载、gluster、HDFS 等)上
  • 将文件放在外部存储系统(如 amazon S3)上并引用该位置
  • 在您的本地进程中加载​​数据并使用 scatter 进行分发;在这种情况下,数据可能足够小以适合内存,并且可能 dask 不会为您做太多事情。
于 2018-06-22T14:05:34.787 回答