0

我正在尝试读取保存在 UNIX 本地文件系统中的 CSV 文件,在集群模式下运行它时找不到 CSV 文件。

在本地模式下,它可以读取 HDFS 和 file:/// 文件。但是,在集群模式下,它只能读取 HDFS 文件。

有没有合适的读取方式而不将其复制到 HDFS 中?

4

1 回答 1

0

请记住,执行程序需要能够访问文件,因此您必须从执行程序节点中脱颖而出。正如您提到的 HDFS,这意味着执行程序节点必须有权访问您的 HDFS 集群。

如果您希望 Spark 集群访问本地文件,请考虑 NFS/SMB 等。但是,最终会复制数据。

如果您在架构上添加更多详细信息,我可以更新我的答案。

于 2021-10-14T13:10:28.513 回答