1

我正在寻找如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 spark 执行器的本地工作目录。

起初我想使用 spark-submit 的 --files FILES 选项,但它似乎不支持任意嵌套文件的文件夹。因此,看来我必须通过将此文件夹放在共享 HDFS 路径上,以便在运行作业之前由每个执行程序正确复制到其工作目录,但尚未找出如何在 Java 代码中正确执行此操作。

或者 zip/gzip/archive 这个文件夹,放到共享的 HDFS 路径下,然后将压缩包解压到每个 Spark 执行器的本地工作目录。

感谢任何帮助或代码示例。

这是配置文件的文件夹,它们是计算的一部分,应与 spark-submit 主 jar 位于同一位置(例如,数据库文件,运行作业时使用的 jar 代码,不幸的是我无法更改此依赖关系,因为我我正在重用现有代码)。

问候,-尤里

4

0 回答 0