hadoop - 在 GCP 上运行 Spark 的问题

问问题 2021-02-16T12:27:33.227

55 次

我们为平台的每个版本运行许多脚本，我们希望使用 Snakemake 自动运行这些脚本。计划是在谷歌云上启动一个虚拟机并在那里运行snakemake，输入/输出文件的位置是从一个yaml文件中读取的。

除了使用 pyspark 并从 Google 存储桶读取源文件的脚本外，一切都运行良好。似乎 pyspark 使用 hadoop 从 gs:// 位置读取文件，因此需要使用 spark 正确配置 hadoop。

我们还没有弄清楚如何正确构建 Hadoop 环境，当我们运行 spark 脚本时，它总是说：

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

使用 dataproc 时，我们没有这样的问题，但我们无法重现该环境，而且我不确定是否可以向 dataproc 提交完整的 snakemake 管道及其所有依赖项。

是否可以在不使用 Dataproc 的情况下设置 Hadoop 环境？您对如何处理此工作流程有任何其他提示吗？

0 回答 0