我们为平台的每个版本运行许多脚本,我们希望使用 Snakemake 自动运行这些脚本。计划是在谷歌云上启动一个虚拟机并在那里运行snakemake,输入/输出文件的位置是从一个yaml文件中读取的。
除了使用 pyspark 并从 Google 存储桶读取源文件的脚本外,一切都运行良好。似乎 pyspark 使用 hadoop 从 gs:// 位置读取文件,因此需要使用 spark 正确配置 hadoop。
我们还没有弄清楚如何正确构建 Hadoop 环境,当我们运行 spark 脚本时,它总是说:
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
使用 dataproc 时,我们没有这样的问题,但我们无法重现该环境,而且我不确定是否可以向 dataproc 提交完整的 snakemake 管道及其所有依赖项。
是否可以在不使用 Dataproc 的情况下设置 Hadoop 环境?您对如何处理此工作流程有任何其他提示吗?