我想在远程系统上运行 Samza 作业,并将 Samza 作业存储在 HDFS 上。在煤机上运行 Samza 作业的示例 ( https://samza.apache.org/startup/hello-samza/0.7.0/ ) 包括构建 tar 文件,然后解压缩 tar 文件,然后运行 shell 脚本它位于 tar 文件中。
这里的 HDFS 示例根本没有很好的记录(https://samza.apache.org/learn/tutorials/0.7.0/deploy-samza-job-from-hdfs.html)。它说将 tar 文件复制到 HDFS,然后按照非 HDFS 示例中的其他步骤进行操作。
这意味着现在驻留在 HDFS 上的 tar 文件需要在 HDFS 中解压缩,然后在该解压缩的 tar 文件上运行一个 shell 脚本。但是您不能使用 hadoop fs shell 解压 HDFS tar 文件...
如果不解压缩 tar 文件,您将无权访问 run-job.sh 来启动 Samza 作业。
有没有人设法让这个工作?