hadoop - 有哪些方法可以顺序运行多个 Pig 脚本？

Question

我需要在 Hadoop 中按顺序运行一些 Pig 脚本。它们必须单独运行。有什么建议么？

更新

只是一个快速更新，我们正在努力从一个 Java 类运行 Pig 脚本。Oozie 是评论中提到的一种可能性（尽管对于我们的需求来说太重了）。我还听说可以将 Pig 脚本编排为 Cascading ( http://www.cascading.org/ ) 中更大工作流程的一部分，并对其进行了一些研究。

score 2 · Accepted Answer

对于一个简单的任务序列，我猜 orangeoctopus 建议的可能就足够了。如果您想将猪和/或普通 MapReduce 的更复杂的工作流程组合在一起，您可能应该看看Oozie

更新：

如果您使用的是 pig 0.9，您还可以查看将 pig 嵌入到诸如 python 之类的语言中。这是链接

score 1 · Accepted Answer

在实践中，我将大部分 Pig 脚本包装在 bash 脚本中。您可以控制 shell 脚本内部的顺序执行：

pig myscript1.pig && pig myscript2.pig && pig myscript3.pig

hadoop - 有哪些方法可以顺序运行多个 Pig 脚本？

2 回答 2

Related

Reference