6

我正在开始一个新的 Hadoop 项目,该项目将有多个 hadoop 作业(因此有多个 jar 文件)。使用 mercurial 进行源代码控制,我想知道组织存储库结构的最佳方式是什么?每个工作是否应该存在于单独的仓库中,或者将它们保持在相同的位置会更有效,但分解为文件夹?

4

1 回答 1

1

如果您正在流水线化 Hadoop 作业(一个的输出是另一个的输入),我发现最好将其中的大部分保存在同一个存储库中,因为我倾向于生成许多可以在各种应用中使用的常用方法先生的工作。

就我个人而言,我将流媒体作业与我更传统的作业分开保存在一个单独的仓库中,因为通常没有依赖关系。

您是否打算使用 DistributedCache 或流式作业?您可能需要一个单独的目录来存放您分发的文件。每个 Hadoop 作业真的需要一个 JAR 吗?我发现我没有。

如果您提供有关您计划使用 Hadoop 做什么的更多详细信息,我可以看到我还有什么建议。

于 2010-06-02T04:34:44.943 回答