hadoop - 多次运行的 Hadoop 启动时间

翻译自：https://stackoverflow.com/questions/13428515 2012-11-17T07:01:04.940

123 次

0

我有一个 hadoop job fat jar，用于定期多次运行具有不同参数的作业。每个作业的启动时间似乎都非常长。我的猜测是胖罐子每次都会转移到任务跟踪器。我不想手动将作业 jar 添加到每个类路径。是否可以将整个作业 jar 传输到 dist 缓存并多次运行？

1 回答 1

0

distributed cache你提到的，只不过是将你复制到JAR所有的任务跟踪器。

如果您的 fat-jar 不经常更改，您可以做的是将 jar 放入 Hadoop 的 lib 文件夹中。这些将包含在每个作业运行中。

于 2012-11-17T17:30:13.597 回答