1

有人可以引导我走向正确的方向。我正在尝试让 Nutch 在 Amazon EMR 上工作。到目前为止,我可以让 nutch 在本地运行并使用它附带的 shell 脚本启动它。

但是,在亚马逊上,我需要指定 JAR 位置和选项。我可以自己编译得到jar。但是,就启动选项而言,我不知道从哪里开始。

此外,1.x 和 Nutch 2.0 之间的主要区别是什么。是否在 EMR 上推荐一个而不是另一个?

4

1 回答 1

0

如果您仍在寻找答案:

构建 Nutch 时,您将在部署目录中看到一个作业 jar,将其上传到 S3 并在设置 EMR 作业流程时引用它,因为您是自定义 Jar。

然后,您可以添加步骤并提及主类,例如:org.apache.nutch.crawl.Crawl以及您想要的参数。这不会改变它在模式下的工作local方式。例如:urls -dir myCrawl -threads 10 -depth 5 -topN 1000

bin/nutch如果您打算使用 Crawl.java 以外的其他内容,则可以通过查看脚本来了解要使用的主类。

于 2014-05-05T11:02:40.507 回答