有人可以引导我走向正确的方向。我正在尝试让 Nutch 在 Amazon EMR 上工作。到目前为止,我可以让 nutch 在本地运行并使用它附带的 shell 脚本启动它。
但是,在亚马逊上,我需要指定 JAR 位置和选项。我可以自己编译得到jar。但是,就启动选项而言,我不知道从哪里开始。
此外,1.x 和 Nutch 2.0 之间的主要区别是什么。是否在 EMR 上推荐一个而不是另一个?
有人可以引导我走向正确的方向。我正在尝试让 Nutch 在 Amazon EMR 上工作。到目前为止,我可以让 nutch 在本地运行并使用它附带的 shell 脚本启动它。
但是,在亚马逊上,我需要指定 JAR 位置和选项。我可以自己编译得到jar。但是,就启动选项而言,我不知道从哪里开始。
此外,1.x 和 Nutch 2.0 之间的主要区别是什么。是否在 EMR 上推荐一个而不是另一个?
如果您仍在寻找答案:
构建 Nutch 时,您将在部署目录中看到一个作业 jar,将其上传到 S3 并在设置 EMR 作业流程时引用它,因为您是自定义 Jar。
然后,您可以添加步骤并提及主类,例如:org.apache.nutch.crawl.Crawl
以及您想要的参数。这不会改变它在模式下的工作local
方式。例如:urls -dir myCrawl -threads 10 -depth 5 -topN 1000
。
bin/nutch
如果您打算使用 Crawl.java 以外的其他内容,则可以通过查看脚本来了解要使用的主类。