1

我正在尝试以一种可以通过一个包含所有依赖项的 JAR 文件访问其所有功能的方式运行 Nutch 爬虫。

例如,

java -jar nutch-all-1.2.jar -crawl <other params>

并在稍后阶段,用 hadoop 调用它。

目前,做一个

java -jar nutch-1.2.jar 

在 nutch 目录中存在的 JAR 文件上会导致错误,

Failed to load Main-Class manifest attribute from
nutch-1.2.jar

我相信这是因为这个特定的 JAR 不包含清单 XML 文件或其他依赖的 JAR。为此,您会推荐什么作为将 nutch 构建到一个 JAR 中的最佳方法?

谢谢!

4

1 回答 1

1

在环顾四周后,我意识到以简单的方式从命令行运行 Nutch,可以使用 nutch.job 文件代替。语法是,

hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1
于 2011-03-02T22:11:54.333 回答