0

我想通过同时运行多个 apache nutch-1.6 实例来抓取多个网站。我是否应该在不同位置安装多个 apache nutch 副本并创建一个(或主).sh 文件来为每个副本执行 nutch crawl 命令?或者是否可以为多个实例配置一个 nutch 副本?

4

1 回答 1

0

我使用了“bin/crawl”脚本。同时在 2 个不同的终端上运行它。两者都在没有任何错误的情况下完成了执行(至少根据我的判断)。我为每个同时发生的实例提供了不同的种子目录和爬网目录。

但是,根据此处的另一个线程,它指出您必须通过提供不同的“配置”文件来运行 bin/nutch 命令,每次您想要运行不同的同时实例并为每个实例提供不同的 /tmp/ 路径时。我自己不必经历那个麻烦。上述方法对我来说效果很好

于 2016-03-18T10:54:53.767 回答