2

我想有两个文件 seed.txt 和 seed2.txt 并且在每个文件中都有不同的 url。在seed.txt 中,我想成为前任的爬行深度。2和seed2.txt中的深度为3。
有什么解决方案或解决方法可以做到这一点吗?

4

1 回答 1

1

我想有两个文件 seed.txt 和 seed2.txt 并且在每个文件中都有不同的 url

您需要按原样维护种子文件名;不要将其重命名为 seed2 等。相反,您可以创建两个单独的 urls 目录,其中每个包含不同的 url 集的种子文件。前任。文件夹“urls1”将有一个seed.txt,另一个文件夹“urls2”将有另一个带有一组不同url 的seed.txt。但也要确保创建单独的爬取目录,爬取数据将进入(例如,在“urls1”文件夹中为seed.txt创建一个“crawl1”目录,为“urls2”中的“seeds.txt”创建一个“crawl2”目录.

在seed.txt 中,我想成为前任的爬行深度。2 并且在 seed2.txt 中深度为 3。

您应该在抓取命令中指定深度值,而不是在seed.txt 中。在您的情况下,如果在同一台机器上运行,请在单独的终端中运行以下命令(前提是您的 nutch/hadoop 配置支持并行运行多个爬网作业。

  • bin/nutch 抓取 urls1 -dir crawl1 -depth 2

  • bin/nutch 抓取 urls2 -dir crawl2 -depth 3

希望这有帮助!

于 2013-04-01T20:01:58.767 回答