nutch - 如何使 nutch 履带式爬行

Question

当我使用 wiki 时，我对 nutch 有一些疑问，我被要求编辑crawl-urlfilter.txt

+^http://([a-z0-9]*\.)*apache.org/

我被要求创建一个 url 文件夹和一个 url 列表...

我需要在crawl-urlfilter.txturl 列表中和列表中创建所有链接吗？

score 0 · Accepted Answer

是和不是。

crawl-urlfiler.txt 充当过滤器，因此在您的示例中，只有 apache.org 上的 url 才会被抓取

url 文件夹提供了让爬虫启动的“种子”url。因此，如果您希望爬虫停留在一组站点中，您将需要确保它们与过滤器具有正匹配......否则它将爬取整个网络。这可能意味着您必须将网站列表放入过滤器中

1 回答 1