2

当我使用 wiki 时,我对 nutch 有一些疑问,我被要求编辑crawl-urlfilter.txt

+^http://([a-z0-9]*\.)*apache.org/

我被要求创建一个 url 文件夹和一个 url 列表...

我需要在crawl-urlfilter.txturl 列表中和列表中创建所有链接吗?

4

1 回答 1

0

是和不是。

crawl-urlfiler.txt 充当过滤器,因此在您的示例中,只有 apache.org 上的 url 才会被抓取

url 文件夹提供了让爬虫启动的“种子”url。因此,如果您希望爬虫停留在一组站点中,您将需要确保它们与过滤器具有正匹配......否则它将爬取整个网络。这可能意味着您必须将网站列表放入过滤器中

于 2010-12-05T20:10:55.913 回答