0

我们正在使用 nutch 1.6 来抓取网页。根据 nutch 配置,应该给种子列表和域 url-filter 以遍历指定域。但是,如果它们的扩展名是 co.uk(仅适用于此扩展名),我们希望获取新发现的 url,我们可以通过将新发现的 url 的域添加到文件 - 或 db,无论如何 - 来管理它,停止爬虫,更新域 url-filters 和种子列表,然后重新启动它。但是我们如何动态地做到这一点,而不停止爬虫呢?

提前致谢。

PS:co.uk 域名扩展只是一个例子,我们也可以添加多个扩展来允许。

4

1 回答 1

0

知道了。

您可以在第 186-189 行将后缀添加到 domain-urlfilter.txt,例如“gov.uk”作为DomainURLFilter 源代码

  if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀、域和主机。

此外,您可以将域 url 保存在 HBase 表中,并通过您自己的过滤器插件而不是使用 DomainURLFilter 来管理它们。

于 2013-04-09T10:42:44.477 回答