java - Nutch - 获取新发现的域

Question

我们正在使用 nutch 1.6 来抓取网页。根据 nutch 配置，应该给种子列表和域 url-filter 以遍历指定域。但是，如果它们的扩展名是 co.uk（仅适用于此扩展名），我们希望获取新发现的 url，我们可以通过将新发现的 url 的域添加到文件 - 或 db，无论如何 - 来管理它，停止爬虫，更新域 url-filters 和种子列表，然后重新启动它。但是我们如何动态地做到这一点，而不停止爬虫呢？

提前致谢。

PS：co.uk 域名扩展只是一个例子，我们也可以添加多个扩展来允许。

score 0 · Accepted Answer

知道了。

您可以在第 186-189 行将后缀添加到 domain-urlfilter.txt，例如“gov.uk”作为DomainURLFilter 源代码：

  if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀、域和主机。

此外，您可以将域 url 保存在 HBase 表中，并通过您自己的过滤器插件而不是使用 DomainURLFilter 来管理它们。

java - Nutch - 获取新发现的域

1 回答 1

Related

Reference