nutch - 在 nutch 1.3 中从 crawldb 中删除 url？

Question

我用 nutch 1.3 抓取网站。现在我想从 crawldb 中删除一个 url，我该怎么做？我如何从 crawldb 中读取？我想查看 crawldb 中存在的 url。

score 0 · Accepted Answer

要从 crawlDb 中读取，您可以使用 CrawlDBReader 类（org.apache.nutch.crawl 包）。要从 crawlDb 中删除/删除 url，您可以尝试使用带有“-filter”选项的 CrawlDBMerger 类（org.apache.nutch.crawl 包）。但我建议根据您的需要编写一个 Mapreduce 来删除 url。

nutch - 在 nutch 1.3 中从 crawldb 中删除 url？

1 回答 1

Related

Reference