0

我用 nutch 1.3 抓取网站。现在我想从 crawldb 中删除一个 url,我该怎么做?我如何从 crawldb 中读取?我想查看 crawldb 中存在的 url。

4

1 回答 1

0

要从 crawlDb 中读取,您可以使用 CrawlDBReader 类(org.apache.nutch.crawl 包)。要从 crawlDb 中删除/删除 url,您可以尝试使用带有“-filter”选项的 CrawlDBMerger 类(org.apache.nutch.crawl 包)。但我建议根据您的需要编写一个 Mapreduce 来删除 url。

于 2011-11-15T05:44:02.170 回答