Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我用 nutch 1.3 抓取网站。现在我想从 crawldb 中删除一个 url,我该怎么做?我如何从 crawldb 中读取?我想查看 crawldb 中存在的 url。
要从 crawlDb 中读取,您可以使用 CrawlDBReader 类(org.apache.nutch.crawl 包)。要从 crawlDb 中删除/删除 url,您可以尝试使用带有“-filter”选项的 CrawlDBMerger 类(org.apache.nutch.crawl 包)。但我建议根据您的需要编写一个 Mapreduce 来删除 url。