0

在 nutch 中,在 solrindex 作业中,我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。

4

1 回答 1

0

您可以使用它来查看统计信息和状态(fetched、not_modified、gone...)

bin/nutch readdb crawl/crawldb/ -stats

或者你可以转储 crawldb 以查看所有已爬取的 url 及其状态

bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000
于 2018-11-08T15:24:52.470 回答