Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在 nutch 中,在 solrindex 作业中,我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。
您可以使用它来查看统计信息和状态(fetched、not_modified、gone...)
bin/nutch readdb crawl/crawldb/ -stats
或者你可以转储 crawldb 以查看所有已爬取的 url 及其状态
bin/nutch readdb crawl/crawldb/ -dump whole_db vi whole_db/part-r-00000