我想知道,如何显示本地文件爬取的完成百分比?
我将使用 Nutch 抓取单个共享磁盘。
更新:
如果我使用“ls -R”或“find ~”提前获取所有文件名,并将它们存储为种子怎么办?这样我们就知道文件的总数。
我想知道,如何显示本地文件爬取的完成百分比?
我将使用 Nutch 抓取单个共享磁盘。
更新:
如果我使用“ls -R”或“find ~”提前获取所有文件名,并将它们存储为种子怎么办?这样我们就知道文件的总数。
由于 Nutch 的性质,这是不可能的。
Nutch 通过从根节点(种子)开始抓取内容并从中找到任何外链,迭代地抓取它们,直到没有更多链接或达到抓取限制。
由于 Nutch 不知道要抓取的节点的完整数量,因此无法计算百分比。
您可以在此处找到 Nutch 的概述:http ://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch
监视 Nutch 爬行的替代方法:https ://wiki.apache.org/nutch/MonitoringNutchCrawls
编辑:我想你可以从 SOLR 中获取索引文档计数,或者编写一个插件,每次抓取文件时都会增加一个计数器......
更大的问题是,你想解决什么问题?