-1

我想知道,如何显示本地文件爬取的完成百分比?

我将使用 Nutch 抓取单个共享磁盘。

更新:

如果我使用“ls -R”或“find ~”提前获取所有文件名,并将它们存储为种子怎么办?这样我们就知道文件的总数。

4

1 回答 1

1

由于 Nutch 的性质,这是不可能的。

Nutch 通过从根节点(种子)开始抓取内容并从中找到任何外链,迭代地抓取它们,直到没有更多链接或达到抓取限制。

由于 Nutch 不知道要抓取的节点的完整数量,因此无法计算百分比。

您可以在此处找到 Nutch 的概述:http ://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch

监视 Nutch 爬行的替代方法:https ://wiki.apache.org/nutch/MonitoringNutchCrawls

编辑:我想你可以从 SOLR 中获取索引文档计数,或者编写一个插件,每次抓取文件时都会增加一个计数器......

更大的问题是,你想解决什么问题?

于 2013-10-16T22:18:14.717 回答