0

嗨,我使用带有以下参数的 nutch 1.5.1 抓取了一个网站。-depth=20 和 -topN=800。现在我有相当多的 URLS(大约 6K)的状态为 db_unfetched。我想确定两件事:

  1. 为什么他们的状态无法获取。是否有某种方法可以跟踪抓取时忽略 URL 的原因。我检查了 URL 过滤器(它们都已到位)。

  2. 我可以找出 Nutch 发现每个 URL 的深度吗?是否在 20 深度处找到了所有未获取的页面(所有这些页面都有内容,因此没有 404 错误),或者某些页面在达到该深度之前就被忽略了。

我负担不起再次抓取该网站的费用,是否有任何命令可用于追溯 URLS 的评分并确定其深度。

4

0 回答 0