nutch - 如何在 Nutch 中查找未获取 URLS 的深度和分数

翻译自：https://stackoverflow.com/questions/15597765 2013-03-24T11:17:58.347

508 次

0

嗨，我使用带有以下参数的 nutch 1.5.1 抓取了一个网站。-depth=20 和 -topN=800。现在我有相当多的 URLS（大约 6K）的状态为 db_unfetched。我想确定两件事：

为什么他们的状态无法获取。是否有某种方法可以跟踪抓取时忽略 URL 的原因。我检查了 URL 过滤器（它们都已到位）。
我可以找出 Nutch 发现每个 URL 的深度吗？是否在 20 深度处找到了所有未获取的页面（所有这些页面都有内容，因此没有 404 错误），或者某些页面在达到该深度之前就被忽略了。

我负担不起再次抓取该网站的费用，是否有任何命令可用于追溯 URLS 的评分并确定其深度。

0 回答 0