solr - Nutch 没有将文档移动到状态 DB_GONE

Question

根据我对 Nutch 的理解，当 Nutch 进行重新抓取并尝试获取不再存在的文档时，它会生成 404 并将该文档的状态设置为 DB_GONE。当我用 Nutch 重新抓取时，它会生成 404 错误，但是当我执行以下操作时：

readdb folder/crawldb - stats

它将文件显示为 db_unfetched 而不是 db_gone。这导致了很大的问题，因为我无法让我的 Solr 索引保持最新

如果您想检查我的 Solr 或 Nutch 设置，请按照我的博客指南进行操作，它应该非常相似：http ://amac4.blogspot.co.uk

score 1 · Accepted Answer

检查nutch 配置文件中的db.fetch.retry.max属性。默认情况下，它设置为 3。只有在达到最大重试次数后，nutch 才会将文档标记为db_gone。即默认情况下，在第 3 次重试后 nutch 将标记文档db_gone，之前该状态将保持db_unfetched。

solr - Nutch 没有将文档移动到状态 DB_GONE

1 回答 1

Related

Reference