0

根据我对 Nutch 的理解,当 Nutch 进行重新抓取并尝试获取不再存在的文档时,它会生成 404 并将该文档的状态设置为 DB_GONE。当我用 Nutch 重新抓取时,它会生成 404 错误,但是当我执行以下操作时:

readdb folder/crawldb - stats

它将文件显示为 db_unfetched 而不是 db_gone。这导致了很大的问题,因为我无法让我的 Solr 索引保持最新

如果您想检查我的 Solr 或 Nutch 设置,请按照我的博客指南进行操作,它应该非常相似:http ://amac4.blogspot.co.uk

4

1 回答 1

1

检查nutch 配置文件中的db.fetch.retry.max属性。默认情况下,它设置为 3。只有在达到最大重试次数后,nutch 才会将文档标记为db_gone。即默认情况下,在第 3 次重试后 nutch 将标记文档db_gone,之前该状态将保持db_unfetched

于 2013-08-20T06:43:53.667 回答