根据我对 Nutch 的理解,当 Nutch 进行重新抓取并尝试获取不再存在的文档时,它会生成 404 并将该文档的状态设置为 DB_GONE。当我用 Nutch 重新抓取时,它会生成 404 错误,但是当我执行以下操作时:
readdb folder/crawldb - stats
它将文件显示为 db_unfetched 而不是 db_gone。这导致了很大的问题,因为我无法让我的 Solr 索引保持最新
如果您想检查我的 Solr 或 Nutch 设置,请按照我的博客指南进行操作,它应该非常相似:http ://amac4.blogspot.co.uk