我有以下情况:
- 现有页面被 StormCrawler 抓取
- StormCrawler 将对应的文档添加到 Elasticsearch 索引中
- 该页面在服务器上被删除
=> 爬虫通过更新状态索引“检测”页面的删除:文档获得状态“FETCH_ERROR”(达到“max.fetch.errors”后状态为“ERROR”)。
问题:Elasticsearch-Index 仍然保留文档,但是由于页面已被删除,这没有任何意义。
查看配置,我还没有找到一种方法来告诉 StormCrawler 从 ES 索引中删除状态为“错误”的文档(例如已删除)。有没有办法使用 StormCrawler 来实现这一点,或者有没有理由为什么这是不可能的?
非常感谢您的帮助!