solr - 使用 NCrawler 运行增量爬网

Question

当我们将 NCrawler 与 SOLR 一起使用时，有没有办法运行增量爬取和索引？我不希望我的爬虫在每次爬取时都获取完整的数据。有什么方法可以使爬行增量？

提前致谢。

score 2 · Accepted Answer

NCrawler 没有为此内置任何东西。您将需要创建自己的处理来处理此问题。但是，可扩展IPipelineStep机制将允许您围绕您想要的抓取创建任何进程。例如，您可以将每个访问过的 url 连同页面内容的哈希一起存储在数据库中，以确定页面何时更改并仅将更改的页面处理到索引中。

1 回答 1