1

当我们将 NCrawler 与 SOLR 一起使用时,有没有办法运行增量爬取和索引?我不希望我的爬虫在每次爬取时都获取完整的数据。有什么方法可以使爬行增量?

提前致谢。

4

1 回答 1

2

NCrawler 没有为此内置任何东西。您将需要创建自己的处理来处理此问题。但是,可扩展IPipelineStep机制将允许您围绕您想要的抓取创建任何进程。例如,您可以将每个访问过的 url 连同页面内容的哈希一起存储在数据库中,以确定页面何时更改并仅将更改的页面处理到索引中。

于 2013-03-21T12:11:38.490 回答