Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
当我们将 NCrawler 与 SOLR 一起使用时,有没有办法运行增量爬取和索引?我不希望我的爬虫在每次爬取时都获取完整的数据。有什么方法可以使爬行增量?
提前致谢。
NCrawler 没有为此内置任何东西。您将需要创建自己的处理来处理此问题。但是,可扩展IPipelineStep机制将允许您围绕您想要的抓取创建任何进程。例如,您可以将每个访问过的 url 连同页面内容的哈希一起存储在数据库中,以确定页面何时更改并仅将更改的页面处理到索引中。
IPipelineStep