3

我刚刚了解了蜘蛛框架 Anemone。它的网站说

注意:每个存储引擎都会在开始新的爬取之前清除现有的 Anemone 数据。

问题:我想知道是否可以避免这种情况,即保留已抓取的内容,并在新抓取期间刷新/更新副本?

理由:

我想使用 Anemone 作为远程网页的本地存储。然后,我现有的页面解析器可以从中访问 Nokogiri dom 文档对象。许多页面解析器将需要访问相同的 url 地址,因此这应该避免重复获取同一页面。

另外,Anemone 可能足够聪明,可以使用 http expire 标头来确定页面是否已更新,因此需要重新下载(因为它具有以前的 dom 文档)。

4

0 回答 0