ruby - Anemone 重新抓取时可以保留以前存储的页面吗

翻译自：https://stackoverflow.com/questions/13522961 2012-11-23T04:08:29.740

238 次

我刚刚了解了蜘蛛框架 Anemone。它的网站说

注意：每个存储引擎都会在开始新的爬取之前清除现有的 Anemone 数据。

问题：我想知道是否可以避免这种情况，即保留已抓取的内容，并在新抓取期间刷新/更新副本？

理由：

我想使用 Anemone 作为远程网页的本地存储。然后，我现有的页面解析器可以从中访问 Nokogiri dom 文档对象。许多页面解析器将需要访问相同的 url 地址，因此这应该避免重复获取同一页面。

另外，Anemone 可能足够聪明，可以使用 http expire 标头来确定页面是否已更新，因此需要重新下载（因为它具有以前的 dom 文档）。

0 回答 0