0

我正在做一个 RSS 蜘蛛。您如何控制上次抓取日期?

现在我在想的是这样的:

  • 将我抓取的最后一个 pub_date 放入控制文件中。
  • 然后,当爬网开始时,它会根据新的 pub_dates 检查最后一个 pub_date。如果有新项目,则开始爬行,如果没有,则不执行任何操作。

其他人如何解决这个问题?

4

2 回答 2

1

我将所有数据存储在数据库中(包括上次抓取日期和发布日期),并从数据库中获取我需要的所有日期。

于 2011-02-18T14:44:28.947 回答
0

我也将所有数据存储在数据库中,并从数据中计算出哈希值。这样,您可以非常快速地查找哈希,并即时执行重复数据删除操作。

于 2012-09-29T00:04:41.910 回答