0

我有一些网页随着时间的推移收集数据。我不关心内容本身,只关心页面是否发生了变化。

目前,我使用 Python 的 requests.get 来获取页面,对页面进行哈希处理(md5),并存储该哈希值以供将来比较。

是否有一个计算更便宜或更小的存储策略呢?现在一切正常;我只是想检查是否有更好/更便宜的方法。:)

4

2 回答 2

2

您可以跟踪您获得的最后一个版本的日期,并在您的请求中使用 If-Modified-Since 标头。但是,某些资源会忽略该标头。(一般来说,动态生成的内容很难处理。)在这种情况下,您将不得不退回到效率较低的方法。

于 2013-06-03T05:18:26.450 回答
0

散列将是最可靠的变更检测来源。我会使用CRC32。它只有 32 位,而 md5 是 128 位。此外,即使在浏览器 Javascript 中,它也可以非常快。我在为非常大的数据集提高 CRC32 的 JS 实现速度方面有个人经验。

于 2013-06-03T05:28:05.873 回答