python - 检查页面是否更改的有效方法（同时存储尽可能少的信息）？

Question

我有一些网页随着时间的推移收集数据。我不关心内容本身，只关心页面是否发生了变化。

目前，我使用 Python 的 requests.get 来获取页面，对页面进行哈希处理（md5），并存储该哈希值以供将来比较。

是否有一个计算更便宜或更小的存储策略呢？现在一切正常；我只是想检查是否有更好/更便宜的方法。:)

score 2 · Accepted Answer

您可以跟踪您获得的最后一个版本的日期，并在您的请求中使用 If-Modified-Since 标头。但是，某些资源会忽略该标头。（一般来说，动态生成的内容很难处理。）在这种情况下，您将不得不退回到效率较低的方法。

score 0 · Accepted Answer

散列将是最可靠的变更检测来源。我会使用CRC32。它只有 32 位，而 md5 是 128 位。此外，即使在浏览器 Javascript 中，它也可以非常快。我在为非常大的数据集提高 CRC32 的 JS 实现速度方面有个人经验。

2 回答 2