我有一些网页随着时间的推移收集数据。我不关心内容本身,只关心页面是否发生了变化。
目前,我使用 Python 的 requests.get 来获取页面,对页面进行哈希处理(md5),并存储该哈希值以供将来比较。
是否有一个计算更便宜或更小的存储策略呢?现在一切正常;我只是想检查是否有更好/更便宜的方法。:)
我有一些网页随着时间的推移收集数据。我不关心内容本身,只关心页面是否发生了变化。
目前,我使用 Python 的 requests.get 来获取页面,对页面进行哈希处理(md5),并存储该哈希值以供将来比较。
是否有一个计算更便宜或更小的存储策略呢?现在一切正常;我只是想检查是否有更好/更便宜的方法。:)