我正在使用爬虫,我需要确定来自服务器的页面有多旧。
我需要这样做,因为我只想解析上周的页面。
我试图找到一些关于 HTTP Header 的信息,但是我找不到任何关于页面创建日期的信息。
由于没有服务器被迫提供此信息,我能想到的唯一可靠方法是每周扫描并查看页面是否更改。这当然需要保存所有页面。
保存页面可以通过仅存储校验和来实现。如果您想节省内存,可以将此校验和存储在有向无环字图中。
这样做的问题是无法识别只有少量动态数据的每个页面(动态可能是变化的广告)。
Last-Modified 和缓存的组合可能会有所帮助。
尝试检查响应标头中的“过期”。
实际上,您请求的每个页面或资源都应包含此信息。
HTTP 标头通常不携带此信息。Age
仅在代理缓存中携带文档的年龄,这不是您想要的。
但是,虽然不是真实年龄,但您可以使用 获取最后修改日期Last-Modified
。