0

我正在使用爬虫,我需要确定来自服务器的页面有多旧。

我需要这样做,因为我只想解析上周的页面。

我试图找到一些关于 HTTP Header 的信息,但是我找不到任何关于页面创建日期的信息。

4

3 回答 3

0

由于没有服务器被迫提供此信息,我能想到的唯一可靠方法是每周扫描并查看页面是否更改。这当然需要保存所有页面。

保存页面可以通过仅存储校验和来实现。如果您想节省内存,可以将此校验和存储在有向无环字图中。

这样做的问题是无法识别只有少量动态数据的每个页面(动态可能是变化的广告)。

Last-Modified 和缓存的组合可能会有所帮助。

于 2013-08-22T08:02:18.950 回答
0

尝试检查响应标头中的“过期”。

实际上,您请求的每个页面或资源都应包含此信息。

于 2013-08-22T07:56:15.233 回答
0

HTTP 标头通常不携带此信息。Age仅在代理缓存中携带文档的年龄,这不是您想要的。

但是,虽然不是真实年龄,但您可以使用 获取最后修改日期Last-Modified

于 2013-08-22T07:56:26.993 回答