2

我想使用谷歌缓存访问其他网站的网页,即使不去访问它们。

如果我发出这样的查询 http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>,我们可以获得数据。

我发现/假设以下事情(问题 0。如果其中任何一个错误,请更正):

  1. 根据网站的政策,Google 可能有也可能没有缓存信息。
  2. 如果必须运行任何 javascript,Google 无论如何都会访问该网站。
  3. Google 只存储文本的前 101 KB。

问题 1. 我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能有多旧吗?

问题 2. 如果我打算去谷歌缓存我对该网站的所有点击(假设该网站被缓存并且我对小旧页面没问题)有什么问题吗?

问题 3. Wayback Machine 提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以让我们获取最近存档的数据(如 Wayback 机器和 Google 缓存)?

4

2 回答 2

2

我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能有多旧吗?

在 URL 中使用cache:运算符

如果我打算对我对该网站所做的所有点击访问 Google 缓存(假设该网站已缓存并且我对小旧页面没问题),是否有任何问题?

所有者可以请求从缓存中删除内容

有没有我们可以获取最近存档数据的目录?

在 URL 中使用tbs=qdr:查询参数

于 2013-01-12T01:10:32.490 回答
0

对于问题 3,虽然过去所有的 Wayback Machine 网络捕获都是 6 个月前的情况,但在 2012 年已经变得不真实,现在在 2016 年变得非常不真实。我们有大量的新鲜内容。

于 2016-06-10T00:10:44.933 回答