我想使用谷歌缓存访问其他网站的网页,即使不去访问它们。
如果我发出这样的查询 http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>
,我们可以获得数据。
我发现/假设以下事情(问题 0。如果其中任何一个错误,请更正):
- 根据网站的政策,Google 可能有也可能没有缓存信息。
- 如果必须运行任何 javascript,Google 无论如何都会访问该网站。
- Google 只存储文本的前 101 KB。
问题 1. 我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能有多旧吗?
问题 2. 如果我打算去谷歌缓存我对该网站的所有点击(假设该网站被缓存并且我对小旧页面没问题)有什么问题吗?
问题 3. Wayback Machine 提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以让我们获取最近存档的数据(如 Wayback 机器和 Google 缓存)?