1

我想了解当前 google 的大量页面缓存副本的情况。我想我需要

  1. 在日志中查找 IP,
  2. 检查以找到用户代理“googlebot”,然后
  3. 导出一个列表,说明每个页面以及上次访问的时间。

我想这可能是一个每周运行的 cron 作业。如果这是正确的,我将如何编写脚本?如果这是错误的,还有什么更好的方法?

4

3 回答 3

3

谷歌已经通过谷歌站点地图提供了这些信息。在过去的三年里我一直在使用它——效果很好。

将您的站点添加到 SiteMaps 并将您站点的生成的 SiteMap XML(Google 用于免费提供此功能的网站)放在您的 Web 服务器上,然后让 Google 完成剩下的工作。SiteMaps 中有一个名为Crawl Stats的部分,可以为您提供所需的内容。

获取 Google 对您网站的看法并诊断问题

了解 Google 如何抓取您的网站并将其编入索引,并了解我们在访问该网站时遇到的具体问题。

发现您的链接和查询流量

使用新的链接报告工具查看、分类和下载有关您网站的内部和外部链接的综合数据。找出哪些 Google 搜索查询为您的网站带来了流量,并准确了解用户是如何到达那里的。

分享有关您网站的信息

使用站点地图告诉我们您的页面:哪些页面对您最重要,以及它们的更改频率。您也可以告诉我们您希望我们索引的 URL 如何显示。

于 2009-12-01T18:33:04.643 回答
2

这不是必需的,您可以向 Google 调用服务来查找缓存页面,即搜索cache:stackoverflow.com,其中包括时间和日期。如果有更直接的 api 调用来执行此操作,我不会感到惊讶(更新:Google Search API)。

于 2009-12-01T18:34:01.347 回答
0

Last Googlebot Access 也可以通过 mypagerank.net 或 Google 工具栏等网站免费找到。

于 2009-12-27T02:24:20.290 回答