5

Google Bot Crawler 一直在尝试抓取我的网站上不存在的 CSS 文件。

它要求:

http://www.mywebsite.com/assets/index-d45678283d4ab9905c3538184826e599.css

这个确切的文件名在生产中不存在(生产中的文件名略有不同)。

但是,它请求的 CSS 文件确实存在于开发中:

http://localhost:3000/assets/index-d45678283d4ab9905c3538184826e599.css

我不确定它为什么要这个文件。

我使用 Capistrano(加载“部署/资产”)在部署到生产之前预编译我的资产。

现在,我只是在 robots.txt 中阻止了这个文件,但它请求的 css 文件在每次部署后都会更改。

为什么 GoogleBot 要抓取这个在生产站点中不存在的文件?我该如何阻止它?

4

1 回答 1

3

GoogleBot 可能会看到以下两种情况之一:

  • 它会在您的站点上的某个地方看到该文件被错误地引用 - IE 旧代码构建。我会在您的实时站点(捆绑)中搜索该文件。
  • 它会记住以前构建的文件,并尝试检查它是否有更新。

令我感到困惑的是,在您的服务器发出 404 响应后它不会忽略它,但是,Google 软件的内部运作是一个黑匣子;没有真正的方法可以说明它为什么会这样做。

也就是说,他们提供了网站管理员工具面板,允许您对其索引等进行一些自定义。

于 2013-06-24T01:34:11.030 回答