7

我在 Heroku 上有登台和生产应用程序。

对于爬虫,我设置了 robots.txt 文件。

之后,我收到了来自 Google 的消息。

尊敬的网站管理员,您网站的主机名https://www.myapp.com/与您的 SSL 证书中的任何“主题名称”都不匹配,它们是:
*.herokuapp.com
herokuapp.com

Google 机器人读取了我的暂存应用程序上的 robots.txt 并发送了此消息。因为我没有设置任何东西来阻止爬虫读取文件。

所以,我正在考虑的是在登台和生产之间更改 .gitignore 文件,但我不知道如何做到这一点。

实现这一点的最佳实践是什么?

编辑

我在谷歌上搜索并找到了这篇文章http://goo.gl/2ZHal

这篇文章说要设置基本的 Rack 身份验证,你不需要关心 robots.txt。

我不知道基本身份验证可以阻止谷歌机器人。似乎这个解决方案比操纵 .gitignore 文件更好。

4

2 回答 2

13

Rails 3 的一个很好的解决方案是使用 Rack。这是一篇很棒的文章,概述了该过程:使用 Rack 服务不同的 Robots.txt。总而言之,您将其添加到您的 routes.rb 中:

 # config/routes.rb
 require 'robots_generator' # Rails 3 does not autoload files in lib 
 match "/robots.txt" => RobotsGenerator

然后在 lib/robots_generator.rb 中创建一个新文件

# lib/robots_generator.rb
class RobotsGenerator
  # Use the config/robots.txt in production.
  # Disallow everything for all other environments.
  # http://avandamiri.com/2011/10/11/serving-different-robots-using-rack.html
  def self.call(env)
    body = if Rails.env.production?
      File.read Rails.root.join('config', 'robots.txt')
    else
      "User-agent: *\nDisallow: /"
    end

    # Heroku can cache content for free using Varnish.
    headers = { 'Cache-Control' => "public, max-age=#{1.month.seconds.to_i}" }

    [200, headers, [body]]
  rescue Errno::ENOENT
    [404, {}, ['# A robots.txt is not configured']]
  end
end

最后确保将 move robots.txt 包含到您的配置文件夹中(或您在RobotsGenerator类中指定的任何位置)。

于 2012-11-27T05:22:32.657 回答
6

/robots.txt使用控制器动作而不是静态文件动态服务怎么样?根据您允许或不允许搜索引擎索引您的应用程序的环境。

于 2012-08-05T07:27:36.897 回答