-1

我过去曾发生过,我们的一位 IT 专家会意外地将 robots.txt 从生产环境中移出。阻止谷歌和其他人在生产中索引我们客户的网站。有没有很好的方法来处理这种情况?

提前致谢。

4

5 回答 5

3

请您的 IT 人员将 robots.txt 上的文件权限更改为所有用户的“只读”,以便执行以下额外步骤:

  1. 成为管理员/root
  2. 更改权限以允许写入
  3. 用新文件覆盖 robots.txt
于 2009-02-18T00:22:48.627 回答
2

作为 SEO,我感受到了你的痛苦。

如果我错了,请原谅我,但我假设问题是由于您的登台服务器上有一个 robots.txt 引起的,因为您需要阻止搜索引擎查找和抓取整个登台环境。

如果是这种情况,我建议您将暂存环境放置在内部不存在问题的地方。(用于分段的 Intranet 类型或网络配置)。这可以避免很多搜索引擎因内容被抓取而出现的问题,例如,他们意外地从您的 Staging 中删除了 robots.txt 文件,并让重复的网站被抓取并编入索引。

如果这不是一个选项,建议将 staging 放置在服务器上的文件夹中,例如 domain.com/staging/ 并仅使用根文件夹中的一个 robots.txt 文件来完全阻止该 /staging/ 文件夹。这样,您不需要使用两个文件,并且知道另一个 robots.txt 不会替换您的文件,您可以在晚上睡觉。

如果那不是一个选项,也许要求他们将其添加到他们的清单中以不移动该文件?你只需要检查一下 - 少一点睡眠,但多一点预防措施。

于 2009-02-17T23:57:42.493 回答
1

创建一个部署脚本来移动各种工件(网页、图像、支持文件等),并让 IT 人员通过运行您的脚本来完成移动。确保不要在该脚本中包含 robots.txt。

于 2009-02-17T23:45:29.623 回答
1

我会在生产服务器上设置代码,该服务器将生产 robots.txt 保存在另一个位置,并让它监视正在使用的那个。

如果它们不同,那么我会立即用生产版本覆盖正在使用的版本。那么它是否被覆盖也没关系,因为坏版本不会存在很长时间。在 UNIX 环境中,我会定期使用 cron 执行此操作。

于 2009-02-17T23:46:31.710 回答
0

为什么您的登台环境不在防火墙后面,也不公开?

问题不在于 Robots.txt...问题在于您的网络基础设施。

于 2009-02-17T23:59:09.823 回答