我过去曾发生过,我们的一位 IT 专家会意外地将 robots.txt 从生产环境中移出。阻止谷歌和其他人在生产中索引我们客户的网站。有没有很好的方法来处理这种情况?
提前致谢。
我过去曾发生过,我们的一位 IT 专家会意外地将 robots.txt 从生产环境中移出。阻止谷歌和其他人在生产中索引我们客户的网站。有没有很好的方法来处理这种情况?
提前致谢。
请您的 IT 人员将 robots.txt 上的文件权限更改为所有用户的“只读”,以便执行以下额外步骤:
作为 SEO,我感受到了你的痛苦。
如果我错了,请原谅我,但我假设问题是由于您的登台服务器上有一个 robots.txt 引起的,因为您需要阻止搜索引擎查找和抓取整个登台环境。
如果是这种情况,我建议您将暂存环境放置在内部不存在问题的地方。(用于分段的 Intranet 类型或网络配置)。这可以避免很多搜索引擎因内容被抓取而出现的问题,例如,他们意外地从您的 Staging 中删除了 robots.txt 文件,并让重复的网站被抓取并编入索引。
如果这不是一个选项,建议将 staging 放置在服务器上的文件夹中,例如 domain.com/staging/ 并仅使用根文件夹中的一个 robots.txt 文件来完全阻止该 /staging/ 文件夹。这样,您不需要使用两个文件,并且知道另一个 robots.txt 不会替换您的文件,您可以在晚上睡觉。
如果那不是一个选项,也许要求他们将其添加到他们的清单中以不移动该文件?你只需要检查一下 - 少一点睡眠,但多一点预防措施。
创建一个部署脚本来移动各种工件(网页、图像、支持文件等),并让 IT 人员通过运行您的脚本来完成移动。确保不要在该脚本中包含 robots.txt。
我会在生产服务器上设置代码,该服务器将生产 robots.txt 保存在另一个位置,并让它监视正在使用的那个。
如果它们不同,那么我会立即用生产版本覆盖正在使用的版本。那么它是否被覆盖也没关系,因为坏版本不会存在很长时间。在 UNIX 环境中,我会定期使用 cron 执行此操作。
为什么您的登台环境不在防火墙后面,也不公开?
问题不在于 Robots.txt...问题在于您的网络基础设施。