robots.txt - 一个 robots.txt 允许只抓取实时网站，其余的应该被禁止

Question

我需要有关使用 robots.txt 问题的指南如下。

我有一个实时网站“www.faisal.com”或“faisal.com”，并有两个测试网络服务器，如下所示

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个 robots.txt 来处理这一切，我不希望爬虫从“faisal.jupiter.com”和“faisal.dev.com”索引页面只允许从“www.faisal.com”索引页面或“faisal.com”

我想要一个 robots.txt 文件，该文件将在所有网络服务器上，并且应该只允许索引实时网站。

score 1 · Accepted Answer

disallow 命令仅指定相对 URL，因此我猜您不能对所有人都拥有相同的 robots.txt 文件。

为什么不在开发/测试服务器上强制进行 HTTP 身份验证？

这样机器人将无法爬取这些服务器。

如果您想允许特定的人检查它们，但不是每个人都试图在您尚未调试的新版本中找到缺陷，这似乎是一个好主意......

尤其是现在您将地址提供给网络上的每个人。

score 1 · Accepted Answer

根据谁需要访问开发和测试服务器——以及从哪里访问，您可以使用 .htaccess 或 iptables 在 IP 地址级别进行限制。

或者，您可以将 robots.txt 文件与 Web 应用程序本身分开，以便您可以控制相对于环境的内容。

2 回答 2