0

我需要有关使用 robots.txt 问题的指南如下。

我有一个实时网站“www.faisal.com”或“faisal.com”,并有两个测试网络服务器,如下所示

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个 robots.txt 来处理这一切,我不希望爬虫从“faisal.jupiter.com”和“faisal.dev.com”索引页面只允许从“www.faisal.com”索引页面或“faisal.com”

我想要一个 robots.txt 文件,该文件将在所有网络服务器上,并且应该只允许索引实时网站。

4

2 回答 2

1

disallow 命令仅指定相对 URL,因此我猜您不能对所有人都拥有相同的 robots.txt 文件。

为什么不在开发/测试服务器上强制进行 HTTP 身份验证?

这样机器人将无法爬取这些服务器。

如果您想允许特定的人检查它们,但不是每个人都试图在您尚未调试的新版本中找到缺陷,这似乎是一个好主意......

尤其是现在您将地址提供给网络上的每个人。

于 2010-09-30T07:31:04.610 回答
1

根据谁需要访问开发和测试服务器——以及从哪里访问,您可以使用 .htaccess 或 iptables 在 IP 地址级别进行限制。

或者,您可以将 robots.txt 文件与 Web 应用程序本身分开,以便您可以控制相对于环境的内容。

于 2011-07-08T05:32:29.157 回答