1

我正在寻找建议和方法;我的域中有一个文件夹,我正在测试某个登录页面;如果进展顺利,我可能会用这个登陆页面建立一个新的网站和域,这是我不希望它被抓取的主要原因,所以我不会因为重复内容而受到谷歌的惩罚。我也不希望不需要的机器人抓取这个登录页面,因为它不会产生任何好处。这对你有意义吗?

如果是这样,我该怎么做?我不认为 robots.txt 是最好的方法,因为我知道并非所有爬虫都尊重它,甚至谷歌也可能不完全尊重它。我不能输入密码,因为登陆页面应该对所有人开放(因此该解决方案不得对人类访问者造成任何问题)。它会留下 .htaccess 文件吗?如果是这样,我应该在那里添加什么代码?有什么我没有得到的缺点吗?

谢谢!

4

1 回答 1

3

使用robots.txt具有以下内容的文件:

User-agent: *
Disallow: /some-folder/
于 2013-11-05T15:38:18.883 回答