.htaccess - 防止爬虫（尤其是 Google）爬取我域中的某个文件夹？

Question

我正在寻找建议和方法；我的域中有一个文件夹，我正在测试某个登录页面；如果进展顺利，我可能会用这个登陆页面建立一个新的网站和域，这是我不希望它被抓取的主要原因，所以我不会因为重复内容而受到谷歌的惩罚。我也不希望不需要的机器人抓取这个登录页面，因为它不会产生任何好处。这对你有意义吗？

如果是这样，我该怎么做？我不认为 robots.txt 是最好的方法，因为我知道并非所有爬虫都尊重它，甚至谷歌也可能不完全尊重它。我不能输入密码，因为登陆页面应该对所有人开放（因此该解决方案不得对人类访问者造成任何问题）。它会留下 .htaccess 文件吗？如果是这样，我应该在那里添加什么代码？有什么我没有得到的缺点吗？

谢谢！

score 3 · Accepted Answer

3

使用robots.txt具有以下内容的文件：

User-agent: *
Disallow: /some-folder/

于 2013-11-05T15:38:18.883 回答

.htaccess - 防止爬虫（尤其是 Google）爬取我域中的某个文件夹？

1 回答 1

Related

Reference