2

帮助 帮助!谷歌在我的网站上索引了一个测试文件夹,没有人知道我应该知道的:(!我如何限制谷歌索引链接和某些文件夹。

4

6 回答 6

12

使用机器人排除文件,或者更好的密码保护您的测试区域!使用 robots.txt 文件“保护”您不希望其他人看到的区域有点像在您的后门上挂一个牌子,上面写着“我已经把它打开了,但请不要进来” :)

如果您注册了Google 网站管理员工具,如果您确保搜索结果不再被他们的抓取工具访问,您可以请求删除搜索结果。

于 2009-06-11T09:09:01.407 回答
2

如果您使用的是 Apache:

.htaccess

AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic

<Limit GET>

require valid-user

</Limit>

密码文件 (.htpasswd) 然后包含

name:password

密码已加密。如果您搜索“htpasswd”,您会发现很多免费程序可以为您加密密码。

TRIG。

于 2009-06-11T10:02:47.837 回答
2

使用robots.txt.

谷歌搜索,或查看:http ://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

于 2009-06-11T09:08:17.150 回答
2

避免抓取工具将您的某些内容编入索引的最佳方法是使用您网站根目录中的 robots.txt 文件。

这是一个例子:

User-agent: *
Allow: /
Crawl-delay: 5

User-agent: *
Disallow: /cgi-bin
Disallow: /css
Disallow: /img
Disallow: /js

在第一个块上,我告诉爬虫他可以浏览所有内容。

第二个块有我希望他避免的文件夹列表。

这不是真正保护它的安全方法,因为一些爬虫不尊重它。

如果您真的想保护它,最好的方法应该是在这些文件夹上放置一个 .htaccess 文件来强制进行身份验证。

于 2009-06-11T09:11:27.503 回答
2

也许正确的答案是不要将测试代码放在公共网站上。为什么它是您部署的一部分?

于 2009-06-11T09:56:11.390 回答
2

谨防!你可以告诉“好”的机器人(如谷歌)远离某些地方,但其他机器人的表现并不那么好。因此,正确解决此问题的唯一方法是在不被视为“公共”的地方添加一些限制。您可以限制对某些您信任的 IP 地址的访问,或者您可以添加用户名/密码身份验证。

于 2009-06-11T09:15:35.153 回答