如何禁用和删除subdomain.domain.com
被爬取并列出到 alexa 和其他爬虫?特别是我的 alexa 信息页面中列出的和烦人的 :/ cpanel.domain.com
。webmail.domain.com
问问题
782 次
1 回答
1
来自这篇文章:https ://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers
Alexa 网络爬虫(机器人)在 HTTP“用户代理”标头字段中将自己标识为“ia_archiver”。Alexa Internet ia_archiver 爬虫严格遵守 robots.txt 规则。
为防止 ia_archiver 访问您网站的任何部分,您的 robots.txt 文件应如下所示:
User-agent: ia_archiver
Disallow: /
您还可以限制对特定目录的爬取。例如,要防止 ia_archiver 访问 images 目录(及其子目录):
User-agent: ia_archiver
Disallow: /images/
如果可以的话,您可以robots.txt
在您不希望抓取的子域的根目录中放置一个。如果这些页面不在您的控制范围内;托管服务应该/可以做这些或类似的限制。
于 2014-10-02T07:00:01.707 回答