0

如何禁用和删除subdomain.domain.com被爬取并列出到 alexa 和其他爬虫?特别是我的 alexa 信息页面中列出的和烦人的 :/ cpanel.domain.comwebmail.domain.com

4

1 回答 1

1

来自这篇文章:https ://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa 网络爬虫(机器人)在 HTTP“用户代理”标头字段中将自己标识为“ia_archiver”。Alexa Internet ia_archiver 爬虫严格遵守 robots.txt 规则。

为防止 ia_archiver 访问您网站的任何部分,您的 robots.txt 文件应如下所示:

User-agent: ia_archiver
Disallow: /

您还可以限制对特定目录的爬取。例如,要防止 ia_archiver 访问 images 目录(及其子目录):

User-agent: ia_archiver
Disallow: /images/

如果可以的话,您可以robots.txt在您不希望抓取的子域的根目录中放置一个。如果这些页面不在您的控制范围内;托管服务应该/可以做这些或类似的限制。

于 2014-10-02T07:00:01.707 回答