我有一个应用程序,其内容不应被公开索引。因此,我禁止访问所有爬虫。
机器人.txt:
# Robots shouldn't index a private app.
User-agent: *
Disallow: /
但是,Bing 一直忽略这一点,并且每天都会请求一个/trafficbasedsspsitemap.xml
文件,而我不需要创建该文件。
我也不需要每天收到此文件的 404 错误通知。我只想让 bingbot 消失,那么我需要做什么来禁止它发出请求?
我有一个应用程序,其内容不应被公开索引。因此,我禁止访问所有爬虫。
机器人.txt:
# Robots shouldn't index a private app.
User-agent: *
Disallow: /
但是,Bing 一直忽略这一点,并且每天都会请求一个/trafficbasedsspsitemap.xml
文件,而我不需要创建该文件。
我也不需要每天收到此文件的 404 错误通知。我只想让 bingbot 消失,那么我需要做什么来禁止它发出请求?
根据这个答案,这是 Bingbot 检查由 IIS 和 Apache 的 Bing Sitemap 插件生成的 XML 站点地图。它显然不能被 robots.txt 阻止。
对于那些来自谷歌的人-
您可以通过 apache 用户代理检测/重写指令阻止机器人,这样您就可以完全阻止 bingbot。 https://superuser.com/questions/330671/wildcard-blocking-of-bots-in-apache
使用 htaccess 阻止特殊目录的所有机器人/爬虫/蜘蛛
等等