根据这个页面
User-agent 或 Disallow 行不支持通配符和正则表达式
但是,我注意到stackoverflow robots.txt包含 * 和 ? 在网址中。这些是否支持?
此外,URL 是否包含尾部斜杠或这两个是否等效有什么区别?
Disallow: /privacy
Disallow: /privacy/
根据这个页面
User-agent 或 Disallow 行不支持通配符和正则表达式
但是,我注意到stackoverflow robots.txt包含 * 和 ? 在网址中。这些是否支持?
此外,URL 是否包含尾部斜杠或这两个是否等效有什么区别?
Disallow: /privacy
Disallow: /privacy/
你的第二个问题,两者不等价。/privacy
将阻止任何以 . 开头的内容/privacy
,包括/privacy_xyzzy
. /privacy/
,另一方面,不会阻止它。
原始 robots.txt 不支持通配符或通配符。但是,许多机器人会这样做。几年前,谷歌、微软和雅虎就一个标准达成了一致。有关详细信息,请参阅http://googlewebmastercentral.blogspot.com/2008/06/improving-on-robots-exclusion-protocol.html。
我所知道的大多数主要机器人都支持该“标准”。