默认权限robots.txt
是允许机器人抓取(和索引)所有内容,除非您将其排除在外。你根本不需要任何规则。你可以没有robots.txt
文件,或者它可以像这个允许所有爬行(不允许任何内容)一样简单:
User-agent: *
Disallow:
Robots.txt 规则都是“开始于”的规则。因此,如果您确实想禁止特定城市,您可以这样做:
User-agent: *
Disallow: /atlanta
这将禁止以下所有 URL:
/atlanta-100
/atlanta-101
/atlanta-102
但允许爬行所有其他城市,包括纽约。
顺便说一句,搜索引擎要索引一个站点的数百万个页面是一个很大的要求。搜索引擎只有在内容质量高(大量文本、独特、写得好)、您的站点有足够的声誉(来自许多其他站点的链接)并且您的站点具有良好的信息架构(几个可用的导航链接)时才会这样做往返每个页面。)您的下一个问题可能是为什么搜索引擎不索引我的内容?
您可能希望使用所有 URL创建XML 站点地图。与 robots.txt 不同,您可以在站点地图中列出您的每个 URL,以告知搜索引擎它们。但是,站点地图的功能是有限的。仅仅在站点地图中列出一个 URL 几乎不足以使其排名良好,甚至根本无法将其编入索引。站点地图充其量可以让搜索引擎机器人抓取您的整个站点,在网站管理员工具中为您提供额外信息,并且是一种告诉搜索引擎您首选 URL 的方式。有关更多信息,请参阅站点地图悖论。