1

有没有办法在搜索引擎可以索引的 robots.txt 文件中创建基于模式的规则?

  • 纽约 100
  • 纽约 101
  • 纽约 102
  • ...
  • 亚特兰大 100
  • 亚特兰大 101
  • 亚特兰大 102
  • ...

我们的网站有数百万条记录,我们希望搜索引擎对其进行索引。

索引应基于数据驱动的结果,遵循简单的模式:城市 + 批号。

加载的网页显示了城市地段和相关信息。

不幸的是,记录太多,无法简单地将它们放在 robots.txt 文件中(超过 21MB),其中 google 有 500KB 的 robots 文件限制。

4

1 回答 1

1

默认权限robots.txt是允许机器人抓取(和索引)所有内容,除非您将其排除在外。你根本不需要任何规则。你可以没有robots.txt文件,或者它可以像这个允许所有爬行(不允许任何内容)一样简单:

User-agent: *
Disallow:

Robots.txt 规则都是“开始于”的规则。因此,如果您确实想禁止特定城市,您可以这样做:

User-agent: *
Disallow: /atlanta

这将禁止以下所有 URL:

  • /atlanta-100
  • /atlanta-101
  • /atlanta-102

但允许爬行所有其他城市,包括纽约。


顺便说一句,搜索引擎要索引一个站点的数百万个页面是一个很大的要求。搜索引擎只有在内容质量高(大量文本、独特、写得好)、您的站点有足够的声誉(来自许多其他站点的链接)并且您的站点具有良好的信息架构(几个可用的导航链接)时才会这样做往返每个页面。)您的下一个问题可能是为什么搜索引擎不索引我的内容?

您可能希望使用所有 URL创建XML 站点地图。与 robots.txt 不同,您可以在站点地图中列出您的每个 URL,以告知搜索引擎它们。但是,站点地图的功能是有限的。仅仅在站点地图中列出一个 URL 几乎不足以使其排名良好,甚至根本无法将其编入索引。站点地图充其量可以让搜索引擎机器人抓取您的整个站点,在网站管理员工具中为您提供额外信息,并且是一种告诉搜索引擎您首选 URL 的方式。有关更多信息,请参阅站点地图悖论

于 2021-12-22T13:39:35.853 回答