indexing - Robots.txt 使用数据驱动结果的基于模式的匹配

Question

有没有办法在搜索引擎可以索引的 robots.txt 文件中创建基于模式的规则？

纽约 100
纽约 101
纽约 102
...
亚特兰大 100
亚特兰大 101
亚特兰大 102
...

我们的网站有数百万条记录，我们希望搜索引擎对其进行索引。

索引应基于数据驱动的结果，遵循简单的模式：城市 + 批号。

加载的网页显示了城市地段和相关信息。

不幸的是，记录太多，无法简单地将它们放在 robots.txt 文件中（超过 21MB），其中 google 有 500KB 的 robots 文件限制。

score 1 · Accepted Answer

默认权限robots.txt是允许机器人抓取（和索引）所有内容，除非您将其排除在外。你根本不需要任何规则。你可以没有robots.txt文件，或者它可以像这个允许所有爬行（不允许任何内容）一样简单：

User-agent: *
Disallow:

Robots.txt 规则都是“开始于”的规则。因此，如果您确实想禁止特定城市，您可以这样做：

User-agent: *
Disallow: /atlanta

这将禁止以下所有 URL：

/atlanta-100
/atlanta-101
/atlanta-102

但允许爬行所有其他城市，包括纽约。

顺便说一句，搜索引擎要索引一个站点的数百万个页面是一个很大的要求。搜索引擎只有在内容质量高（大量文本、独特、写得好）、您的站点有足够的声誉（来自许多其他站点的链接）并且您的站点具有良好的信息架构（几个可用的导航链接）时才会这样做往返每个页面。）您的下一个问题可能是为什么搜索引擎不索引我的内容？

您可能希望使用所有 URL创建XML 站点地图。与 robots.txt 不同，您可以在站点地图中列出您的每个 URL，以告知搜索引擎它们。但是，站点地图的功能是有限的。仅仅在站点地图中列出一个 URL 几乎不足以使其排名良好，甚至根本无法将其编入索引。站点地图充其量可以让搜索引擎机器人抓取您的整个站点，在网站管理员工具中为您提供额外信息，并且是一种告诉搜索引擎您首选 URL 的方式。有关更多信息，请参阅站点地图悖论。

indexing - Robots.txt 使用数据驱动结果的基于模式的匹配

1 回答 1

Related

Reference