seo - 为什么 Googlebot 会按照 URL 长度升序遍历新添加的网站？

Question

Googlebot ( Googlebot/2.1 ) 似乎以对应于 URL 长度的顺序在新添加的网站上抓取 URL:s：

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我已经在多个 (>10) 完全独立的站点上看到了这种确切的模式，因此排序不仅仅是随机巧合。

只是为了避免混淆：在 Googlebot 的运作方式中，抓取顺序似乎是一个非常小的细节。是的，这确实是一个小细节，但是我想了解 Googlebot 如何爬网的技术细节。爬行排序就是这样一个细节。如果您认为这条知识是“无用的”，那完全可以，但请不要用答案污染此页面，因为您的贡献不会很有帮助。根据 SO 内部规则，没有帮助的答案将被否决。

我的问题是：

您（是的，您个人——不是您阅读的博客等）是否观察到了这种爬行模式？
Google 是否正式记录了抓取模式？
选择这种爬行模式的原因可能是什么？

请尝试解决所有三 (3) 个问题。

score 3 · Accepted Answer

从 Web 开发的角度来看，这种非随机爬取模式会产生意想不到的后果；例如，如果一个特定的 URL 长度对应于一种特别繁重的事务，则非随机加载模式等。

如果您有搜索引擎机器人可以访问的交易页面，那么我称之为失败。搜索引擎机器人不应该有任何访问交易页面的权限！禁止在 robots.txt 或元机器人页面上对其进行索引。

因此，您的三个问题毫无用处-谷歌没有记录他们使用的任何算法。此外，了解（或尝试操纵）抓取顺序完全没有用，因为基本上您不关心并且希望获得尽可能多的页面索引（除了您在 robots.txt 中禁止的页面）。

score 2 · Accepted Answer

我没有经历过这样的事情（尽管我从不准确跟踪哪些 URL 被索引以及何时被索引）。根据我的经验，谷歌首先将它认为最受欢迎的 URL 编入索引。例如，如果它看到来自排名靠前的页面或许多页面的链接，它会在同一站点上的其他人之前抓取该链接。

对于您的情况，我能想到的唯一理由是 Googlebot 假定较长的 URL 等同于“更深”的页面，但忽略了文件夹结构。

score 1 · Accepted Answer

3：也许 goggle bot 将 URL 字符串存储在树数据结构中。第一个最短的 URL 是树根，因此下一个 URL 的“结尾”只会作为树叶附加。这比将每个 URL 存储为单独的字符串（例如在 /lang_english/ /lang_italian/ /lang_german/ 之类的情况下）更优化。

score 1 · Accepted Answer

不
不
我不相信爬行模式真的很重要。如果 Google 发现您的页面的顺序对您的内容很重要 - 甚至在以错误方式访问时导致错误，那么您的网站结构（或您的 robots-metatags/robots.txt）存在严重错误。

我在我的项目中可以观察到的是，谷歌倾向于以机器人找到它们的方式来抓取页面。而这又取决于您将它们“呈现”给 Google 的方式（通过网站链接、站点地图、RSS 提要等）

所以我不会太担心 URL 的长度，而是在一个显眼的、定期抓取的页面上放置一个指向您想要找到的页面的链接。

score 0 · Accepted Answer

不，我没有。
不。
尽管这种行为似乎真的很不寻常，但我认为这可能是一堆巧合的结果，而不是爬行模式。不幸的是，在做出断言之前，我需要更多数据（例如真实的访问日志）。可能的原因： 1. 站点地图中是否列出了 URL？2. URL 是按字母顺序排列的吗？3. URL 通常按什么顺序出现在页面中？

seo - 为什么 Googlebot 会按照 URL 长度升序遍历新添加的网站？

5 回答 5

Related

Reference