1

Googlebot ( Googlebot/2.​​1 ) 似乎以对应于 URL 长度的顺序在新添加的网站上抓取 URL:s:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我已经在多个 (>10) 完全独立的站点上看到了这种确切的模式,因此排序不仅仅是随机巧合。

只是为了避免混淆:在 Googlebot 的运作方式中,抓取顺序似乎是一个非常小的细节。是的,这确实是一个小细节,但是我想了解 Googlebot 如何爬网的技术细节。爬行排序就是这样一个细节。如果您认为这条知识是“无用的”,那完全可以,但请不要用答案污染此页面,因为您的贡献不会很有帮助。根据 SO 内部规则,没有帮助的答案将被否决。

我的问题是:

  1. 您(是的,个人——不是您阅读的博客等)是否观察到了这种爬行模式?
  2. Google 是否正式记录了抓取模式?
  3. 选择这种爬行模式的原因可能是什么?

请尝试解决所有三 (3) 个问题。

4

5 回答 5

3

从 Web 开发的角​​度来看,这种非随机爬取模式会产生意想不到的后果;例如,如果一个特定的 URL 长度对应于一种特别繁重的事务,则非随机加载模式等。

如果您有搜索引擎机器人可以访问的交易页面,那么我称之为失败。搜索引擎机器人不应该有任何访问交易页面的权限!禁止在 robots.txt 或元机器人页面上对其进行索引。

因此,您的三个问题毫无用处-谷歌没有记录他们使用的任何算法。此外,了解(或尝试操纵)抓取顺序完全没有用,因为基本上您不关心并且希望获得尽可能多的页面索引(除了您在 robots.txt 中禁止的页面)。

于 2009-11-03T11:23:42.707 回答
2

我没有经历过这样的事情(尽管我从不准确跟踪哪些 URL 被索引以及何时被索引)。根据我的经验,谷歌首先将它认为最受欢迎的 URL 编入索引。例如,如果它看到来自排名靠前的页面或许多页面的链接,它会在同一站点上的其他人之前抓取该链接。

对于您的情况,我能想到的唯一理由是 Googlebot 假定较长的 URL 等同于“更深”的页面,但忽略了文件夹结构。

于 2009-11-03T17:16:05.153 回答
1

3:也许 goggle bot 将 URL 字符串存储在树数据结构中。第一个最短的 URL 是树根,因此下一个 URL 的“结尾”只会作为树叶附加。这比将每个 URL 存储为单独的字符串(例如在 /lang_english/ /lang_italian/ /lang_german/ 之类的情况下)更优化。

于 2010-09-17T07:34:55.353 回答
1
  1. 我不相信爬行模式真的很重要。如果 Google 发现您的页面的顺序对您的内容很重要 - 甚至在以错误方式访问时导致错误,那么您的网站结构(或您的 robots-metatags/robots.txt)存在严重错误。

我在我的项目中可以观察到的是,谷歌倾向于以机器人找到它们的方式来抓取页面。而这又取决于您将它们“呈现”给 Google 的方式(通过网站链接、站点地图、RSS 提要等)

所以我不会太担心 URL 的长度,而是在一个显眼的、定期抓取的页面上放置一个指向您想要找到的页面的链接。

于 2009-11-03T11:34:06.363 回答
0
  1. 不,我没有。
  2. 不。
  3. 尽管这种行为似乎真的很不寻常,但我认为这可能是一堆巧合的结果,而不是爬行模式。不幸的是,在做出断言之前,我需要更多数据(例如真实的访问日志)。可能的原因: 1. 站点地图中是否列出了 URL?2. URL 是按字母顺序排列的吗?3. URL 通常按什么顺序出现在页面中?
于 2009-11-03T11:14:12.347 回答