Googlebot ( Googlebot/2.1 ) 似乎以对应于 URL 长度的顺序在新添加的网站上抓取 URL:s:
.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
我已经在多个 (>10) 完全独立的站点上看到了这种确切的模式,因此排序不仅仅是随机巧合。
只是为了避免混淆:在 Googlebot 的运作方式中,抓取顺序似乎是一个非常小的细节。是的,这确实是一个小细节,但是我想了解 Googlebot 如何爬网的技术细节。爬行排序就是这样一个细节。如果您认为这条知识是“无用的”,那完全可以,但请不要用答案污染此页面,因为您的贡献不会很有帮助。根据 SO 内部规则,没有帮助的答案将被否决。
我的问题是:
- 您(是的,您个人——不是您阅读的博客等)是否观察到了这种爬行模式?
- Google 是否正式记录了抓取模式?
- 选择这种爬行模式的原因可能是什么?
请尝试解决所有三 (3) 个问题。