php - 谷歌如何抓取页面

Question

我只是对 Google 如何抓取页面感到好奇，我有一些代码可以告诉我 Google Bot 是否在我的网站上以及它在哪些页面上。

例如，如果 Google 正在抓取一个页面，则 /page.html 在该页面中包含指向该网站其他 10 个页面的链接。

它是否只会添加 page.html 以进行可能的索引，因为它是它所在的页面，还是会存储 page.html 上的所有链接以进行可能的索引？

score 1 · Accepted Answer

score 0 · Accepted Answer

例如，如果 Google 正在抓取一个页面，则 /page.html 在该页面中包含指向该网站其他 10 个页面的链接。

它是否只会添加 page.html 以进行可能的索引，因为它是它所在的页面，还是会存储 page.html 上的所有链接以进行可能的索引？

链接正是谷歌机器人在互联网上寻找内容的方式。是的，除非它们以某种方式被排除在外（robots.txt、NOINDEX 元标记等），否则它们将排队等待索引

score 0 · Accepted Answer

是的，除非网站管理员限制，否则Google 的爬虫 - Googlebot - 将存储这些链接以供索引。

Googlebot 的抓取过程从网页 URL 列表开始，该列表由之前的抓取过程生成，并由网站管理员提供的站点地图数据进行扩充。当 Googlebot 访问这些网站中的每一个时，它会检测每个页面上的链接（SRC 和 HREF）并将它们添加到其要抓取的页面列表中。

3 回答 3