0

我只是对 Google 如何抓取页面感到好奇,我有一些代码可以告诉我 Google Bot 是否在我的网站上以及它在哪些页面上。

例如,如果 Google 正在抓取一个页面,则 /page.html 在该页面中包含指向该网站其他 10 个页面的链接。

它是否只会添加 page.html 以进行可能的索引,因为它是它所在的页面,还是会存储 page.html 上的所有链接以进行可能的索引?

4

3 回答 3

1

这可能会回答您的问题:http ://www.google.com/insidesearch/howsearchworks/crawling-indexing.html

于 2013-05-06T18:41:39.500 回答
0

例如,如果 Google 正在抓取一个页面,则 /page.html 在该页面中包含指向该网站其他 10 个页面的链接。

它是否只会添加 page.html 以进行可能的索引,因为它是它所在的页面,还是会存储 page.html 上的所有链接以进行可能的索引?

链接正是谷歌机器人在互联网上寻找内容的方式。是的,除非它们以某种方式被排除在外(robots.txt、NOINDEX 元标记等),否则它们将排队等待索引

于 2013-05-06T18:50:05.077 回答
0

是的,除非网站管理员限制,否则Google 的爬虫 - Googlebot - 将存储这些链接以供索引。

Googlebot 的抓取过程从网页 URL 列表开始,该列表由之前的抓取过程生成,并由网站管理员提供的站点地图数据进行扩充。当 Googlebot 访问这些网站中的每一个时,它会检测每个页面上的链接(SRC 和 HREF)并将它们添加到其要抓取的页面列表中。

于 2013-05-06T18:52:39.470 回答