0

我的主页有链接到页面 a.html 和 b.html。在与这两个页面相同的目录中,我有页面c.htmld.html没有被任何其他页面链接到

我的问题是webcrawlers 是否也索引 c.html 和 d.html只是因为它们在目录中?还是他们只关注从主页开始的链接,并且只索引主页以及页面 a 和 b?谢谢。

4

2 回答 2

2

大多数网络爬虫(尤其是谷歌的爬虫)都是专有程序,因此您无法确定它们是如何工作的。

网络爬虫的细节非常复杂。据传 Google 的爬虫(和索引器)是一个超过 700 兆字节的二进制可执行文件(在 GCC 峰会上,Google 的人说他们正在编译这样大小的程序,我猜这是他们的爬虫)。

理论上,爬虫确实会跟随链接。但你不掌握它们。例如,一些公共邮件存档(甚至是您的 Gmail 帐户,对于 Google)可能指向您的c.html ……即使您的主网页没有指向它。

于 2012-04-29T06:20:51.837 回答
2

网络爬虫只知道链接,所以如果世界上没有人知道页面 c.html 和 d.html 的链接,那么爬虫找到它们的可能性非常接近 0。

让我们看看爬虫如何找到这些:

  1. 您的主页仅指向 a.html 和 b.html,但如果这些页面有指向 c/d.html 的链接,那么爬虫最终会找到它们。
  2. 如果上述情况不正确,但您给了某人指向 c/d.html 的链接,并且他们将这些链接发布在某个在线网站上,那么爬虫最终会找到它们。
  3. 如果您有站点地图,那么爬虫最终可能会找到它们。

这假设爬虫是“好”的,并且它的爬取时间足够长以到达包含指向您的 c/d.html 页面的链接的页面。

于 2012-04-29T06:30:20.507 回答