web-crawler - 网络爬虫是否仅依赖主页上的链接进行爬取？

Question

我的主页有链接到页面 a.html 和 b.html。在与这两个页面相同的目录中，我有页面c.html和d.html没有被任何其他页面链接到。

我的问题是webcrawlers 是否也索引 c.html 和 d.html只是因为它们在目录中？还是他们只关注从主页开始的链接，并且只索引主页以及页面 a 和 b？谢谢。

score 2 · Accepted Answer

大多数网络爬虫（尤其是谷歌的爬虫）都是专有程序，因此您无法确定它们是如何工作的。

网络爬虫的细节非常复杂。据传 Google 的爬虫（和索引器）是一个超过 700 兆字节的二进制可执行文件（在 GCC 峰会上，Google 的人说他们正在编译这样大小的程序，我猜这是他们的爬虫）。

理论上，爬虫确实会跟随链接。但你不掌握它们。例如，一些公共邮件存档（甚至是您的 Gmail 帐户，对于 Google）可能指向您的c.html ……即使您的主网页没有指向它。

score 2 · Accepted Answer

网络爬虫只知道链接，所以如果世界上没有人知道页面 c.html 和 d.html 的链接，那么爬虫找到它们的可能性非常接近 0。

让我们看看爬虫如何找到这些：

这假设爬虫是“好”的，并且它的爬取时间足够长以到达包含指向您的 c/d.html 页面的链接的页面。

2 回答 2