我的主页有链接到页面 a.html 和 b.html。在与这两个页面相同的目录中,我有页面c.html和d.html没有被任何其他页面链接到。
我的问题是webcrawlers 是否也索引 c.html 和 d.html只是因为它们在目录中?还是他们只关注从主页开始的链接,并且只索引主页以及页面 a 和 b?谢谢。
我的主页有链接到页面 a.html 和 b.html。在与这两个页面相同的目录中,我有页面c.html和d.html没有被任何其他页面链接到。
我的问题是webcrawlers 是否也索引 c.html 和 d.html只是因为它们在目录中?还是他们只关注从主页开始的链接,并且只索引主页以及页面 a 和 b?谢谢。
大多数网络爬虫(尤其是谷歌的爬虫)都是专有程序,因此您无法确定它们是如何工作的。
网络爬虫的细节非常复杂。据传 Google 的爬虫(和索引器)是一个超过 700 兆字节的二进制可执行文件(在 GCC 峰会上,Google 的人说他们正在编译这样大小的程序,我猜这是他们的爬虫)。
理论上,爬虫确实会跟随链接。但你不掌握它们。例如,一些公共邮件存档(甚至是您的 Gmail 帐户,对于 Google)可能指向您的c.html
……即使您的主网页没有指向它。
网络爬虫只知道链接,所以如果世界上没有人知道页面 c.html 和 d.html 的链接,那么爬虫找到它们的可能性非常接近 0。
让我们看看爬虫如何找到这些:
这假设爬虫是“好”的,并且它的爬取时间足够长以到达包含指向您的 c/d.html 页面的链接的页面。