search - 爬虫如何确保最大覆盖范围？

Question

我阅读了一些关于网络爬虫的文章，学习了爬虫的基础知识。根据他们的说法，网络爬虫只是使用从其他网页检索到的 URL 并通过一棵树（实际上是一个网格）

在这种情况下，爬虫如何确保最大覆盖范围。显然，可能有很多网站没有来自其他页面/网站的推荐链接。搜索引擎是否遵循除爬取和手动注册之外的任何其他机制？（即从域名注册机构获取信息）

如果只是基于爬取，我们应该如何选择一组好的“Root”站点开始爬取呢？（我们无法预测结果。如果我们选择 100 个没有引荐链接的站点，引擎将只得出 100 个站点 + 它们的内页）

score 3 · Accepted Answer

显然，可能有很多网站没有来自其他页面/网站的推荐链接。

我不认为这真的像你想象的那么大。

搜索引擎是否遵循除爬取和手动注册之外的任何其他机制？（即从域名注册机构获取信息）

我没有听说过。

如果只是基于爬取，我们应该如何选择一组好的“Root”站点开始爬取呢？

任何类型的通用网络目录（如开放目录项目）都是理想的候选者，Digg 或 del.icio.us 等社交书签网站也是如此

score 1 · Accepted Answer

用于帮助爬虫的一种方法是“站点地图”。站点地图基本上是一个列出网站内容的文件，以便爬虫知道在哪里导航，特别是如果您的网站具有动态内容。更准确的站点地图将大大提高爬虫的准确性。

以下是 Google 站点地图上的一些信息：

score 1 · Accepted Answer

没有任何神奇的机制可以让爬虫找到一个未被任何其他已爬取或未被手动添加到爬虫的站点引用的站点。

爬虫只遍历从一组手动注册的 - 因此预定义的 - 根开始的链接图。爬虫将无法访问图表之外的所有内容 - 它无法找到此内容。

3 回答 3