我阅读了一些关于网络爬虫的文章,学习了爬虫的基础知识。根据他们的说法,网络爬虫只是使用从其他网页检索到的 URL 并通过一棵树(实际上是一个网格)
在这种情况下,爬虫如何确保最大覆盖范围。显然,可能有很多网站没有来自其他页面/网站的推荐链接。搜索引擎是否遵循除爬取和手动注册之外的任何其他机制?(即从域名注册机构获取信息)
如果只是基于爬取,我们应该如何选择一组好的“Root”站点开始爬取呢?(我们无法预测结果。如果我们选择 100 个没有引荐链接的站点,引擎将只得出 100 个站点 + 它们的内页)