我一直在阅读如何实现爬虫。我知道我们从要访问的 URL 列表(种子列表)开始。访问所有这些 URL 并将访问页面中的所有链接添加到列表(边界)。那么我应该在这个种子列表中添加多少?我是否只需要添加尽可能多的 URL,并希望它们能让我获得与 www 上的 URL 一样多的内容,这是否真的保证我会在那里获得所有其他 URL?或者有一些惯例可以做到这一点?我的意思是......像谷歌这样的搜索引擎是做什么的?
问问题
1615 次
我一直在阅读如何实现爬虫。我知道我们从要访问的 URL 列表(种子列表)开始。访问所有这些 URL 并将访问页面中的所有链接添加到列表(边界)。那么我应该在这个种子列表中添加多少?我是否只需要添加尽可能多的 URL,并希望它们能让我获得与 www 上的 URL 一样多的内容,这是否真的保证我会在那里获得所有其他 URL?或者有一些惯例可以做到这一点?我的意思是......像谷歌这样的搜索引擎是做什么的?