search-engine - 爬虫种子列表包含什么？

Question

我一直在阅读如何实现爬虫。我知道我们从要访问的 URL 列表（种子列表）开始。访问所有这些 URL 并将访问页面中的所有链接添加到列表（边界）。那么我应该在这个种子列表中添加多少？我是否只需要添加尽可能多的 URL，并希望它们能让我获得与 www 上的 URL 一样多的内容，这是否真的保证我会在那里获得所有其他 URL？或者有一些惯例可以做到这一点？我的意思是......像谷歌这样的搜索引擎是做什么的？

score 3 · Accepted Answer

基本上就是这样，他们使用它们之间的连接（链接）制作了一个很大的网站列表。您的搜索引擎知道的网站越多越好。这里唯一的问题是能够使这个列表有用。也就是说，网站可能性的大列表并不意味着一个好的搜索结果集，所以你必须能够分辨出每个网页中什么是重要的。

但是根据你拥有的信息处理能力，没有必要停在某个地方。

这并不能确保您可以访问那里的每一个 URL，但它基本上是抓取网络的唯一实用方法。

search-engine - 爬虫种子列表包含什么？

1 回答 1

Related

Reference