3

我的任务是为搜索引擎创建一个简单的网络爬虫。现在,爬虫应该如何准确地映射网络?跟随他找到的第一个链接并且永远不会返回,或者一些更高级的搜索方法,如 BFS 或 DFS?

4

1 回答 1

4

我确实注意到我在回答这个问题时有点晚了,但无论如何,这是一个有趣的讨论。

BFS 似乎是一个很好的策略,因为它可以帮助*在一定程度上避免对单个主机的连续请求*。也取决于您的域。您仍然必须处理服务器超时,但 DFS 肯定会造成一些伤害。同样,在 DFS 中,您可以有循环引用在无限循环中运行;除非你做出一些明确的安排。

可以有其他更合适的选择,但在 DFS 和 BFS 之间,我认为 BFS 胜出。

于 2013-02-18T10:02:40.493 回答