Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我的任务是为搜索引擎创建一个简单的网络爬虫。现在,爬虫应该如何准确地映射网络?跟随他找到的第一个链接并且永远不会返回,或者一些更高级的搜索方法,如 BFS 或 DFS?
我确实注意到我在回答这个问题时有点晚了,但无论如何,这是一个有趣的讨论。
BFS 似乎是一个很好的策略,因为它可以帮助*在一定程度上避免对单个主机的连续请求*。也取决于您的域。您仍然必须处理服务器超时,但 DFS 肯定会造成一些伤害。同样,在 DFS 中,您可以有循环引用,在无限循环中运行;除非你做出一些明确的安排。
可以有其他更合适的选择,但在 DFS 和 BFS 之间,我认为 BFS 胜出。