c++ - 构建网络爬虫

Question

我目前正在开发一个带有内置网络爬虫的自定义搜索引擎。出于某种原因，我不喜欢多线程，到目前为止，我的索引器是以单线程方式编码的。现在我对正在构建的爬虫有一个小困境。任何人都可以建议哪个更好，抓取 1 页然后索引它，或者抓取 1000 多个页面并缓存，然后索引？

score 4 · Accepted Answer

网络很慢（相对于 CPU）。通过并行化爬虫，您将看到速度显着提高。否则，您的应用程序将花费大部分时间等待网络 IO 完成。您可以使用多线程和阻塞 IO，也可以使用带有异步 IO 的单线程。

此外，与一次索引一个文档相比，大多数索引算法在批量文档上的性能会更好。

score 1 · Accepted Answer

不使用线程是可以的。但是，如果您仍然想要性能，则需要处理异步 IO。我建议查看 Boost.ASIO链接文本。使用异步 IO 将使您的困境“无关紧要”，因为这无关紧要。另外作为奖励，将来如果您决定使用线程，那么告诉 Boost.Asio 将多个线程应用于问题是微不足道的。

score 1 · Accepted Answer

更好的？在什么方面？就速度而言，我无法预见明显的差异。就健壮性（从灾难性故障中恢复）而言，最好在抓取每个页面时对其进行索引。

score 1 · Accepted Answer

如果您对爬虫很认真，我强烈建议您“加入”多线程。基本上，您会希望始终运行至少一个索引器和至少一个爬虫（两者都可能有多个）。除其他外，这最大限度地减少了启动和关闭开销（例如初始化和释放数据结构）。

4 回答 4