4

我们需要每两周抓取大量(约 15 亿)网页。速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终花费了我们超过 2 万美元。

有没有关于哪个爬虫在分布式环境中表现最好的数据?

4

2 回答 2

7

我们只尝试过 nutch、stormcrawler 和 mixnode。我们最终使用 mixnode 在 5k 个域中抓取了约 3 亿个页面。

我的 0.02 美元:mixnode 是更大规模抓取(也就是超过 100 万个 url)的更好选择。对于较小的爬网,这是一种过大的杀伤力,因为您必须解析生成的warc文件,如果您只做几千页,那么运行自己的脚本或使用开源替代品(如nutch或stormcrawler(甚至是scrapy)会更容易) .

Mixnode 现在是网络爬虫的“替代品”,因此它与我的旧答案完全不同。

于 2018-04-11T14:39:54.293 回答
4

有关 Nutch 和 StormCrawler 之间的比较,请参阅我关于 dzone 的文章

Heritrix 可以在分布式模式下使用,但文档对如何执行此操作不是很清楚。前 2 个依赖于成熟的计算分布平台(分别为 Apache Hadoop 和 Apache Storm),但 Heritrix 并非如此。

Heritrix 也主要由归档社区使用,而 Nutch 和 StormCrawler 用于更广泛的用例(例如索引、抓取)并有更多资源用于提取数据。

我不熟悉您提到的 2 个托管服务,因为我只使用开源软件。

于 2017-10-10T21:52:42.207 回答