0

在使用分区“主机”爬取多个网站时,根据主机生成分区键,也称为桶。每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会发生什么?在这种情况下,我只有一个桶,这意味着只有一个 spout 实例可以访问我的桶?如果爬取一个桶中的所有网址,如果爬取多个网站,spout 实例是否会移动到下一个桶?

4

1 回答 1

0

如果您抓取一个站点,那么是的,只有一个 spout 将处于活动状态。如果您抓取许多站点,它们将分布在多个存储桶中,并且相同数量的 spout 实例将处于活动状态。当没有更多的 URL 可以获取分片时,相应的 spout 将不会将 URL 发送到拓扑中。其他 spout 实例将继续处理 URL,直到没有更多事情可做。

于 2018-09-17T13:19:32.550 回答