在使用分区“主机”爬取多个网站时,根据主机生成分区键,也称为桶。每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会发生什么?在这种情况下,我只有一个桶,这意味着只有一个 spout 实例可以访问我的桶?如果爬取一个桶中的所有网址,如果爬取多个网站,spout 实例是否会移动到下一个桶?
问问题
63 次
在使用分区“主机”爬取多个网站时,根据主机生成分区键,也称为桶。每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会发生什么?在这种情况下,我只有一个桶,这意味着只有一个 spout 实例可以访问我的桶?如果爬取一个桶中的所有网址,如果爬取多个网站,spout 实例是否会移动到下一个桶?