0

我有一个 3 从属 hadoop 集群,我正在一个网站上执行爬网。但是,只有 1 个从站正在执行获取(尽管其他从站仍然活着)。如果只抓取 1 个域,这是正常行为吗?有没有什么办法可以强制其他奴隶去取?

谢谢。

4

1 回答 1

0

作为任何 Hadoop MR 作业设计的一部分,都会决定如何在映射器之间拆分工作。在您的情况下,nutch 按站点拆分获取过程,因此仅使用一个映射器来获取数据。如果您拥有更多站点,它将分担负载。
下面是对该过程的一个很好的描述:Nutch 如何与 Hadoop 集群一起工作?

于 2012-05-24T04:47:08.103 回答