Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个 3 从属 hadoop 集群,我正在一个网站上执行爬网。但是,只有 1 个从站正在执行获取(尽管其他从站仍然活着)。如果只抓取 1 个域,这是正常行为吗?有没有什么办法可以强制其他奴隶去取?
谢谢。
作为任何 Hadoop MR 作业设计的一部分,都会决定如何在映射器之间拆分工作。在您的情况下,nutch 按站点拆分获取过程,因此仅使用一个映射器来获取数据。如果您拥有更多站点,它将分担负载。 下面是对该过程的一个很好的描述:Nutch 如何与 Hadoop 集群一起工作?