0

我有一个 URL 列表,我想下载它们以创建 webtrec 格式的索引。我找到了一个名为MapReduce (Apache Hadoop) 的有用框架,但我想知道在 java 中是否有我想做的实现。或者可能是一个很好的例子。

谢谢!

4

1 回答 1

1

MapReduce 模式是一种在多个步骤中进行可并行的、受 CPU 限制的计算的模式。下载和抓取网页是一项 I/O 密集型操作。因此,您应该区分这两种操作。

因此,当性能真的那么重要时,您应该首先使用队列和异步 I/O 之类的东西来下载网站。在第二步中,您可以使用 MapReduce 构建实际索引。

Hadoop 是一种可能性,但如果您的目标不是大规模,那么 Fork/Join 和 akka 等框架也可能适用。

于 2012-05-09T12:35:46.877 回答