Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个 URL 列表,我想下载它们以创建 webtrec 格式的索引。我找到了一个名为MapReduce (Apache Hadoop) 的有用框架,但我想知道在 java 中是否有我想做的实现。或者可能是一个很好的例子。
谢谢!
MapReduce 模式是一种在多个步骤中进行可并行的、受 CPU 限制的计算的模式。下载和抓取网页是一项 I/O 密集型操作。因此,您应该区分这两种操作。
因此,当性能真的那么重要时,您应该首先使用队列和异步 I/O 之类的东西来下载网站。在第二步中,您可以使用 MapReduce 构建实际索引。
Hadoop 是一种可能性,但如果您的目标不是大规模,那么 Fork/Join 和 akka 等框架也可能适用。