mongodb - EMR [使用 MRJob] 的输入数据如何跨节点分布？

Question

我正在研究使用 Yelp 的 MRJob 来使用 Amazon 的 Elastic Map Reduce 进行计算。在计算密集型工作期间，我需要读取和写入大量数据。每个节点应该只获取一部分数据，我对这是如何完成的感到困惑。目前，我的数据在 MongoDB 中，并存储在持久性 EBS 驱动器上。

使用 EMR 时，如何在节点上分解数据？应该如何告诉 MRJob 将数据分区到哪个键上？MRJob EMR 文档隐含了分解步骤：如果您打开文件或连接到 S3 键值存储，它如何划分键？它是否假设输入是一个序列并在此基础上自动对其进行分区？

也许有人可以使用MRJob wordcount 示例来解释输入数据是如何传播到节点的。在该示例中，输入是一个文本文件——它是复制到所有节点，还是由一个节点连续读取并分段分发？

score 1 · Accepted Answer

该示例假定您正在使用文本文件。我不确定您是否可以传入参数以使用 MongoDB hadoop 驱动程序。

你想在这里做什么？我正在研究 MongoDB hadoop 驱动程序，并且正在寻找示例和测试用例。

1 回答 1