2

我正在研究使用 Yelp 的 MRJob 来使用 Amazon 的 Elastic Map Reduce 进行计算。在计算密集型工作期间,我需要读取和写入大量数据。每个节点应该只获取一部分数据,我对这是如何完成的感到困惑。目前,我的数据在 MongoDB 中,并存储在持久性 EBS 驱动器上。

使用 EMR 时,如何在节点上分解数据?应该如何告诉 MRJob 将数据分区到哪个键上?MRJob EMR 文档隐含了分解步骤:如果您打开文件或连接到 S3 键值存储,它如何划分键?它是否假设输入是一个序列并在此基础上自动对其进行分区?

也许有人可以使用MRJob wordcount 示例来解释输入数据是如何传播到节点的。在该示例中,输入是一个文本文件——它是复制到所有节点,还是由一个节点连续读取并分段分发?

4

1 回答 1

1

该示例假定您正在使用文本文件。我不确定您是否可以传入参数以使用 MongoDB hadoop 驱动程序。

你想在这里做什么?我正在研究 MongoDB hadoop 驱动程序,并且正在寻找示例和测试用例。

于 2011-03-01T21:03:33.797 回答