1

我有一个文件,其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录(如果字段 A 则调用)转到同一个映射器。我听说这被称为 Map-Side Join,我还听说如果文件中的记录按我所说的字段 A 排序很容易。

如果更容易,数据可以分布在多个文件中,但每个文件都按字段 A 排序。

这是正确的吗?我如何在流媒体中做到这一点?我正在使用 Python。假设它只是我用来启动 Hadoop 的命令的一部分?

4

1 回答 1

0

只希望某些记录发送给某些映射器的真正理由是什么?如果你想要的最终结果是 3 个输出文件(一个全是 A,另一个全是 B,最后一个全是 C),你可以用多个 reducer 来完成。需要知道你真正想要完成什么。

于 2012-12-02T04:39:03.077 回答