join - Map-side join 与 Hadoop Streaming

Question

我有一个文件，其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录（如果字段 A 则调用）转到同一个映射器。我听说这被称为 Map-Side Join，我还听说如果文件中的记录按我所说的字段 A 排序很容易。

如果更容易，数据可以分布在多个文件中，但每个文件都按字段 A 排序。

这是正确的吗？我如何在流媒体中做到这一点？我正在使用 Python。假设它只是我用来启动 Hadoop 的命令的一部分？

score 0 · Accepted Answer

只希望某些记录发送给某些映射器的真正理由是什么？如果你想要的最终结果是 3 个输出文件（一个全是 A，另一个全是 B，最后一个全是 C），你可以用多个 reducer 来完成。需要知道你真正想要完成什么。

1 回答 1