我有一个文件,其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录(如果字段 A 则调用)转到同一个映射器。我听说这被称为 Map-Side Join,我还听说如果文件中的记录按我所说的字段 A 排序很容易。
如果更容易,数据可以分布在多个文件中,但每个文件都按字段 A 排序。
这是正确的吗?我如何在流媒体中做到这一点?我正在使用 Python。假设它只是我用来启动 Hadoop 的命令的一部分?
我有一个文件,其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录(如果字段 A 则调用)转到同一个映射器。我听说这被称为 Map-Side Join,我还听说如果文件中的记录按我所说的字段 A 排序很容易。
如果更容易,数据可以分布在多个文件中,但每个文件都按字段 A 排序。
这是正确的吗?我如何在流媒体中做到这一点?我正在使用 Python。假设它只是我用来启动 Hadoop 的命令的一部分?