java - 带有“自定义”键的 MapReduce

Question

我有以下问题：我有很多键值对形式的数据。关键是一些 id 和值 - 一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是 MapReduce 的一项任务，如果将我的文本片段作为键，并将 id 作为值。但是这样的键不是 MapReduce 使用的传统方式，而且由于我并不真正了解 MapReduce 框架的内部实现，我不确定这种方式是否有效。所以我的详细想法是：1.在Java（Hadoop，GridGain）中使用一些MapReduce 2.为我的文本片段创建特殊类（比如TextKey）3.覆盖类的equals（），在这里打包文本比较逻辑（比如列文斯坦距离比较，或其他）4。

MapReduce 可以这样工作吗？

score 3 · Accepted Answer

在 GridGain 中，这可以通过将文本键存储在分区数据网格中来轻松解决。GridGain Data Grid 将根据键在集群中自动分区您的数据集，因此只要您的相似文本片段正确实现标准 java hashCode() 和 equals()，就可以了。

您还可以在 GridGain 中发送基于亲和力的 MapReduce 任务，以确保您的作业最终与数据位于同一节点上，以避免在您需要对数据运行某些计算时出现冗余数据移动。这可以通过执行 GridProjection.affinityRun(...) 方法来实现。

score 0 · Accepted Answer

在 map 阶段之后，它的输出使用 Partitioner 进行分区（默认为 HashPartitioner，但您可以提供自己的 Parititioner）。您的 TextKey 应该实现 LSH hashCode，以便类似的 Text 值可能会进入同一个分区。
如果键是字符串/文本对象，则默认排序器将起作用，但我认为在您描述的情况下这不会影响您的结果。
问题出在 Grouper 上，它将分区中的每个组传递给单个 reduce 调用。默认情况下，此分组器会遍历此时排序的分区，并形成具有相等值的组。在您的情况下，您应该确保分组不是通过相等而是通过相似来完成的。因此，如果 LSH 哈希码相同，您的 TextKey 也应该实现该compareTo()方法并注意返回 0。

总之，您可以使用默认数据路径（即默认 Partitioner、Sorter、Grouper），但您的 TextKey（应该实现 WritableComparable）应该在hashCode()andcompareTo()方法中发挥作用

java - 带有“自定义”键的 MapReduce

2 回答 2

Related

Reference